ナッシュ均衡

提供: miniwiki
移動先:案内検索

ナッシュ均衡(ナッシュきんこう、: Nash equilibrium)は、ゲーム理論における非協力ゲームの解の一種であり、いくつかの解の概念の中で最も基本的な概念である。数学者のジョン・フォーブス・ナッシュにちなんで名付けられた。

ナッシュ均衡は、他のプレーヤーの戦略を所与とした場合、どのプレーヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略の組み合わせである。ナッシュ均衡の下では、どのプレーヤーも戦略を変更する誘因を持たない。

ナッシュ均衡は必ずしもパレート効率的ではない。その代表例が囚人のジレンマである。

定義

形式的な定義は次の通りである。標準型ゲーム G = (N, S, u)N はプレーヤーの集合、[math]S=\prod_{i\in N}S_i[/math] は戦略の組の集合、[math]u=(u_i)_{i \in N}\;(u_i:S\rightarrow\mathbb{R})[/math] は効用の組)において、戦略の組 [math]s^*\in S[/math] がナッシュ均衡であるとは、全てのプレーヤー [math]i\in N[/math] と、全ての [math]s_i\in S_i[/math] に対して、

[math]u_i(s^*)\geq u_i(s_i, s^*_{-i})[/math]

を満たすことである。

ただし、si は、i 以外のプレーヤーの戦略の組をさす。

純粋戦略ゲームにおけるナッシュ均衡

支配戦略均衡

純粋戦略ゲーム (Pure strategy game) とは、参加者 (プレーヤー) が必ずどれかの戦略を選ぶゲームである。例えば、以下の表は、二人のプレーヤー Pa と Pb がそれぞれ戦略(A1 または A2)と(B1 または B2)を選べるときの、それぞれの利得を示す。並んだ数字の左側は Pa の利得、右側は Pb の利得である。

Pa/Pb B1 B2
A1 5, 2 2, 4
A2 4, 6 1, 6

まず Pa の利得に注目すると、Pb がどちらの戦略を選ぼうが、Pa は A1 戦略を選んだ方がより大きな利得を得ることができる。このような関係が成り立つとき、A1強支配戦略であると表現する。支配するとは、ある戦略を選ぶことが他方の戦略を選ぶより有利であるという意味である。

次に Pb の利得に注目すると、Pa がどちらに戦略を選んでも、B2 戦略を選んだ方が B1 戦略のとき以上の利得を得られる。Pa が A2 戦略を選んだ場合には B1 と B2 は同等になるので、このような関係のとき B2弱支配戦略であるという。

結果として、Pa にとっての最適戦略は A1、Pb にとっての最適戦略は B2 となり、両者ともここから戦略を変更しても利得は減る。この組み合わせ (A1, B2) が支配戦略均衡となる。

Pa、Pb が (A1, B2) という戦略をとった場合、Paは戦略を変更して A2 をとれば利得が 2 から 1 へ減少してしまうため、戦略を変更する誘因を持たない。同様に Pb も、戦略を変更して B1 をとれば利得が 4 から 2 へ減少してしまうため、戦略を変更する誘因を持たない。従ってこの例では支配戦略均衡はナッシュ均衡である。

なお、Pa、Pb が (A2, B1) という戦略をとった場合の利得は (4, 6) となり、ナッシュ均衡における利得と比べて Pa、Pb ともにより大きな利得を得ることができる。この場合、Pa がより大きな 5 の利得を得るため A1 に戦略を変更する誘因を持つため、ナッシュ均衡ではない。すなわち、このゲームは囚人のジレンマゲームである。また、(A1, B2) から (A2, B1) への戦略変更は、パレート改善であり、ナッシュ均衡 (A1, B2) はパレート効率的ではない。

逐次消去による均衡

相手の戦略によってどの戦略が最も大きな利得を出すかが変化する場合、他の戦略すべてを支配できる戦略が存在しない場合がある。そのような場合、他から支配されている戦略(被支配戦略)を消去していくことで残った戦略の組み合わせを支配戦略均衡と定義できる。支配戦略によってナッシュ均衡が定義できる場合、それは消去によって定義されたものと一致する。

Pa/Pb B1 B2 B3
A1 5, 2 2, 4 4, 0
A2 4, 6 3, 6 2, 5
A3 3, 3 1, 2 7, 2

B3 は B2 に支配されているため、B3 を消去。

Pa/Pb B1 B2
A1 5, 2 2, 4
A2 4, 6 3, 6
A3 3, 3 1, 2

A3 は A2 に支配されているため A3 を消去。

Pa/Pb B1 B2
A1 5, 2 2, 4
A2 4, 6 3, 6

B1 は B2 に支配されているため B1 を消去。

Pa/Pb B2
A1 2, 4
A2 3, 6

支配戦略均衡は (A2, B2)。

純粋戦略ナッシュ均衡

他のプレイヤーの戦略によらず最大利得をもたらす戦略の組合せも被支配戦略の逐次消去によって求まる戦略の組合せも支配戦略均衡であるが、ゲームの設定によっては上述した2つの方法では均衡を求めることができない。ナッシュ均衡の定義によれば他のプレイヤーの戦略を最適反応であると仮定したうえで自身の最適反応を求めればよいので、支配戦略均衡が存在しない純粋戦略ゲームにおいてもナッシュ均衡を見つけることができる。

たとえば上の3×3の標準形ゲームの (A1, B3) の利得を (4, 0) から (4, 5) に変えればどの戦略も逐次消去されず、支配戦略均衡が求まらないが、

Pa/Pb B1 B2 B3
A1 5, 2 2, 4 4, 5
A2 4, 6 3, 6 2, 5
A3 3, 3 1, 2 7, 2

相手の戦略を所与としたときに最大利得をもたらす戦略(最適反応)を組み合わせていくと、唯一 (A2, B2) が最適反応の組合せになっていることがわかる。従ってこのゲームには純粋戦略ナッシュ均衡が一組存在する。

混合戦略ゲームにおけるナッシュ均衡

混合戦略ゲームとは、参加者が行動を確率的に選ぶような戦略をとることでナッシュ均衡に到達する非協力ゲームのことである。このようなゲームでは純粋戦略ナッシュ均衡が必ずしも存在せず、ナッシュ均衡は各参加者の行動確率の組として表される。有限の(=プレーヤーの数と各プレーヤーの戦略の数が有限の)混合戦略ゲームでは少なくとも1つのナッシュ均衡が存在することはナッシュの定理で証明されている(ナッシュは、この証明を角谷の不動点定理を応用することによって得た)。

以下では具体例を用いて混合戦略ナッシュ均衡を求めてみる。2人のプレイヤー Pa と Pb はそれぞれ2つの戦略から1つを選択するが、相手がどの戦略を選択するかはわからないため、各プレイヤーが確率的に相手の行動を予測する。すなわち Pa は相手 (Pb) が確率 q で B1 を選択し、Pb は相手 (Pa) が確率 p で A1 を選択すると予想しているとする。

Pa/Pb B1
確率 q
B2
確率 (1 − q)
A1
確率 p
1, 2 0, 0
A2
確率 (1 − p)
0, 0 2, 1

この表のゲームにおいて Pa の得る利得の期待値は:

  • A1を選択:1 × q + 0 × (1 − q)
  • A2を選択:0 × q + 2 × (1 − q)

一方、 Pb の得る利得の期待値は:

  • B1を選択:2 × p + 0 × (1 − p)
  • B2を選択:0 × p + 1 × (1 − p)

ここで最適反応をとるとは相手の行動確率に関して期待利得がより大きな戦略を選ぶことであるから、以下のように各プレイヤーの行動をまとめることができる。

Pa/Pb p > 1/3 p < 1/3
q > 2/3 p=1, q=1 p=1, q=0
q < 2/3 p=0, q=1 p=0, q=0

なお、p=1/3, q=2/3 のときはそれぞれ期待利得が相手の行動に関して無差別なので、平面上に各軸を行動確率(pとq)として各プレイヤーの最適反応をグラフで表わすことができる(これを均衡経路という)。混合戦略ナッシュ均衡とはこの図における均衡経路の交点であり、従って混合戦略ナッシュ均衡において Pa は (1/3, 2/3) を選択し、Pb は (2/3, 1/3) を選択する。

ここで分析したゲームは一般的に両性の争いEnglish版と呼ばれるものである。

参考文献

論文

書籍

関連項目

外部リンク

テンプレート:ゲーム理論