ウエイトという視点からのフォーク定理について

はじめに

　ゲーム理論の繰り返しゲームにおいて、フォーク定理とは、

　　「割引因子が1に近いとき、囚人のジレンマゲームにおいて、両方が協調することがナッシュ均衡になる」

というものです。

　1回限りのゲームでは、囚人のジレンマでは、両方が裏切ることがナッシュ均衡となりますが、この繰り返しゲームでは、暗黙的に協調することになります。

　このフォークの定理について、ウエイトという観点からも説明でき、もしかしたらこのほうが分かりやすいかもしれないので、説明したいと思います。

　囚人Aと囚人Bがおり、協調と裏切りの2つの行動をとるとします。
　それぞれの利得について、1つ目を囚人A、2つ目を囚人Bの利得とし、次のような利得行列になっているとしましょう。

　双方が協調すると、囚人A・囚人B共に$\pi_{CC}$の利得が得られ、一方が裏切ると、裏切った者は$\pi_{CD}$、もう一方は利得が$0$になるとします。そして、双方が裏切った場合は、囚人A・囚人B共に$\pi_{DD}$の利得になるとします。

　なお、囚人のジレンマとなるには、

　　$\pi_{CD} > \pi_{CC} > \pi_{DD} \quad \cdots \quad (1)$

になると考えられます。

　上記の利得行列のもと、繰り返しゲームで、囚人A・囚人Bはトリガー戦略をとるとします。

　すなわち

　　(A) 双方が協調を選択するならば、その後も協調を選択し続ける

　　(B) どちらかが裏切りを選択したときには、もう1人はその後は裏切りを選択する

というものです。

　この(A)(B)について、割引因子を$\delta$とし、それぞれの利得を計算してみます。

　まずは、(A)の双方が協調し続ける場合の利得は、次のようになります。

　　$\pi_{CC} + \delta \pi_{CC} + \delta^2 \pi_{CC} + \cdots = \dfrac{\pi_{CC}}{1 \; – \; \delta} \quad \cdots \quad (2)$

　次に、(B)の場合で、1回目に裏切った場合の利得は、次のようになります。

　　$\pi_{CD} + \delta \pi_{DD} + \delta^2 \pi_{DD} + \cdots = \pi_{CD} + \dfrac{\delta \pi_{DD}}{1 \; – \; \delta} \quad \cdots \quad (3)$

　双方が協調し合う戦略がナッシュ均衡になるには、$(2)$式の値のほうが$(3)$式の値よりも大きいときなので、

　　$\dfrac{\pi_{CC}}{1 \; – \; \delta} \geq \pi_{CD} + \dfrac{\delta \pi_{DD}}{1 \; – \; \delta}$

であり、式変形すると、

　　$\pi_{CC} \geq (1 \; – \; \delta) \pi_{CD} + \delta \pi_{DD} \quad \cdots \quad (4)$

となります。

　この式の右辺は、一方が裏切ったときの利得$\pi_{CD}$と両方が裏切ったときの利得$\pi_{DD}$について、割引因子$\delta$でウエイト付けられた加重平均となってます（割引因子は$0 \leq \delta < 1$に注意）
。

　そして、この裏切った場合の加重平均よりも、双方が協調するときの利得が高いときに、ナッシュ均衡になり、フォーク定理が成立します。

　ここで、$\delta$については、

　　$\delta \rightarrow 1$のとき、$\pi_{CC} \geq \pi_{DD}$

　　$\delta \rightarrow 0$のとき、$\pi_{CC} \geq \pi_{CD}$

となりますが、$(1)$式を考えれば、双方が協調したときの利得$\pi_{CC}$よりも、一方が裏切ったときの利得$\pi_{CD}$のほうが高いので（違う言い方ではこれが成立しないと、そもそも囚人のジレンマゲームではない）、$\delta \rightarrow 0$のときは矛盾が生じています。

　このことから、

　　$\delta \rightarrow 1$のとき、$(4)$式は成立する

　　$\delta \rightarrow 0$のとき、$(4)$式は成立しない

となり、フォーク定理の結論である割引因子が1に近いときにナッシュ均衡になるということが示されることになります。

　　岡田章・加茂知幸・三上和彦・宮川敏治『ゲーム理論ワークブック』