ゲーム理論におけるトリガー戦略の計算問題

【問題】
　次のような利得行列の囚人のジレンマにおいて、無限回の繰り返しゲームを考えます。

　トリガー戦略の組が、この繰り返しゲームのナッシュ均衡となるような割引因子$\delta$を求めてください。

※「▶」をクリックすると、回答を見ることができます。

【回答】

　トリガー戦略とは、両者が協力を選択しているときは、協力をし続けますが、1度でも裏切りを選択したときにはもう一人のプレイヤーは裏切りをとり続けるというものです。

　ですので、両者が協力をし続ける場合と、一度でもどちらかが裏切りを選択したときの割引総利得を比較することになります。

　囚人A・囚人Bが、トリガー戦略をとっているとき、共に協力を選択するので、割引総利得は、

　　$2 + 2 \times \delta + 2 \times \delta^2 + \cdots = \dfrac{2}{1 \; – \; \delta}$

となります。

　他方、トリガー戦略に従わずに、例えば1回目に裏切りを選択したとき、2回目には相手はトリガー戦略により、裏切りをとり続けるので、このときの割引総利得は、

　　$4 + 1 \times \delta + 1 \times \delta^2 + \cdots = 4 + \dfrac{\delta}{1 \; – \; \delta} = \dfrac{4 \; – \; 3\delta}{1 \; – \; \delta}$

となります。

　トリガー戦略が最適応答になるのは、最初の割引総利得のほうが大きくなるときなので、

　　$\dfrac{2}{1 \; – \; \delta} \geq \dfrac{4 \; – \; 3\delta}{1 \; – \; \delta}$

から、

　　$\delta \geq \dfrac{2}{3}$

となります。

　なお、ここでは裏切りが1回目としていますが、何回目であっても結論は変わりません。共に協力しているときの利得を差し引き、$\delta^i$で割れば、同じになるからです。