はじめに
ゲーム理論において、混合戦略の問題は、純粋戦略に次いで、基本的な内容です。
そして、均衡を求める計算問題として出されたとき、その計算自体も、中学生レベルで難しくはないのですが、
「あれっ、どうやって解くんだっけ?」
といった具合に、ちょっと戸惑うことがあるのではないかと思います。
そこで、例題として、混合戦略における計算問題の解き方を説明します。
例題
プレイヤー1とプレイヤー2の2人がおり、それぞれ戦略Aと戦略Bを選ぶとします。
このときの利得行列は、次のようになっているとします。なお、この行列の左の数値はプレイヤー1の利得、右の数値はプレイヤー2の利得を表します。
プレイヤー2 | |||
---|---|---|---|
戦略A | 戦略B | ||
プレイヤー1 | 戦略A | 1 , 1 | 2 , 2 |
戦略B | 0 , 3 | 3 , 0 |
なお、プレイヤー1が戦略Aをとる確率をp、戦略Bをとる確率を1-pとして、プレイヤー2が戦略Aをとる確率をq、戦略Bをとる確率を1-qとします(それぞれ、0≦p≦1、0≦q≦1です)。
解き方
解き方1:場合分け
1つ目の方法は、場合分けをして、問題を解いていくというものです。
(プレイヤー1)
プレイヤー1が戦略A・Bをとったときの利得を考えます(なお、プレイヤー1が戦略Aをとったときにはp=1、戦略Bをとったときにはp=0となることに注意)
戦略Aをとったときの利得: 1 × q + 2 × (1 – q) = 2 – q
戦略Bをとったときの利得: 0 × q + 3 × (1 – q) = 3 – 3q
qの値でプレイヤー1の利得は変化するのですが、戦略Aをとったときのほうが利得が高くなるのは、
2 – q > 3 – 3q
であり、
q > 1/2
となります。すなわち、q > 1/2のときには、プレイヤー1は戦略Aを採用したほうがよく、p=1となります。
逆に、戦略Bをとったほうがプレイヤー1の利得が高くなるのでは、逆なので、
q < 1/2
のとき、p=0となります。
そして、q = 1/2のときには、戦略Aをとろうが戦略Bをとろうが、プレイヤー1の利得は変わらないので、pは無差別になります。
以上をまとめると、次のようになります。
q > 1/2のとき、p = 1
q = 1/2のとき、0 < p < 1
q < 1/2のとき、p = 0
(プレイヤー2)
プレイヤー1のときと同じように、プレイヤー2が戦略A・Bをとったときの利得を考えます。
戦略Aをとったときの利得: 1 × p + 3 × (1 – p) = 3 – 2p
戦略Bをとったときの利得: 2 × p + 0 × (1 – p) = 2p
この式から、上記と同様に求めていくと、
p > 3/4のとき、q = 1
p = 3/4のとき、0 < q < 1
p < 3/4のとき、q = 0
(均衡)
上記のプレイヤー1とプレイヤー2の両方の式を満たすのは、
p=3/4 , q= 1/2
となり、これが均衡となります。
解き方2:式変形
解き方1では場合分けしましたが、式を変形して、まとめて考えるやり方です。
(プレイヤー1)
プレイヤー1の利得は、次のように表すことができます。
利得: 1 × p × q + 2 × p × (1 – q) + 0 × (1 – p) × q + 3 × p × q
なお、それぞれの項は、次のようになっています。
第1項:1 × p × q ⇒ プレイヤー1は戦略A、プレイヤー2は戦略Aの場合の利得
第2項:2 × p × (1 – q) : プレイヤー1は戦略A、プレイヤー2は戦略Bの場合の利得
第3項:0 × (1 – p) × q ⇒ プレイヤー1は戦略B、プレイヤー2は戦略Aの場合の利得
第4項:3 × p × q ⇒ プレイヤー1は戦略B、プレイヤー2は戦略Bの場合の利得
そして、上記の式を変形すると、次を得ることができます。
利得: (2q – 1)p + 3(1 – q)
この式を見ると、プレイヤー1はpを変化させることができるのですが、pは正の値しかとらず、pに掛かっている2q-1により、プレス・マイナスが変化することが分かります。
2q – 1 > 0のとき、pの係数はプラスになるので、pは最も大きいp=1を選ぶ
2q – 1 < 0のとき、pの係数はマイナスになるので、pは最も大きいp=0を選ぶ
2q – 1 = 0のとき、pの係数は0になるので、pはどのような値でもよい
ということになります。
この結果、「解き方1:場合分け」とのときと同じように、
q > 1/2のとき、p = 1
q = 1/2のとき、0 < p < 1
q < 1/2のとき、p = 0
を得ることができます。
(プレイヤー2)
プレイヤー2の利得は、次のように表すことができます。
利得: 1 × p × q + 2 × p × (1 – q) + 3 × (1 – p) × q + 0 × p × q
これを式変形すると、
利得: (3 – 4p)q + 2p
を得ることができ、qに掛かっている3 -4pに着目すると、
p > 3/4のとき、q = 1
p = 3/4のとき、0 < q < 1
p < 3/4のとき、q = 0
となります。
(均衡)
「解き方1:場合分け」と同じように、上記のプレイヤー1とプレイヤー2の両方の式を満たすのは、
p=3/4 , q= 1/2
となり、これが均衡となります。
解き方3:微分
最後の解放は、それぞれの利得を微分するというものです。
(プレイヤー1)
上記の「解き方2:式変形」から、プレイヤー1の利得は、次のように表せます。
利得: (2q – 1)p + 3(1 – q)
プレイヤー1はpを変化させることができるので、pで微分すると、
2q – 1 = 0
であり、次のとき、プレイヤー1の利得は最大になります。
q = 1/2
(プレイヤー2)
プレイヤー1の場合と同様に解いていくのですが、プレイヤー2の利得は、次のように表せます。
利得: (3 – 4p)q + 2p
プレイヤー2はqを変化させることができるので、qで微分すると、
3 – 4p = 0
であり、次のとき、プレイヤー2の利得は最大になります。
p = 3/4
(均衡)
以上から、それぞれのプレイヤーの利得が最大になるのは、
p=3/4 , q= 1/2
となり、これが均衡となります。
参考
岡田章『ゲーム理論・入門』
武隈愼一『ミクロ経済学』