２.囚人のジレンマゲーム

内容

復習（非協力ゲーム）
囚人のジレンマゲームの設定
ゲームの状況を定式化
ナッシュ均衡とゲームの解
なぜジレンマと呼ばれるか？（パレート最適との比較）

1,復習:非協力ゲーム（参照元：ゲーム理論とは）

囚人のジレンマゲームは、非協力ゲームの代表的なゲームの一つです。ここで、非協力ゲームの定義を再確認しましょう。

非協力ゲームの状況とは「参加者がお互いに相手の行動を拘束することができない」状況です。
この状況では、それぞれの個人が利益を最大化するために行動します。
「お互いに拘束できない」、「それぞれが個人の利益を最大化する」このふたたつのキーワードを頭に入れて次節以降を読んでみてください。きっと、囚人のジレンマゲームの理解に役に立つと思います。

2.囚人のジレンマゲームの設定

囚人のジレンマゲームでは、以下のような司法取引を想定します。

二人の犯罪者が、意思疎通ができない状態で別々に尋問を受けています。犯罪者が取れる行動は「自白」と「黙秘」のみとします。
ここで、尋問者が以下のような取引を持ちかけます。

一方が「自白」をし、もう一方が「黙秘」をした場合、「自白」をしたものは無罪、「黙秘」をしたものは懲役10年
どちらも「黙秘」をした場合、どちらも懲役3年
どちらも自白をした場合、どちらも懲役5年

果たして、それぞれの犯罪者が選ぶ行動は「自白」でしょうか？「黙秘」でしょうか？

3.ゲームの状況を利得行列で表現

まずは、解を求める準備として囚人のジレンマゲームを表形式で表現します。この表を利得行列と呼びます。
さて、利得行列で表現する前にゲームの状況を整理していきましょう。
囚人のジレンマゲームにおいて、犯罪者は「自白」・「黙秘」という選択肢（戦略と呼ぶ）をもつ。
犯罪者はどちらの戦略を取れば良いかを選択する。（戦略の決定主体をプレイヤーと呼ぶ）。
それぞれのプレイヤーの戦略によって懲役が決まる。（戦略を決定することによって、決定されるプレイヤーの利益を利得と呼ぶ）
これらの情報を利得行列にまとめると以下のように書けます

1\2	自白	黙秘
自白	(5,5)	(0,10)
黙秘	(10,0)	(3,3)

一番左の列は犯罪者1の戦略、一番上の行は犯罪者2の戦略を表しています。
この表の（0,10）の意味は、犯罪者1の懲役（利得）が0年, 犯罪者2の懲役（利得）が10年という意味です。
つまり犯罪者1の戦略が「自白」、犯罪者2の戦略が「黙秘」の場合、犯罪者1,2の懲役(利得)はそれぞれ、0年,10年になるということをこの表で表現しています。
同様に
犯罪者1, 犯罪者2が共に自白　→ どちらも懲役5年
犯罪者1犯罪者2が共に黙秘　→ どちらも懲役3年
犯罪者1が黙秘, 犯罪者2が自白　→ 犯罪者1 懲役 10年, 犯罪者2 懲役0年

次節ではこの利得行列を用いて、ゲームの解を求めていきます。

4.ナッシュ均衡とゲームの解

非協力ゲームでは、お互いに相手の行動を拘束することができません。その中で自己の利益を最大化するために行動をします。
利益を最大化する方法としては、「相手の戦略に対して利益が最大化」される戦略を選ぶという方法があります。これを相手の戦略に対する最適応答と呼びます。
実際に利得行列を使って見ていきましょう。

プレイヤー1の視点
プレイヤー2の戦略が「自白」の場合、「黙秘」の列を除いてみると以下になる。

1\2	自白
自白	(5,5)
黙秘	(10,0)

プレイヤー1が自白をする場合、懲役は5年

1\2	自白
自白	(5,5)

プレイヤー1が黙秘をする場合、懲役は10年

1\2	自白
黙秘	(10,0)

懲役は短い方が良いので、プレイヤー2の自白に対する最適応答は「自白」ということがわかります。
同様にプレイヤー2の戦略が「黙秘」である場合の、プレイヤー1の最適応答を求めて見ましょう。
プレイヤー2の戦略が「黙秘」の場合、
プレイヤー１が「自白」を選択すると懲役が0年、「黙秘」を選択すると懲役が3年となりますね。（以下利得行列参照）

1\2	黙秘
自白	(0,10)
黙秘	(3,3)

よって、プレイヤー2の「黙秘」に対する最適応答は「自白」となります。ここではプレイヤー2のどちらの戦略に対してもプレイヤー1は「自白」をすれば「黙秘」をするよりも懲役を短くできます。ゲーム理論ではこのような状況を「自白は黙秘を支配している」と表現します。
では、プレイヤー1の戦略に対するプレイヤー2の最適応答がどうなるでしょうか？
プレイヤー1とプレイヤー2に提示された条件は同じなので、プレイヤー2にとっても「自白が黙秘を支配している」ことがわかります。
よって、このゲームではプレイヤー1,2ともに「自白」を選択し、懲役が共に３年となります。
ここで、選択される解に注目します。
プレイヤー2の「自白」に対して、プレイヤー1の最適応答が「自白」であり、逆にプレイヤー1の「自白」に対して、プレイヤー2の最適応答が「自白」となっていることにお気づきでしょうか？
このように「どのプレイヤーにとっても、相手のプレイヤーの戦略の最適応答となる戦略の組み合わせ」をナッシュ均衡と呼びます。
非協力ゲームでは、このナッシュ均衡を求めることで求解を行います。

5.なぜジレンマと呼ばれるのか？
（パレート最適と比較）

では、なぜこのゲームがジレンマと呼ばれるのでしょうか？
それに答えるために社会最適の概念である「パレート最適」という概念を導入します。

パレート最適とは「誰かの利得をあげるためには、他の誰かの利得を下げなければならない状態」

のことを指します。つまり、「戦略の組みを変えることで参加者全員の利得を同時に上げることができない状態」のことを指します。
では、囚人のジレンマゲームにおけるパレート最適な戦略の組みはどの戦略の組になるでしょうか？
答えは、ナッシュ均衡以外の全ての戦略の組みです。
まず、ナッシュ均衡がパレート最適ではないというところから、見ていきましょう。
ナッシュ均衡はプレイヤー1,2が共に「自白」をし、懲役が5年になります。
しかし、仮に両プレイヤー1,2が「黙秘」をした場合はどうでしょうか？
両プレイヤーの懲役は「３年」となり、参加者全員の利得を同時に上げることができていますね。よってナッシュ均衡はパレート最適ではありません。
他の戦略の組みを見ていきましょう。
両プレイヤーが「黙秘」をする場合、
両プレイヤーが「自白」に戦略を変えた場合はどちらの利得も下がります。
一方のみが「自白」に変更した場合は、片方は懲役0年に改善できますが、もう片方は懲役10年と利得が減少してしまいます。
よって、両プレイヤーが「黙秘」の戦略を取ることはパレート最適な戦略といえます。
一方が「自白」、もう一方が「黙秘」の場合を考えて見ましょう。
両プレイヤーが「自白」または、両プレイヤーが「黙秘」に戦略を変更した場合、もともと「黙秘」を選択していたプレイヤーの利得は上がります（懲役10年を5年または3年にすることができる）が、もともと「自白」を選択していたプレイヤーの利得が下がります（懲役0年が5年または3年になってしまう）。
「自白」と「黙秘」をひっくり返した場合も、片方の利得が上がり、もう片方の利得が下がることがわかりますね。

このように、ナッシュ均衡解は、パレート最適解とはならないという点でこのゲームは囚人の”ジレンマ”と呼ばれます。
囚人のジレンマゲームの重要な解釈として以下を覚えて帰ってください。

個人合理的な解は必ずしも社会合理的な解と一致しない

最後まで読んでいただきありがとうございます。
次回は展開形ゲームと様々なゲームについて記事を書きます！！

追記

ナッシュ均衡を求めるPGを実装しました。試して見て下さい！
（非SSLなのはご容赦ください。）
http://gametukkru.html.xdomain.jp/

Ecoブログ