あんま詳しくないけど・・・
Game Theory Optimizeの略、ゲーム理論最適化。
ナッシュ均衡や収束とは?
単純マルコフ遷移は収束するということに近いです。
例)
じゃんけん。
AさんとBさんがいます。
AさんとBさんはお互い初めてじゃんけんします。
Aさんは、60%でグーをだし、20%でパーをだし、20%でチョキをだします。
Bさんは、30%でグーをだし、0%でパーをだし、70%でチョキをだします。
A | B | |
---|---|---|
グー | 60% | 30% |
パー | 20% | 0% |
チョキ | 30% | 70% |
そして、この情報をお互いに知っているものとします。
Aさんは自分がグーに偏っていることを知っていて、
Bさんがいままでパーを一切出していないことをAさんも、Bさん自身も知っているということです。
では、この状態で、AさんとBさんがじゃんけんをしたときに、Aさん、Bさんそれぞれが出すべき手の評価値はどうなるでしょうか。
答えは
A | B | |
---|---|---|
グー | 33.3% | 33.3% |
パー | 33.3% | 33.3% |
チョキ | 33.3% | 33.3% |
です。
なぜこのような結果になるのかは説明しませんが、
これは、線形的な計算によって、もたらされます。
これと似たような計算をポーカーに当てはめたのがGTOです。