あんま詳しくないけど・・・

Game Theory Optimizeの略、ゲーム理論最適化。

ナッシュ均衡や収束とは?

単純マルコフ遷移は収束するということに近いです。

例)
じゃんけん。

AさんとBさんがいます。
AさんとBさんはお互い初めてじゃんけんします。

Aさんは、60%でグーをだし、20%でパーをだし、20%でチョキをだします。
Bさんは、30%でグーをだし、0%でパーをだし、70%でチョキをだします。

AB
グー60%30%
パー20%0%
チョキ30%70%

そして、この情報をお互いに知っているものとします。
Aさんは自分がグーに偏っていることを知っていて、
Bさんがいままでパーを一切出していないことをAさんも、Bさん自身も知っているということです。

では、この状態で、AさんとBさんがじゃんけんをしたときに、Aさん、Bさんそれぞれが出すべき手の評価値はどうなるでしょうか。

答えは

AB
グー33.3%33.3%
パー33.3%33.3%
チョキ33.3%33.3%

です。
なぜこのような結果になるのかは説明しませんが、
これは、線形的な計算によって、もたらされます。

これと似たような計算をポーカーに当てはめたのがGTOです。