エクスプロイタビリティ — Nashからの距離を測る
君が CFR+ を回したとき、画面の隅に小さく出ている数字がある。Exploitability: 0.42% pot ——あるいは 0.18 bb/100。多くの者がこれを無視してベット頻度ばかり見る。だがこの数字こそが、君の解が信用に値するかを決める。
エクスプロイタビリティとは一言で:
その戦略に対し、相手が最善(ベストレスポンス)で反撃したとき、相手が均衡を超えてどれだけ余分に稼げるか。
ゼロなら完全な均衡。大きいほど「搾取の余地」が残っている。これは君のソルバーの収束度であり、同時に君自身のプレイがどれだけ漏れているかの物差しでもある。
単位を読めるようになる
エクスプロイタビリティは複数の単位で語られる。混同するな。
単位 意味 基準
-------------------------------------------------------------
% pot 1ポットあたりの搾取可能利得 < 0.5% で実用的均衡
mbb/g 1ゲームあたりミリbb 1000 mbb = 1bb
bb/100 100ハンドあたりbb 勝率と同じ尺度
chips/hand 絶対チップ量 スケール依存・比較不可mbb/g(milli-big-blind per game)が CFR+ 系で最も使われる。mbb = bb/1000 だから、50 mbb/g は「1 ゲームあたり 0.05bb を相手に余分に取られうる」という意味だ。
どこまで回せば「収束した」か
CFR+ は反復するほどエクスプロイタビリティが単調に減る(厳密には準単調)。問題は「いつ止めるか」。
反復回数 典型 Exploitability 判定
-------------------------------------------------------------
100 iter ~3.0% pot 粗い。傾向しか見えない
1,000 iter ~0.8% pot 実戦の方向性は信頼可
10,000 iter ~0.2% pot 比率まで信頼可・実用十分
100,000 iter ~0.05% pot 研究用精度。卓では過剰ベストレスポンスとの差分が漏れの地図になる
エクスプロイタビリティ計算の副産物が、実は最も価値が高い。
ベストレスポンスを計算する過程で、ソルバーは**「相手はどのノードで、どう殴れば一番得をするか」を内部的に求めている。この差分マップを開くと、君の(あるいは検証対象の)戦略のどのスポットが最も漏れているか**が可視化される。
ノード別 搾取寄与(K72r, BTN c-bet 検証)
-------------------------------------------------------------
ターン Q ヒット時のオーバーベット欠如 寄与 +0.21% pot
リバー ブラフ過多(ブロッカー無視) 寄与 +0.15% pot
フロップ チェックレンジの過小防御 寄与 +0.09% pot
-------------------------------------------------------------
合計 0.45% potエクスプロイタビリティ 0.45% という総量より、その内訳のどこに 0.21% が集中しているかが君の修正すべき急所だ。
二つの距離を使い分ける
ハンターは二つのエクスプロイタビリティを常に意識する。
- 自分の距離:君の戦略が Nash からどれだけ離れているか。=守りの穴。GTO 相手にどれだけ漏れるか。
- 相手の距離:相手の戦略が Nash からどれだけ離れているか。=攻めの的。君が突くべき利益源。
GTO 戦士は自分の距離をゼロに保つ。搾取ハンターは、自分の距離を相手が突けない範囲に保ちつつ、相手の距離を最大限に突く。後者が裏レッスン百の立つ場所だ。
このレッスンの要点
- エクスプロイタビリティ=相手がベストレスポンスで殴ったときの超過利得
- mbb/g, % pot, bb/100 の単位を読み分けろ(mbb = bb/1000)
- 個人検証は < 0.5% pot で十分。完璧な収束は時間の浪費
- ノード別の搾取寄与マップが君の漏れの急所を指す。相手の距離こそ利益源