ひと昔前のNLHでは、個々のハンドの価値(勝率)を重要視してレンジを構築するプレイヤーがほとんどだった。プレミアムハンドを崇拝し、ハイカード系のハンドはカードのランクに価値がつきスーテッドかオフスートかをほとんど重要視しないプレイヤーも多くみられた。(ちなみに私もその1人だ。実際、ガチ勢がいない仲間内やプレイマネーアプリではこのハンドレンジで多く勝つことができていた。)
しかし、個々のハンドの価値だけを考慮してレンジを構築すると、たまにしか訪れないプレミアムハンドに収益の多くを依存する羽目になる。バランスの取れたレンジを構築できるプレイヤーが多い環境では、長期的に利益を上げることは困難だろう。また、あなたのレンジが狭すぎることに気づいたプレイヤーは、プリフロップから搾取的なプレイで利益を上げようとしてくるかもしれない。さらにはフロップ以降、相手はボードテクスチャからこちらのレンジの強弱を容易に推測できてしまうため、多くのボードで簡単にアジャストされることとなるだろう。
では、最適なプリフロップレンジとはいったいどういったものなのか。
この記事の構成
- プリフロップにおける理論上の最適解について
- 世に出回るプリフロップレンジの種類と特徴について
- まとめ
1.プリフロップにおける理論上の最適解
ポーカーを含む不完全情報ゲームにおける最適戦略の1つが、ナッシュ均衡だ。ポーカーにおける特定の状況下での戦略について、ナッシュ均衡に収束するように計算されたものはGTO戦略と呼ばれている。
では、プリフロップにおいてGTO戦略は存在するのか?その答えについては、はっきりとはわからなかった。というのも、現在一般的なPioSolverやGTO+といったGTOツールは、ヘッズアップの状況を計算するためのものであり、複数プレイヤーが存在する状況が多いプリフロップでは、その利用は限られている。一方、プリフロップ時点でヘッズアップとなる状況では、計算可能である。以下に、完璧もしくは近似的にプリフロップGTO戦略を計算できる場面の例を示す。
〇SB vs BB
BTNまで全員がフォールドの場合、HUとなるのでプリフロップから完璧にGTO戦略を計算できる。
〇 Open Raiser vs BB
UTG~BTNいずれかのプレイヤー1人がオープンレイズし、BBまで全員フォールドでBBに回ってきた場合、レイザーのおおよそのオープンレンジがわかっていれば、近似的にGTO戦略が計算できる。
このような事実から、私自身はプリフロップにおけるGTO戦略について、一部を除いては計算不可能だという認識である。
しかし、世の中にはMonker SolverやSimplePokerのSimple3WayといったマルチウェイにおけるGTO戦略計算ツールがすでに存在している。おそらく、ヘッズアップのGTOツールで用いられるCFR(Counter Factual Regret minimization)というアルゴリズムを用いて戦略を計算するツールだと考えられる。CFRは2人プレイヤーゼロサムゲーム(ポーカーのヘッズアップがそれにあたる)においては、ナッシュ均衡に収束することが知られているが、マルチウェイについてはわかっていない。しかし、マルチウェイにおいてCFRを適用した場合の有用性は「Regret Minimization in Games and the Development of Champion Multiplayer Computer Poker-Playing Agents」において証明されている。
おそらく上記のようなマルチウェイGTO戦略計算ツールを用いて計算されたプリフロップレンジ表は既に存在しているはずだ。そして、そのようなプリフロップレンジ表がナッシュ均衡に収束している可能性は高い。もし、そうならばプリフロップにおける理論上の最適解は存在していることになる。
では、理論上最適となるプリフロップレンジ表が既に存在しているとすれば、それをもってプリフロップ戦略の完全解明となり、プリフロップの答えとなるのだろうか。
もし、最適なプリフロップレンジ表に従い、ポストフロップについてもそのレンジを元に計算されたGTO戦略をとるコンピューターが存在した場合、人間はもちろん如何なるコンピューターを用いたとしても、長期的に勝ち越すことは不可能となるのかもしれない。しかし、それをもってプリフロップの完全解明というのは時期早々である。そもそもナッシュ均衡は有限ゲームにおいて少なくとも1つ以上存在するものであり、上述のCFRが収束する解はあくまでも「最適解の1つ」だ。プリフロップは後ろに3ストリート(フロップ、ターン、リバー)残っているため、発生し得る事象はかなり多い。そのうえプレイヤーが複数人いるとなると、発生し得る事象はさらに指数関数的に増える。膨大に広がる未来について、最適解が複数存在していたとしても不思議なことではない。CFRでは発見できないところにだってナッシュ均衡は存在し得るし、マルチウェイのプリフロップでは特にその可能性が高いはずだ。そのような、複雑極まりない局面においてGTO的な戦略は機能しにくく、ナッシュ均衡が保証してくれるEVは決して大きいものではない。
また、ポストフロップ以降のGTO戦略を計算する際、相手のレンジを理論上最適なものとして見積もって計算するよりも、相手のとりうるレンジやアクションを推測し、それを元に戦略を計算した方が、全体を通してのEVが高くなる場面がほとんどだろう。とりわけ、我々人間プレイヤー同士の戦いにおいてはプレイヤーがどんなに成熟し、合理的な思考でプレイしようともナッシュ均衡に収束することはない。
私が考えるプリフロップにおける最適解とは、搾取困難なレベルで構築されたレンジを元に、状況に応じてレンジを調整しながらプレイすることだ。後半に紹介するが、実力のあるプレイヤーがSnowieのレンジを実戦経験をもとに調整したものも出回っている。そういったレンジ表はとても参考になるだろう。
そしてポストフロップでは、常に相手のレンジやアクションを推測し、それをもとにGTO的な戦略を構築していくことで利益を上げていくことができるはずだ。GTOツールを使って戦略を分析する際は、最適なレンジにとらわれずに、相手がプレイしてそうな推測レンジを定義して計算した方が、実用的である。推測できるレンジのパターンが複数ある場合には、それぞれで計算して結果を見比べることで、より大くを学ぶことができる。
2.世に出回るプリフロップレンジの種類と特徴について
現在、世の中に出回っているプリフロップレンジには大きく分けて以下の3種類が存在している。
2.1 Snowie が発見したレンジ
2.2何かしらのアルゴリズムで詳細に計算されたレンジ Preflop Solution
例) Simple Preflop by Simple Poker
2.3 プレイヤーの経験をもとに調整されたレンジ
例)Zerosレンジ、よこさわレンジ etc…
2.1 Snowieが発見したレンジ
熱心なプレイヤーならば、Poker Snowie を知っている人は多いはずだ。Snowieとは、優秀なポーカーAIの分析をもとに戦略を学ぶためのサブスク制のサービスだ。SnowieがGTOツールと根本的に異なる点は、戦略を計算するアルゴリズムにある。前述のとおり、GTOツールはCFRと呼ばれるアルゴリズムを用いてナッシュ均衡に収束することを目指し、計算する。一方、Snowieはニューラルネットワークと呼ばれる脳神経を模倣した数理モデルを教師なし学習で訓練したものである。私自身、ポーカー系のソフトで初めてお金を支払ったのはSnowieだった。私はオフライン環境にいることも多いからか、正直なところ値段の価値以上には使いこなせていない…。しかし、初心者のプレイを向上させてくれるサービスであることは間違いないだろう。
少々話が逸れたが、この優秀なポーカーAIが構築したプリフロップレンジ表こそがSnowieレンジである。Snowieは基本的に有料サービスだが、無料のSnowie Preflop adviserで6Maxのプリフロップレンジ表を閲覧することができる。レーキやベットサイズといった設定を考慮した表を閲覧するためには有料サービスを契約する必要がある。また、Snowieは頻繁にアップデートされているようで、最新のプリフロップレンジ表を確認するためにもやはり有料版が必要となる。しかし、たとえ細かい設定が無視され、アップデートもされていないレンジだったとしても、無料のSnowie Preflop adviserは利用する価値があるだろう。十分すぎるほどにバランスが取れたレンジであることは間違いないし、スマホで閲覧しやすいという利点もある。初心者が最初に参考にするのに最も適したレンジ表の1つだろう。
2.2 何かしらのアルゴリズムで詳細に計算されたレンジ
上述のSnowieのようなポーカーAIとは異なり、明確なアルゴリズムを用いて計算されている。プリフロップソリューションと呼ばれるプリフロップレンジ表
コメント