ゲーム状態への「信念」を持つポーカーAIが登場
Facebookの研究者は、「信念に基づく再帰型学習」(ReBeL)と呼ばれる[AIフレームワークを開発した。このフレームワークは、従来のポーカーAIよりも少ない領域知識を使用しながら、ヘッズアップ・ノーリミット・テキサスホールデム(1対1)で人間よりも優れたパフォーマンスを達成したという。
Facebookの研究者は、「信念に基づく再帰型学習」(ReBeL)と呼ばれるAIフレームワークを開発した。このフレームワークは、従来のポーカーAIよりも少ない領域知識を使用しながら、ヘッズアップ’・ノーリミット・テキサスホールデム(1対1)で人間よりも優れたパフォーマンスを達成したという。
彼らは、ReBeLはマルチエージェント相互作用のための普遍的な技術、言い換えれば、大規模なマルチエージェント設定で展開できる一般的なアルゴリズムを開発するための一歩であると主張している。潜在的なアプリケーションは、オークション、交渉、サイバーセキュリティから自動運転車やトラックまで多岐にわたる。
強化学習とAIモデルのトレーニングやテスト時の検索を組み合わせることで、多くの進歩がもたらされている。強化学習は、エージェントが報酬を最大化することで目標を達成することを学習し、探索は開始から目標状態に至るまで実行される。例えば、DeepMindのAlphaZeroは、強化学習と探索を採用して、チェス、将棋、囲碁というボードゲームで最先端のパフォーマンスを実現した。しかし、この探索手法は、ポーカー(あるいはじゃんけん)のような不完全情報ゲームに適用すると、パフォーマンスが低下しする。与えられたアクションの価値は、それが選択される確率に依存し、より一般的には、全体のプレイ戦略に依存する。
Facebookの研究者は、ReBeLが解決策を提供することを提案している。ReBeLは、「ゲーム状態」の概念を拡張して、共通の知識と他のエージェントのポリシー(方策)に基づいて、どのような状態にあるかもしれないかについての「エージェントの信念」を含むようにした研究を基に構築されている。ReBeLは、自己プレーを通じた強化学習を通じて、状態のための2つのAIモデル(価値ネットワークとポリシーネットワーク)を訓練する。ReBeLは、セルフプレイ中の探索に両方のモデルを使用する。その結果、シンプルで柔軟性のあるアルゴリズムが生まれ、研究者らは、大規模な2対1の不完全情報ゲームにおいて、人間のトッププレイヤーを打ち負かすことができると主張している。
高レベルでは、ReBeLは、世界の状態(すなわち、ゲームの状態)ではなく、パブリック・ビリーフ・ステート(PBS = 置かれた状態に関する信念)に基づいて動作します。PBSは、「状態値」の概念をポーカーのような不完全情報ゲームに一般化したもので、PBSは、履歴とも呼ばれる、可能な行動と状態の有限のシーケンス上の共通認識の確率分布(確率分布とは,さまざまな結果の発生確率を与える特殊な関数である)。完全情報ゲームでは、PBSは履歴にまで分解され、2人用のゼロサムゲームでは効果的に世界の状態にまで分解される。ポーカーにおけるPBSとは、特定のハンド、ポット、チップが与えられたときにプレイヤーが下すことのできる決定とその結果の配列のことである。
ReBeLは、初期のPBSに根ざしていることを除いて、オリジナルのゲームと同じ「サブゲーム」(下位のゲーム)を各ゲームの開始時に生成する。アルゴリズムは、「均衡を見つける」アルゴリズムの反復を実行し、反復ごとに値を近似するために訓練された値ネットワークを使用して、それを獲得する。強化学習により、値が発見され、値ネットワークの訓練例として追加され、サブゲーム内のポリシーがポリシーネットワークの例としてオプションで追加される。このプロセスを繰り返し、精度がある閾値に達するまでPBSが新しいサブゲームのルートとなる。
実験では、研究者たちはReBeLを、ヘッズアップ・ノーリミット・テキサス・ホールデム・ポーカー、ライアーズ・ダイス、ターン・エンドゲーム・ホールデム(ノーリミット・ホールデムの変種で、4つのベットラウンドのうち最初の2つは両方のプレイヤーがチェックまたはコールする)のゲームでベンチマークした。チームは、シミュレートされたゲームデータを生成するために、8枚のグラフィックカードを搭載した最大128台のPCを使用し、トレーニング中にベットとスタックサイズ(5,000から25,000チップ)をランダム化した。ReBeLはフルゲームでトレーニングを受け、エンドゲームのホールデムで対戦相手に2万ドルを賭けた。
研究者たちは、世界で最高のヘッドアップポーカープレイヤーの一人としてランク付けされているDong Kimに対して、ReBeLは7,500ハンドにわたって1ハンドあたり2秒よりも速くプレイし、決定に5秒以上を必要としたことはなかったと報告している。
不正行為を可能にすることを恐れて、Facebookチームはポーカー用のReBeLコードベースを公開しないことにした。その代わりに、Liar's Dice用の実装をオープンソース化した。ポーカーで超人的なパフォーマンスを実現するAIアルゴリズムはすでに存在しているが、これらのアルゴリズムは一般的に参加者が一定のチップ数を持っていたり、一定のベットサイズを使用していることを前提としている。任意のチップスタックや予想外のベットサイズを考慮してアルゴリズムを再調整するには、リアルタイムで実行可能な以上の計算が必要になる。しかし、ReBeLは、任意のスタックサイズと任意のベットサイズのポリシーを数秒で計算することができる(その気になればカジノで利用できる)。
参考文献
- Noam Brown, Anton Bakhtin, Adam Lerer Qucheng Gong. Combining Deep Reinforcement Learning and Search for Imperfect-Information Games. arXiv 2007.13544. 27, Jul 2020.
Photo by Radu Florin on Unsplash