DeepMind、ルールを自ら学習し囲碁や将棋、チェス、アタリをマスターするAIを発表

Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。

吉田拓史

24 12月 2020 — 3 min read

DeepMindは2018年末、雑誌「Science」に発表された論文の中で、チェスや将棋、中国のボードゲームである囲碁をマスターするために自分自身を学習することができるAIシステム「AlphaZero」について詳細に説明した。いずれの場合も、AlphaZeroは世界チャンピオンを破り、完全な情報を持った2人用の対局を学習するコツを実証した。

しかし、AlphaZeroには、ゲームのルールを知っているという利点があった。DeepMindのチームは、自分自身にルールを教えることができる高性能な機械学習モデルを追求するために、MuZeroを考案した。

2019年の予備論文で初めて紹介されたMuZeroは、計画のために環境の最も重要な側面のみに焦点を当てたモデルを学習することで、ゲームをマスターする。このモデルをAlphaZeroの強力なルックアヘッドツリー探索と組み合わせることで、MuZeroはAtariベンチマーク上で最良の結果を出し、同時に囲碁、チェス、将棋の古典的な計画課題でAlphaZeroのパフォーマンスに匹敵した、DeepMind研究者たちは説明している。

この新しいシステムは、最初に一つのアクションを試し、次に別のアクションを試し、ルールが許す範囲を学びながら、同時に、チェスではチェックメイトを出すことで、パックマンでは黄色の点を飲み込むことで報酬が与えられることに気づく。そして、より簡単にそのような報酬を獲得する方法を見つけるまで、つまりプレイを改善するまで、その方法を変えていくという。このような観察による学習は、AIを現実世界に応用するときに非常に有用だとチームは主張している。

MuZeroとAlphaZeroの採用する強化学習の一形態は、次のステップを予測する状態遷移モデルと、報酬を予測する報酬モデルを使用して、与えられた環境を中間ステップとしてモデル化している。DeepMindは価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。システムは環境状態のセマンティクスを持たず、単にポリシー、価値、報酬の予測を出力する。これはAlphaZeroの検索に似たアルゴリズム（シングルエージェントのドメインと中間報酬を可能にするために一般化されている）が推奨ポリシーと推定値を生成するために使用する。これらは、プレイされたゲームのアクションと最終的な結果を通知するために使用される。

ルールの学習とプレイの改善を同時に行うことで、MuZeroはデータの経済的な使用においてDeepMindの前任者を凌駕しているという。このシステムは訓練にかなりの計算量を必要とするが、一度訓練を受ければ、その判断に必要な処理は非常に少なくて済むので、全体の操作はスマートフォンで管理できるかもしれない、という。

無駄のない運用の理由の1つは、MuZeroがゲームや世界の環境の中で、意思決定プロセスで重要な側面のみをモデル化していることだ。「結局のところ、傘が濡れないようにしてくれることを知っている方が、空気中の雨粒のパターンをモデリングするよりも役に立つ」とDeepMindは声明で述べている（必要な部分だけを学習するほうが有用だ、の意だと思われる）。

モデルベースの強化学習は、最初に環境のダイナミクスのモデルを学習し、学習したモデルに基づいて計画を立てることで、この問題に対処することを目的としているが、実際には成果を生み出すのに苦戦していた。

その代わりに、最も成功した手法はモデルフリー強化学習に基づいており、つまり、環境との相互作用から最適なポリシーや値関数を直接推定している。しかし、モデルフリーのアルゴリズムは、チェスや囲碁のように正確で洗練されたルックヘッドを必要とする領域では、最先端の技術とは程遠いものだった、と論文は指摘している。

MuZeroは、チェス、将棋、囲碁などの事前決定計画タスクにおいて超人的な性能を維持しながら、視覚的に複雑なドメインのセットであるAtari 2600で最先端の性能を達成するモデルベース強化学習への新しいアプローチである、と論文は記述している。

AlphaZeroのようなルックアヘッドツリー探索を使用するシステムは、チェッカー、チェス、さらにはポーカーのような古典的なゲームで顕著な成功を収めている。しかし、ルックアヘッドツリー探索には、ゲームのルールや正確な物理シミュレータのように、環境のダイナミクスに関する知識が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習し、それを使って計画を立てることでこの問題に対処することを目的としている。しかし、モデリングの複雑さから、これらのアルゴリズムは歴史的に、視覚的に豊かな領域では太刀打ちできなかった。

現実世界への応用に期待

ゲームのために生み出されたアルゴリズムはすべてゲームのルールや正確なシミュレーターなどの環境のダイナミクスの知識に依存しているため、ロボット工学、産業制御、インテリジェントアシスタントなどの実世界の領域に直接適用することができなかった。

しかし、MuZeroは現実世界の問題への応用を視野に入れている。IEEEのレポートによると、議論されている他のアプリケーションは、自動運転車（Alphabetでは子会社のWaymoが担当）や、タンパク質の折り畳み（姉妹プログラムのAlphaFoldが最近マスターした）の次のステップであるタンパク質のデザインである。ここでの目標は、ウイルスや細胞表面の受容体など、それ自体がアクターである何かに作用しなければならないタンパク質ベースの医薬品を設計することかもしれないという。動画圧縮アルゴリズムも候補に入っているそうだ。

DeepMindは他にも、個別化医療や捜索救助など、特定の環境の特性が不明な実世界のシナリオでMuZeroが問題を解決することを期待している。これは、MuZeroに制限がないことを意味しているわけではない。複雑さのため、ボードゲーム「外交」やカードゲーム「Hanabi」のように、複数の人が同時に意思決定をしなければならず、複数の人が意思決定をする際に起こりうる結果のバランスを取らなければならないような不完全な情報状況をモデル化することはできない（偶然にも、DeepMindは、Diplomacyやそれに類似した設定に取り組むための別のアルゴリズムを開発している）。