DeepMind、ルールを自ら学習し囲碁や将棋、チェス、アタリをマスターするAIを発表

Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。

DeepMind、ルールを自ら学習し囲碁や将棋、チェス、アタリをマスターするAIを発表

Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。

DeepMindは2018年末、雑誌「Science」に発表された論文の中で、チェスや将棋、中国のボードゲームである囲碁をマスターするために自分自身を学習することができるAIシステム「AlphaZero」について詳細に説明した。いずれの場合も、AlphaZeroは世界チャンピオンを破り、完全な情報を持った2人用の対局を学習するコツを実証した。

しかし、AlphaZeroには、ゲームのルールを知っているという利点があった。DeepMindのチームは、自分自身にルールを教えることができる高性能な機械学習モデルを追求するために、MuZeroを考案した。

2019年の予備論文で初めて紹介されたMuZeroは、計画のために環境の最も重要な側面のみに焦点を当てたモデルを学習することで、ゲームをマスターする。このモデルをAlphaZeroの強力なルックアヘッドツリー探索と組み合わせることで、MuZeroはAtariベンチマーク上で最良の結果を出し、同時に囲碁、チェス、将棋の古典的な計画課題でAlphaZeroのパフォーマンスに匹敵した、DeepMind研究者たちは説明している。

この新しいシステムは、最初に一つのアクションを試し、次に別のアクションを試し、ルールが許す範囲を学びながら、同時に、チェスではチェックメイトを出すことで、パックマンでは黄色の点を飲み込むことで報酬が与えられることに気づく。そして、より簡単にそのような報酬を獲得する方法を見つけるまで、つまりプレイを改善するまで、その方法を変えていくという。このような観察による学習は、AIを現実世界に応用するときに非常に有用だとチームは主張している。

MuZeroとAlphaZeroの採用する強化学習の一形態は、次のステップを予測する状態遷移モデルと、報酬を予測する報酬モデルを使用して、与えられた環境を中間ステップとしてモデル化している。DeepMindは価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。システムは環境状態のセマンティクスを持たず、単にポリシー、価値、報酬の予測を出力する。これはAlphaZeroの検索に似たアルゴリズム(シングルエージェントのドメインと中間報酬を可能にするために一般化されている)が推奨ポリシーと推定値を生成するために使用する。これらは、プレイされたゲームのアクションと最終的な結果を通知するために使用される。

ルールの学習とプレイの改善を同時に行うことで、MuZeroはデータの経済的な使用においてDeepMindの前任者を凌駕しているという。このシステムは訓練にかなりの計算量を必要とするが、一度訓練を受ければ、その判断に必要な処理は非常に少なくて済むので、全体の操作はスマートフォンで管理できるかもしれない、という。

無駄のない運用の理由の1つは、MuZeroがゲームや世界の環境の中で、意思決定プロセスで重要な側面のみをモデル化していることだ。「結局のところ、傘が濡れないようにしてくれることを知っている方が、空気中の雨粒のパターンをモデリングするよりも役に立つ」とDeepMindは声明で述べている(必要な部分だけを学習するほうが有用だ、の意だと思われる)。

モデルベースの強化学習は、最初に環境のダイナミクスのモデルを学習し、学習したモデルに基づいて計画を立てることで、この問題に対処することを目的としているが、実際には成果を生み出すのに苦戦していた。

その代わりに、最も成功した手法はモデルフリー強化学習に基づいており、つまり、環境との相互作用から最適なポリシーや値関数を直接推定している。しかし、モデルフリーのアルゴリズムは、チェスや囲碁のように正確で洗練されたルックヘッドを必要とする領域では、最先端の技術とは程遠いものだった、と論文は指摘している。

MuZeroは、チェス、将棋、囲碁などの事前決定計画タスクにおいて超人的な性能を維持しながら、視覚的に複雑なドメインのセットであるAtari 2600で最先端の性能を達成するモデルベース強化学習への新しいアプローチである、と論文は記述している。

AlphaZeroのようなルックアヘッドツリー探索を使用するシステムは、チェッカー、チェス、さらにはポーカーのような古典的なゲームで顕著な成功を収めている。しかし、ルックアヘッドツリー探索には、ゲームのルールや正確な物理シミュレータのように、環境のダイナミクスに関する知識が必要だ。モデルベースのシステムは、環境の詳細なモデルを学習し、それを使って計画を立てることでこの問題に対処することを目的としている。しかし、モデリングの複雑さから、これらのアルゴリズムは歴史的に、視覚的に豊かな領域では太刀打ちできなかった。

現実世界への応用に期待

ゲームのために生み出されたアルゴリズムはすべてゲームのルールや正確なシミュレーターなどの環境のダイナミクスの知識に依存しているため、ロボット工学、産業制御、インテリジェントアシスタントなどの実世界の領域に直接適用することができなかった。

しかし、MuZeroは現実世界の問題への応用を視野に入れている。IEEEのレポートによると、議論されている他のアプリケーションは、自動運転車(Alphabetでは子会社のWaymoが担当)や、タンパク質の折り畳み(姉妹プログラムのAlphaFoldが最近マスターした)の次のステップであるタンパク質のデザインである。ここでの目標は、ウイルスや細胞表面の受容体など、それ自体がアクターである何かに作用しなければならないタンパク質ベースの医薬品を設計することかもしれないという。動画圧縮アルゴリズムも候補に入っているそうだ。

DeepMindは他にも、個別化医療や捜索救助など、特定の環境の特性が不明な実世界のシナリオでMuZeroが問題を解決することを期待している。これは、MuZeroに制限がないことを意味しているわけではない。複雑さのため、ボードゲーム「外交」やカードゲーム「Hanabi」のように、複数の人が同時に意思決定をしなければならず、複数の人が意思決定をする際に起こりうる結果のバランスを取らなければならないような不完全な情報状況をモデル化することはできない(偶然にも、DeepMindは、Diplomacyやそれに類似した設定に取り組むための別のアルゴリズムを開発している)。

参考文献

  1. Schrittwieser, J., Antonoglou, I., Hubert, T. et al. Mastering Atari, Go, chess and shogi by planning with a learned model. Nature 588, 604–609 (2020). https://doi.org/10.1038/s41586-020-03051-4
  2. AlphaZero: Shedding new light on chess, shogi, and Go
  3. MuZero: Mastering Go, chess, shogi and Atari without rules

Photo: "DLD 17 Conference Day 2"by Hubert Burda Media is licensed under CC BY-NC-SA 2.0

Read more

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者(CPO)は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

By 吉田拓史
宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラスト セキュリティ 実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

By 吉田拓史
​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

Google Cloudが9月25日に開催した記者説明会では、イオンリテール株式会社がCloud Runを活用し顧客生涯価値(LTV)向上を目指したデータ分析基盤を内製化した事例を紹介。従業員1,000人以上がデータ分析を行う体制を目指し、BIツールによる販促効果分析、生成AIによる会話分析、リテールメディア活用などの取り組みを進めている。

By 吉田拓史
Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Google Cloudは、年次イベント「Google Cloud Next Tokyo '24」で、大規模言語モデル「Gemini」を活用したAIエージェントの取り組みを多数発表した。Geminiは、コーディング支援、データ分析、アプリケーション開発など、様々な分野で活用され、業務効率化や新たな価値創出に貢献することが期待されている。

By 吉田拓史