DeepMindのAIは強化学習アルゴリズムを自動生成する

DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を公開している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。

DeepMindのAIは強化学習アルゴリズムを自動生成する

プレプリントサーバーarxiv.orgで公開された研究では、DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を説明している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。

強化学習アルゴリズムとは、ソフトウェアエージェントがフィードバックを利用して試行錯誤しながら環境で学習することを可能にするアルゴリズムで、いくつかのルールのうちの1つに従ってエージェントのパラメータを更新する。これらのルールは通常、長年の研究によって発見され、データからの発見を自動化することで、より効率的なアルゴリズムや、特定の環境に適したアルゴリズムを実現できる可能性がある。

強化学習には、期待される累積報酬(または平均報酬)を最大化するという明確な目的がある。強化学習の目的が単純であっても、このような目的を最適化するための効率的なアルゴリズムを開発するには、一般的に理論の構築から実証的な調査まで、膨大な研究努力が必要となる。魅力的な代替アプローチは、一連の環境との相互作用によって生成されたデータから強化学習アルゴリズムを自動的に発見することであり、これはメタ学習問題として定式化することができると考えられている。最近の研究では、価値関数が与えられたときにポリシー更新ルールをメタ学習することが可能であり、その結果として得られる更新ルールは、類似したタスクや見たことのないタスクに一般化できることが示されている。

しかし、強化学習の基本的な概念を完全にゼロから発見することが可能かどうかは未解決のままだ。特に、強化学習アルゴリズムの定義的な側面は、価値関数を学習して利用する能力にある。価値関数のような概念を発見するには、「何を予測するか」と「どのように予測を利用するか」の両方を理解する必要がある。予測は複数回の更新の過程でポリシーに間接的な影響を与えるだけなので、これはデータから発見するのが特に難しい。DeepMindの研究者らは、価値関数を発見することができる手法は、他の有用な概念も発見できる可能性があり、強化学習の全く新しいアプローチを開く可能性があると仮説を立てている。

DeepMindの研究者らの提示した手法は、特定のエージェントが何を予測すべきかを共同で発見し、その予測をポリシーの改善のためにどのように利用すべきかを発見するメタ学習フレームワークです。(強化学習では、「ポリシー」とは、学習エージェントがある時点でどのように行動するかを定義するもの)。

フレームワークが複数の学習エージェント(それぞれが異なる環境と相互作用する)を介してルールを発見する間、そのアーキテクチャ、著者らが「Learned Policy GradientLPG、学習されたポリシーグラデーション)」と呼ぶものがエージェントの出力が何を予測すべきかを決定することを可能にするという。

実験では、研究者たちは、Tutankham, Breakout, Yars’ Revengeなどの複雑なアタリゲームでLPGを直接評価した。その結果、LPGは既存のアルゴリズムと比較して、アタリのゲームよりもはるかに単純な基本的なタスクを持つ環境で訓練を行ったにもかかわらず、ゲームに対して「合理的に」一般化することがわかりました。さらに、LPGで訓練されたエージェントは、手作業で設計された強化学習コンポーネントに頼らなくても、14のゲームで「超人的」な性能を達成することができた。

共著者らは、LPGはまだいくつかの先進的な強化学習アルゴリズムに遅れをとっていると指摘している。しかし、実験の結果、訓練環境の数が増えるにつれてLPGの一般化性能は急速に向上しており、メタ訓練に利用できる環境が増えれば、汎用的な強化学習アルゴリズムを発見できる可能性があることを示唆している。

「提案されたアプローチは、データ駆動型の方法で新しい強化学習アルゴリズムの発見プロセスを自動化することで、そのプロセスを劇的に加速させる可能性を秘めています。提案された研究の方向性が成功すれば、強化学習アルゴリズムを人手で開発するのではなく、結果として得られるアルゴリズムが効率的になるように適切な環境を構築することに研究のパラダイムをシフトさせることができます」と研究者は書いています。「さらに、提案されたアプローチは、強化学習の研究者が手作業で設計されたアルゴリズムを開発し、改善する際に役立つ可能性があります。この場合、提案されたアプローチは、研究者が入力として提供するアーキテクチャに応じて、良い更新ルールがどのように見えるかについての洞察を提供するために使用することができ、強化学習アルゴリズムの手動での発見を迅速化する可能性がある」。

参考文献

  1. Junhyuk Oh. Discovering Reinforcement Learning Algorithms. arXiv.org. 2007.08794.

Read more

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者(CPO)は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

By 吉田拓史
宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラスト セキュリティ 実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

By 吉田拓史
​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

Google Cloudが9月25日に開催した記者説明会では、イオンリテール株式会社がCloud Runを活用し顧客生涯価値(LTV)向上を目指したデータ分析基盤を内製化した事例を紹介。従業員1,000人以上がデータ分析を行う体制を目指し、BIツールによる販促効果分析、生成AIによる会話分析、リテールメディア活用などの取り組みを進めている。

By 吉田拓史
Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Google Cloudは、年次イベント「Google Cloud Next Tokyo '24」で、大規模言語モデル「Gemini」を活用したAIエージェントの取り組みを多数発表した。Geminiは、コーディング支援、データ分析、アプリケーション開発など、様々な分野で活用され、業務効率化や新たな価値創出に貢献することが期待されている。

By 吉田拓史