DeepMindのAIは強化学習アルゴリズムを自動生成する
DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を公開している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。
プレプリントサーバーarxiv.orgで公開された研究では、DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を説明している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。
強化学習アルゴリズムとは、ソフトウェアエージェントがフィードバックを利用して試行錯誤しながら環境で学習することを可能にするアルゴリズムで、いくつかのルールのうちの1つに従ってエージェントのパラメータを更新する。これらのルールは通常、長年の研究によって発見され、データからの発見を自動化することで、より効率的なアルゴリズムや、特定の環境に適したアルゴリズムを実現できる可能性がある。
強化学習には、期待される累積報酬(または平均報酬)を最大化するという明確な目的がある。強化学習の目的が単純であっても、このような目的を最適化するための効率的なアルゴリズムを開発するには、一般的に理論の構築から実証的な調査まで、膨大な研究努力が必要となる。魅力的な代替アプローチは、一連の環境との相互作用によって生成されたデータから強化学習アルゴリズムを自動的に発見することであり、これはメタ学習問題として定式化することができると考えられている。最近の研究では、価値関数が与えられたときにポリシー更新ルールをメタ学習することが可能であり、その結果として得られる更新ルールは、類似したタスクや見たことのないタスクに一般化できることが示されている。
しかし、強化学習の基本的な概念を完全にゼロから発見することが可能かどうかは未解決のままだ。特に、強化学習アルゴリズムの定義的な側面は、価値関数を学習して利用する能力にある。価値関数のような概念を発見するには、「何を予測するか」と「どのように予測を利用するか」の両方を理解する必要がある。予測は複数回の更新の過程でポリシーに間接的な影響を与えるだけなので、これはデータから発見するのが特に難しい。DeepMindの研究者らは、価値関数を発見することができる手法は、他の有用な概念も発見できる可能性があり、強化学習の全く新しいアプローチを開く可能性があると仮説を立てている。
DeepMindの研究者らの提示した手法は、特定のエージェントが何を予測すべきかを共同で発見し、その予測をポリシーの改善のためにどのように利用すべきかを発見するメタ学習フレームワークです。(強化学習では、「ポリシー」とは、学習エージェントがある時点でどのように行動するかを定義するもの)。
フレームワークが複数の学習エージェント(それぞれが異なる環境と相互作用する)を介してルールを発見する間、そのアーキテクチャ、著者らが「Learned Policy Gradient (LPG、学習されたポリシーグラデーション)」と呼ぶものがエージェントの出力が何を予測すべきかを決定することを可能にするという。
実験では、研究者たちは、Tutankham, Breakout, Yars’ Revengeなどの複雑なアタリゲームでLPGを直接評価した。その結果、LPGは既存のアルゴリズムと比較して、アタリのゲームよりもはるかに単純な基本的なタスクを持つ環境で訓練を行ったにもかかわらず、ゲームに対して「合理的に」一般化することがわかりました。さらに、LPGで訓練されたエージェントは、手作業で設計された強化学習コンポーネントに頼らなくても、14のゲームで「超人的」な性能を達成することができた。
共著者らは、LPGはまだいくつかの先進的な強化学習アルゴリズムに遅れをとっていると指摘している。しかし、実験の結果、訓練環境の数が増えるにつれてLPGの一般化性能は急速に向上しており、メタ訓練に利用できる環境が増えれば、汎用的な強化学習アルゴリズムを発見できる可能性があることを示唆している。
「提案されたアプローチは、データ駆動型の方法で新しい強化学習アルゴリズムの発見プロセスを自動化することで、そのプロセスを劇的に加速させる可能性を秘めています。提案された研究の方向性が成功すれば、強化学習アルゴリズムを人手で開発するのではなく、結果として得られるアルゴリズムが効率的になるように適切な環境を構築することに研究のパラダイムをシフトさせることができます」と研究者は書いています。「さらに、提案されたアプローチは、強化学習の研究者が手作業で設計されたアルゴリズムを開発し、改善する際に役立つ可能性があります。この場合、提案されたアプローチは、研究者が入力として提供するアーキテクチャに応じて、良い更新ルールがどのように見えるかについての洞察を提供するために使用することができ、強化学習アルゴリズムの手動での発見を迅速化する可能性がある」。
参考文献
- Junhyuk Oh. Discovering Reinforcement Learning Algorithms. arXiv.org. 2007.08794.