DeepMindのAIは強化学習アルゴリズムを自動生成する

DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を公開している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。

DeepMindのAIは強化学習アルゴリズムを自動生成する

プレプリントサーバーarxiv.orgで公開された研究では、DeepMindの研究者が、環境と対話することで何を予測し、それをどのように学習するかを発見する強化学習アルゴリズム生成技術を説明している。彼らは、生成されたアルゴリズムが、さまざまな難度の高いアタリのビデオゲームで良好なパフォーマンスを発揮し、この技術の汎化可能性を示す十分なパフォーマンスを達成したと主張している。

強化学習アルゴリズムとは、ソフトウェアエージェントがフィードバックを利用して試行錯誤しながら環境で学習することを可能にするアルゴリズムで、いくつかのルールのうちの1つに従ってエージェントのパラメータを更新する。これらのルールは通常、長年の研究によって発見され、データからの発見を自動化することで、より効率的なアルゴリズムや、特定の環境に適したアルゴリズムを実現できる可能性がある。

強化学習には、期待される累積報酬(または平均報酬)を最大化するという明確な目的がある。強化学習の目的が単純であっても、このような目的を最適化するための効率的なアルゴリズムを開発するには、一般的に理論の構築から実証的な調査まで、膨大な研究努力が必要となる。魅力的な代替アプローチは、一連の環境との相互作用によって生成されたデータから強化学習アルゴリズムを自動的に発見することであり、これはメタ学習問題として定式化することができると考えられている。最近の研究では、価値関数が与えられたときにポリシー更新ルールをメタ学習することが可能であり、その結果として得られる更新ルールは、類似したタスクや見たことのないタスクに一般化できることが示されている。

しかし、強化学習の基本的な概念を完全にゼロから発見することが可能かどうかは未解決のままだ。特に、強化学習アルゴリズムの定義的な側面は、価値関数を学習して利用する能力にある。価値関数のような概念を発見するには、「何を予測するか」と「どのように予測を利用するか」の両方を理解する必要がある。予測は複数回の更新の過程でポリシーに間接的な影響を与えるだけなので、これはデータから発見するのが特に難しい。DeepMindの研究者らは、価値関数を発見することができる手法は、他の有用な概念も発見できる可能性があり、強化学習の全く新しいアプローチを開く可能性があると仮説を立てている。

DeepMindの研究者らの提示した手法は、特定のエージェントが何を予測すべきかを共同で発見し、その予測をポリシーの改善のためにどのように利用すべきかを発見するメタ学習フレームワークです。(強化学習では、「ポリシー」とは、学習エージェントがある時点でどのように行動するかを定義するもの)。

フレームワークが複数の学習エージェント(それぞれが異なる環境と相互作用する)を介してルールを発見する間、そのアーキテクチャ、著者らが「Learned Policy GradientLPG、学習されたポリシーグラデーション)」と呼ぶものがエージェントの出力が何を予測すべきかを決定することを可能にするという。

実験では、研究者たちは、Tutankham, Breakout, Yars’ Revengeなどの複雑なアタリゲームでLPGを直接評価した。その結果、LPGは既存のアルゴリズムと比較して、アタリのゲームよりもはるかに単純な基本的なタスクを持つ環境で訓練を行ったにもかかわらず、ゲームに対して「合理的に」一般化することがわかりました。さらに、LPGで訓練されたエージェントは、手作業で設計された強化学習コンポーネントに頼らなくても、14のゲームで「超人的」な性能を達成することができた。

共著者らは、LPGはまだいくつかの先進的な強化学習アルゴリズムに遅れをとっていると指摘している。しかし、実験の結果、訓練環境の数が増えるにつれてLPGの一般化性能は急速に向上しており、メタ訓練に利用できる環境が増えれば、汎用的な強化学習アルゴリズムを発見できる可能性があることを示唆している。

「提案されたアプローチは、データ駆動型の方法で新しい強化学習アルゴリズムの発見プロセスを自動化することで、そのプロセスを劇的に加速させる可能性を秘めています。提案された研究の方向性が成功すれば、強化学習アルゴリズムを人手で開発するのではなく、結果として得られるアルゴリズムが効率的になるように適切な環境を構築することに研究のパラダイムをシフトさせることができます」と研究者は書いています。「さらに、提案されたアプローチは、強化学習の研究者が手作業で設計されたアルゴリズムを開発し、改善する際に役立つ可能性があります。この場合、提案されたアプローチは、研究者が入力として提供するアーキテクチャに応じて、良い更新ルールがどのように見えるかについての洞察を提供するために使用することができ、強化学習アルゴリズムの手動での発見を迅速化する可能性がある」。

参考文献

  1. Junhyuk Oh. Discovering Reinforcement Learning Algorithms. arXiv.org. 2007.08794.

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)