スタンフォード大、進化生物学に着想を得た深層強化学習フレームワークを提案

スタンフォード大学の研究者らはこのほど、Deep Evolutionary Reinforcement Learning（DERL）と呼ばれる新しい計算フレームワークを発表した。

吉田拓史

21 2月 2021 — 5 min read

スタンフォード大学の研究者らはこのほど、Deep Evolutionary Reinforcement Learning（DERL）と呼ばれる新しい計算フレームワークを発表した。これにより、AIエージェントは、低レベルの自己中心的な感覚情報のみを用いて、複雑な環境下で形態を進化させ、難しい運動や操作のタスクを学習することができるようになる、とチームは主張している。

進化生物学では、ボールドウィン効果は、ある進化過程の古代の世代で生涯にわたって学習された行動が、徐々に本能的になり、遺伝的に後続の世代にも伝わる可能性があることを示唆した。

複雑な環境下での学習と進化の過程に関する研究では、進化した形態に深く具現化された動物の知性の多くの側面が認識されてきた。しかし、形態学的進化においてボールドウィン効果を実証することは、生物であれ、コンピュータモデリングやシミュレーションであれ、困難を極めている。

DERLは、形態学的学習を介してダーウィン的なボールドウィン効果を初めて実証したものだ。論文「Embodied Intelligence via Learning and Evolution」の共著者の一人であるFei-Fei Li・スタンフォード大学教授は、それが動物の進化のための自然の本質的なトリックであり、今ではAIエージェントで示されていると述べている。研究者たちは、AIの具現化エージェントを作成する際に直面した重要な課題として、組み合わせ可能な形態の数が非常に多いことと、生涯学習を介してフィットネスを評価するために必要な計算時間を挙げている。

これまでの研究では、限られた形態探索空間の中で進化したエージェントを特定することや、手で設計した固定の形態に基づいて最適なパラメータを見つけることに焦点が当てられていた。しかし、DERLでは、環境、形態学、制御という3つのタイプの複雑さにまたがって、具現化エージェントの作成を同時にスケールさせることができるようになった。研究チームは、これまでの形態素探索空間の表現力の限界を克服するためのデザイン空間であるUNIMAL（UNIversal aniMAL）を開発した。UNIMALは、エージェントに高度に表現可能で有用な制御可能な形態を可能にし、その結果として得られる身体化されたエージェントを、丘、段差、瓦礫の3つの環境で解析した。

図1：DERLの概要 DERL(a)は、2つの相互作用する適応プロセスを介して具現化されたエージェントを作るための一般的なフレームワークである。進化の外側のループは突然変異操作を介してエージェントの形態を最適化し、その一部は(b)に示され、内側の強化学習ループはニューラルコントローラのパラメータを最適化する(c)。このような地形の中での操作では、エージェントは初期位置（緑の球体）からスタートし、ゴール位置（赤の四角）まで箱を移動しなければならない。Source: Gupta et al. (2021)

DERLは大規模なシミュレーションを可能にし、学習、進化、環境の複雑さがどのように相互作用して知的形態を生成するのかを明らかにした。第一に、環境の複雑さが形態学的な知性の成長を促進することを明らかにしました。第二に、進化はより速く学習する形態学を急速に選択することを認識している。これにより、初期の祖先の一生のうちに遅れて学んだ行動が、子孫の一生のうちに早く発現することが可能になる。この結果は、複雑な環境で学習し進化する生物において、長い間想定されていた形態学的ボールドウィン効果の実証を確立するものである。

この研究は、ボールドウィン効果と形態学的知性が形態学的進化を経て出現するメカニズムの両方の基盤が、より物理的に安定でエネルギー効率の高いものであることを示唆している。また、効率的な学習と制御を促進することができる。

表現型から遺伝子型への知性の移入は、表現型学習資源を解放して、ヒトにおける言語の出現や模倣など、より複雑な動物の行動を学習することが想定されてきた。このことは、学習と進化の大規模なシミュレーションによって、形態知の出現によって強化学習がスピードアップすることを示唆している。同様に、研究者らは、他の文脈での学習と進化の大規模な探索が、RLエージェントにおける迅速に学習可能な知的行動と、それを機械にインスタンス化するためのユニークな工学的進歩をもたらす可能性があると考えている。

参考文献

Gupta, Agrim, S. Savarese, S. Ganguli and Li Fei-Fei. “Embodied Intelligence via Learning and Evolution.” ArXiv abs/2102.02202 (2021): n. pag.

Photo by Eugene Zhyvchik on Unsplash

700円/月の支援

Axionは吉田が2年無給で、1年が高校生アルバイトの賃金で進めている「慈善活動」です。有料購読型アプリへと成長するプランがあります。コーヒー代のご支援をお願いします。個人で投資を検討の方はTwitter（@taxiyoshida）までご連絡ください。

投げ銭

投げ銭はこちらから。金額を入力してお好きな額をサポートしてください。

Special thanks to supporters !

Shogo Otani, 林祐輔, 鈴木卓也, Mayumi Nakamura, Kinoco, Masatoshi Yokota, Yohei Onishi, Tomochika Hara, 秋元善次, Satoshi Takeda, Ken Manabe, Yasuhiro Hatabe, 4383, lostworld, ogawaa1218, txpyr12, shimon8470, tokyo_h, kkawakami, nakamatchy, wslash, TS, ikebukurou, 太郎, bantou, ysh_tmk.