Nvidia、カリフォルニア工科大学、テキサス大学オースティン校、カナダのトロント大学ベクター研究所の研究者は、従来のモデルベースの歩行制御よりもエネルギー効率が高く、適応性に優れた4本足ロボットを制御するためのフレームワークを開発した。

リアルタイムで状況に適応するフレームワークの堅牢性を実証するために、AI研究者たちは、システムを摩擦のない表面の上を滑らせてバナナの皮を模したり、スケートボードに乗せたり、トレッドミルで歩きながら橋の上を登ったりした。

COVID-19のためにオフィススタッフのサイズに制限があるため、摩擦のない表面のテストだけが実際の生活の中で行われた。その他の課題はすべてシミュレーションで行われたという(通常、シミュレーションは、ロボットシステムが実生活で使用される前に、ロボットシステムのトレーニングデータとして使用されることが多い)

「私たちのフレームワークは、トレーニング中には見られなかった斬新なシナリオを含む、挑戦的な環境変化に臨機応変に適応できるコントローラを学習する。学習されたコントローラは、ベースライン手法と比較して、最大85%のエネルギー効率とロバスト性が向上している」と論文には書かれている。「推論時には、高レベルのコントローラは小型の多層ニューラルネットワークを評価するだけで済むため、長期的な性能を最適化するために高価なモデル予測制御(MPC)戦略の使用を避けることができる」

この四足歩行モデルは、独立して速度を変えることができる2つのトラックを備えたスプリットベルトトレッドミルを使ってシミュレーションで訓練される。シミュレーションでのトレーニングは、現実世界のLaikagoロボットに転送される。

四足歩行の足を制御するためのフレームワークを詳述した論文は、1週間前にプレプリントリポジトリarXivで公開された。Nvidia、Caltech、テキサス大学オースティン校、トロント大学ベクター研究所のAI研究者が論文に貢献した。このフレームワークは、強化学習を利用した高レベルコントローラと、モデルベースの低レベルコントローラを組み合わせたものだ。

「両方のパラダイムの利点を活用することで、固定された接触シーケンスを採用したものよりもロバストでエネルギー効率の高い接触適応型コントローラが得られる」。

研究者らは、ロボットの脚を制御するための多くのネットワークは固定されているため、新しい状況に適応することができないが、適応型ネットワークはしばしばエネルギーを消費すると主張している。強化学習を用いて作成された運動システムは、モデルベースのアプローチに比べてロバスト性が低く、多くの訓練サンプルを必要としたり、エージェントに報酬を与えるための複雑なアプローチを使用したりすることが多いという。

今年初めに開催されたInternational Conference on Robotics and Automation (CRA)では、ETH ZurichのAI研究者が、強化学習で訓練されたDeepGaitというAIが、異常に長い隙間に橋を架けたり、不整地の上を歩いたりするようなことをするために詳細に説明していた。