強化学習 - アクシオン｜次世代経済メディア

AI

DeepMind、ルールを自ら学習し囲碁や将棋、チェス、アタリをマスターするAIを発表

Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。

強化学習

サンプル効率が非常に高いロボット制御モデルFERM

カリフォルニア大学バークレー校のピーター・アビール教授たちは、最先端の技術を活用して、「非常に」サンプル効率の高いロボット操作モデルのトレーニングを実現するフレームワーク「Framework for Efficient Robotic Manipulation (FERM)」を開発した。

ロボティクス

モデル予測制御よりも適応性の高い四足歩行ロボットのフレームワーク

Nvidia、カリフォルニア工科大学、テキサス大学オースティン校、カナダのトロント大学ベクター研究所の研究者は、従来のモデルベースの歩行制御よりもエネルギー効率が高く、適応性に優れた4本足ロボットを制御するためのフレームワークを開発した。

国家安全保障

米陸軍、階層的強化学習でドローン兵器群の自律性を向上

米陸軍のジェミン・ジョージ博士と彼の同僚は、階層的強化学習（HRL）を使用して、エージェントの大規模な群れをグループとして制御する方法を開発した。ドローンの制御を中央集権的なアプローチから階層的な設計に移行することで、ソフトウェアの学習時間が80％削減されたという。