
AI
DeepMind、ルールを自ら学習し囲碁や将棋、チェス、アタリをマスターするAIを発表
Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。
強化学習(RL)は、ソフトウェアエージェントが累積報酬の概念を最大化するために、どのように環境で行動を取るべきかに関係する機械学習の領域です。強化学習は、教師あり学習や教師なし学習と並んで、3つの基本的な機械学習パラダイムの1つです。強化学習は、ラベル付けされた入出力ペアを提示する必要がなく、明示的に修正されるべき最適でない行動を必要としないという点で教師あり学習とは異なります。その代わりに、(未知の領域の)探索と(現在の知識の)利用の間のバランスを見つけることに焦点を当てています。
AI
Alphabet傘下のAI研究所DeepMindは23日、ゲームのルールを自ら学習し、より現実世界への応用可能性の高い最新モデル「MuZero」に関する論文をネイチャー誌に発表した。MuZeroは57種類の異なるAtariゲームで業界をリードする性能を達成し、囲碁、チェス、将棋では前作のAlphaZeroに匹敵する性能を発揮している。
強化学習
カリフォルニア大学バークレー校のピーター・アビール教授たちは、最先端の技術を活用して、「非常に」サンプル効率の高いロボット操作モデルのトレーニングを実現するフレームワーク「Framework for Efficient Robotic Manipulation (FERM)」を開発した。
ロボティクス
Nvidia、カリフォルニア工科大学、テキサス大学オースティン校、カナダのトロント大学ベクター研究所の研究者は、従来のモデルベースの歩行制御よりもエネルギー効率が高く、適応性に優れた4本足ロボットを制御するためのフレームワークを開発した。
国家安全保障
米陸軍のジェミン・ジョージ博士と彼の同僚は、階層的強化学習(HRL)を使用して、エージェントの大規模な群れをグループとして制御する方法を開発した。ドローンの制御を中央集権的なアプローチから階層的な設計に移行することで、ソフトウェアの学習時間が80%削減されたという。