米陸軍、階層的強化学習でドローン兵器群の自律性を向上

米陸軍研究所は、アメリカの敵を圧倒し支配するために、ドローンや自律走行車の群れを制御するための強化学習アルゴリズムの実験を行っているという。

「これらの群れの最適な誘導方針をリアルタイムで見つけることは、戦闘員の戦術的状況認識を強化し、米陸軍が紛争の多い環境で支配することを可能にするための重要な要件である」と、米陸軍戦闘能力開発司令部ボフィンリー神経センター所属の科学者であるジェミン・ジョージ博士は、声明の中で述べている。

ジョージ博士と彼の同僚は、階層的強化学習（HRL）を使用して、エージェントの大規模な群れをグループとして制御する方法を開発した。ドローンの制御を中央集権的なアプローチから階層的な設計に移行することで、ソフトウェアの学習時間が80％削減されたという。

重要なことは、訓練された無人機の大群を、一連の指示を受けて特定のエリアに送ることができ、それぞれの集団は、その指示を実行するために自分たちの間で自動的に陣形を維持することを意味している。したがって、人間のコントローラーは個々の無人機や車両を心配する必要はなく、ただ地図上の特定の位置に集団を向けるだけだ。

階層的強化学習（HRL）による地上と空中の自律走行車の制御 Image via US Army.

「現在のHRLの取り組みにより、無人の空中・地上ビークルの群れの制御ポリシーを開発することが可能になり、群れを形成するエージェントの個々のダイナミクスが未知であっても、異なるミッションを最適に達成できるようになります」とGeorge博士は声明の中で述べている。

チームは、自走式ロボタンクと空飛ぶドローンが自律的に協力して陸地と空を調査できるようになる未来を想定している。大群は、密集した都市地形での持続的な監視や偵察、前方の作戦基地や高価値資産の境界防衛に使用することができる。

arXiv経由で配布された論文に記載されている強化学習技術は、異なる状態の複数のエージェントを訓練する方法を提供しり。「各階層には、それぞれローカルおよびグローバルな報酬関数を持つ独自の学習ループがあります」とGeorge博士と述べている。「これらの学習ループを並列に実行することで、学習時間を大幅に短縮することができました」。

このアルゴリズムは主にシミュレーションでテストされている。ジョージ博士は、数十台から数百台のマシンが大群を構成しているとEl Regに語ったが、チームはこれまでのところ、部屋の中にある4台のクアッドローターでしか物理的なテストを行っていない。

「アルゴリズムを実世界の環境に適用するには、シミュレーションと実作業の両方で、物理的な資産を使った広範なテストと評価が必要です」と同博士は結論づけている。

Image by US Army.