研究者がAIの「常識的」な推論のためのゲームベースのベンチマークを提案
オックスフォード大学の研究者らが、AIエージェントの常識的推論能力をベンチマークするための環境である「WordCraft」を提案。Little Alchemy 2という、材料を混ぜ合わせて新しいアイテムを作るゲームをベースに、WordCraftは軽量で、実世界のセマンティクスにインスパイアされた実体と関係に基づいて構築されている。
先週開催された機械学習に関する国際会議「ICML 2020」に採択された論文では、ユニバーシティ・カレッジ・ロンドンとオックスフォード大学の研究者が、AIエージェントの常識的推論能力をベンチマークするための環境である「WordCraft」を提案している。Little Alchemy 2という、材料を混ぜ合わせて新しいアイテムを作るゲームをベースに、WordCraftは軽量で、実世界のセマンティクスにインスパイアされた実体と関係に基づいて構築されている、と研究者たちは述べている。
研究者が指摘するように、パーソナルアシスタントや家庭用ロボットには、迅速に学習し、新しい状況にうまく一般化できるエージェントが必要とされている。これは、世界の常識や一般的な知識を使って推論する能力がなければ、おそらく不可能だろう。例えば、汚れた灰皿を見たことがない一般的な家事を行うことを任されたエージェントは、灰皿を掃除する方法やペットに食べさせないようにする方法など、合理的な行動を知る必要があるだろう。
WordCraftと並行して、研究者らは、エージェントのポリシーを導くために外部のナレッジグラフからの情報を利用するエージェントアーキテクチャを紹介している(ナレッジグラフとは、主語の専門家がAIモデルの助けを借りて作成したドメインのモデルである)。WordCraftのレシピが実世界の共通エンティティ間のセマンティクスに基づいていることを考えると、研究者らは、知識グラフに条件付けをすることで、エージェントの学習を常識的なセマンティクスとの相互作用に偏ったポリシーに制約することで、より効率的な学習が可能になるはずだと考えている。
実験では、すべての有効なレシピのセットを訓練セットとテストセットに分割し、ゼロショットの一般化性能に焦点を当てた。また、WordCraftの同じ難易度設定で人間のベースラインを収集し、常識的な知識と一般的な知識を使って達成できるゼロショット性能の推定値とした。
論文によると、彼らのエージェント・アーキテクチャは、知識グラフを持たないエージェントと同等の成功率を、より少ないトレーニング・ステップで達成したが、最終的には、トレーニングが進むにつれて同等のレベルのパフォーマンスに到達した。WordCraftを、ユーザーが可能な限り多くの実体を発見しなければならないオリジナルの『Little Alchemy 2』のより長い地平線の設定に拡張することは、常識に基づいた探索を研究するための興味深い設定になるかもしれません」と研究者は記述している。「この研究で得られたアイデアは、NLEのようなタスク固有の知識の大規模なコーパスに関連した、より複雑な強化学習タスクにも役立つと考えています。この研究では、利用可能なコーパスから知識グラフを自動的に構築する方法や、そのようなコーパス内の自然言語テキストを検索して直接条件付けするエージェントの研究をさらに進める必要がある」。