レゴの説明書を理解し組み立てられるAIが誕生 MITとスタンフォード、オートデスクが共同研究

スタンフォード大学、MIT、オートデスクAIラボの研究者が共同で、2Dの指示を解釈して3Dオブジェクトを構築できる、新しい学習ベースのフレームワークを開発した。

Manual-to-Executable-Plan Network（MEPNet）は、コンピュータで作成したレゴセット、実際のレゴセットの指示、『マインクラフト』のようなボクセル建築でテストされ、研究者によると、既存の手法を全面的に上回った。

MEPNetの斬新なアイデア

2次元（2D）の指示を解釈することは、AIにとって簡単なことではない。レゴのセットのように、画像だけで構成された視覚的な指示から、いくつかの重要な問題があると研究者は述べている。2Dと3Dのオブジェクトの対応関係を識別することと、レゴのような基本的なピースをたくさん扱うことだ。

arxivに投稿された論文によると、レゴの基本的なブロックは、モデル本体に追加される前に複雑な形に組み立てられることが多いという。このため、「機械がレゴのマニュアルを解釈する難易度は高くなる。見たことのあるプリミティブで構成された見たことのないオブジェクトの3Dポーズを推論する必要がある」と研究者らは書いている。

マニュアルを機械が実行可能なプランに解析する既存の方法は、主に2つの形態で構成されていると研究者は述べている。1つは、シンプルで正確だが計算コストが高い探索ベースの手法、もう1つは、高速だが未知の3次元形状を扱うのが苦手な学習ベースのモデルである。

MEPNetは、その両方を兼ね備えているという。

MEPNetは、部品の3Dモデル、レゴセットの現在の状態、および2Dのマニュアル画像をもとに、「各部品の2Dキーポイントとマスクのセットを予測する」と研究者は書いている。

それから、2Dのキーポイントは、「ベース形状と新しい構成要素の間の可能な接続を見つけることによって、3Dに逆投影される」という。この組み合わせは、「学習ベースのモデルの効率を維持し、未知の3Dコンポーネントに対してより良く一般化する」と研究チームは書いている。

MEPNetのコードはGithubにある。