レゴの説明書を理解し組み立てられるAIが誕生 MITとスタンフォード、オートデスクが共同研究

スタンフォード大学、MIT、オートデスクAIラボの研究者が共同で、2Dの指示を解釈して3Dオブジェクトを構築できる、新しい学習ベースのフレームワークを開発した。

吉田拓史

28 7月 2022 — 1 min read

Source: Ruocheng Wang et al(2022)

Manual-to-Executable-Plan Network（MEPNet）は、コンピュータで作成したレゴセット、実際のレゴセットの指示、『マインクラフト』のようなボクセル建築でテストされ、研究者によると、既存の手法を全面的に上回った。

MEPNetの斬新なアイデア

2次元（2D）の指示を解釈することは、AIにとって簡単なことではない。レゴのセットのように、画像だけで構成された視覚的な指示から、いくつかの重要な問題があると研究者は述べている。2Dと3Dのオブジェクトの対応関係を識別することと、レゴのような基本的なピースをたくさん扱うことだ。

arxivに投稿された論文によると、レゴの基本的なブロックは、モデル本体に追加される前に複雑な形に組み立てられることが多いという。このため、「機械がレゴのマニュアルを解釈する難易度は高くなる。見たことのあるプリミティブで構成された見たことのないオブジェクトの3Dポーズを推論する必要がある」と研究者らは書いている。

マニュアルを機械が実行可能なプランに解析する既存の方法は、主に2つの形態で構成されていると研究者は述べている。1つは、シンプルで正確だが計算コストが高い探索ベースの手法、もう1つは、高速だが未知の3次元形状を扱うのが苦手な学習ベースのモデルである。

MEPNetは、その両方を兼ね備えているという。

MEPNetは、部品の3Dモデル、レゴセットの現在の状態、および2Dのマニュアル画像をもとに、「各部品の2Dキーポイントとマスクのセットを予測する」と研究者は書いている。

それから、2Dのキーポイントは、「ベース形状と新しい構成要素の間の可能な接続を見つけることによって、3Dに逆投影される」という。この組み合わせは、「学習ベースのモデルの効率を維持し、未知の3Dコンポーネントに対してより良く一般化する」と研究チームは書いている。

MEPNetのコードはGithubにある。

ぐるなび、バーティカルAIエージェントの新アプリ「UMAME!」β版をリリース

飲食店情報サービス大手のぐるなび（本社・東京）は1月20日、次世代飲食ビジネスの基盤構築をめざす「ぐるなびNextプロジェクト」の初成果として、新たな飲食店探索アプリ「UMAME!（うまみー！）」のβ版を公開した。

AIで企業の情報探索を効率化：Google Agentspaceの全貌

近年、AI技術の進化は目覚ましく、ビジネスの現場でも様々な形で活用が進んでいる。そのような中、Google Cloudが新たに発表したGoogle Agentspaceは、いま注目を集めるAIエージェントがエンタープライズITを大きく変革する予兆と言えるだろう。

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者（CPO）は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

宮崎市が実践するゼロトラスト：Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラストセキュリティ実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

MEPNetの斬新なアイデア

Read more

ぐるなび、バーティカルAIエージェントの新アプリ「UMAME!」β版をリリース

AIで企業の情報探索を効率化：Google Agentspaceの全貌

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

宮崎市が実践するゼロトラスト：Google Cloud 採用で災害対応を強化し、市民サービス向上へ