メタは「世界モデル」を伴うAIを作ろうとしている

メタは同社AI研究所のバーチャルイベントで、メタバースへの集中投資を再度アピールした。発表された仮想空間で様々な役割を担うAIからは、それらがより高度で多様な昨日を身につけることへの強い意欲を示された。

吉田拓史

2022年3月4日 — 5 min read

音声による支持で空間構築できる「BuilderBot」を紹介するマーク・ザッカーバーグのアバター（左）, Meta AI.

メタCEOのマーク・ザッカーバーグは、2月下旬に開催された同社AI研究所のバーチャルイベントで、「メタバースで得られる体験の種類は、現在可能なものを超えている」と語った。発表された仮想空間で様々な役割を担うAIからは、それらがより高度で多様な昨日を身につけることへの強い意欲を示された。

メタは同社の株価は27％急落し、メタの時価総額の2,300億ドル以上が蒸発した後も、社名を変更してまで設定したミッションの強調は続いていることが印象付けられた。

「これは、インターネットの没入型バージョンだ。スクリーン上で何かを見ているのではなく、実際に自分がその中にいる、あるいは他の人と一緒にそこにいるように感じられるようになる。そのためには、新しいハードウェアデバイスから、世界を構築し探索するためのソフトウェアまで、あらゆる分野の進歩が必要だ。そして、これらの多くを実現するカギとなるのが、AIの進化なのだ」とザッカーバーグは語った。

メタバース構築の中核となる課題は、物理世界から仮想世界への移行を可能な限りシームレスにすることだ。将来的には、メタの住人たちはARメガネやVRゴーグルを装着してこうした作り物の環境をナビゲートし、さまざまな人工知能技術を駆使して互いに交流するようになるだろう。

Project CAIRoke

メタバースにおいて重要な存在のひとつが、すべてを見渡し、すべてを知ることができるAIアシスタントである。メタは、メタバースで動作するスマートチャットボットを開発するために設計されたモデル「Project CAIRoke」を発表した。

メタのAI研究所は、これを実現するために、一人称視点で世界を見る「自己中心的知覚」と、ユーザーが想像できるものを何でも作ることができる全く新しいクラスの「生成的AIモデル」の2つの研究領域を探求しているという。

さらに、音声コマンドで仮想環境に物を生成したり、取り込んだりすることができる新しいツール「BuilderBot」のデモも行われた。

ザッカーバーグは、CAIRokeを搭載したシステムに音声コマンドで指示することで、BuilderBotにメタバースに新しい機能を作らせるデモを行った。「雲を追加しましょう」と言う。するとメタバース内の空は雲で埋め尽くされる。「あそこに島を入れましょう」。すると、遠くに苔むした岩のある島が現れる、という具合だ。

「かっこいい。砂浜に木を植えてみようか。ここにピクニックブランケットを敷こう。テーブルを置こう。ステレオを置こう。飲み物も用意しよう。波の音とカモメの鳴き声が聞こえてきそうだ」とザッカーバーグは言った。ベンチが置かれ、バーチャルな缶詰が突然出現し、想像上のピクニックシーンが実現する。

世界の仕組みをモデル化できるAI

メタバースに必要なのは、AIアシスタントだけではない。デジタル環境にあらゆる種類のオブジェクトを作成できる生成AIモデルのホストなど、他の分野の機械学習にも依存している。そのためには、カナダのモントリオールにあるメタのAI研究チームのディレクター、ジョエル・ピニューとチーフAIサイエンティストのヤン・ルクンが「ワールドモデル」（世界のモデル）と呼ぶものを構築する必要がある。

ワールドモデルとは、コンピューターシステムがユーザーの要求に対してより良い予測や応答を生成するために使用できる、世界のシミュレーションのようなものである。

「人間や人間以外の動物は、タスクに依存しない教師なしの方法で、世界を観察し、理解できないほど少ないインタラクションを通して、世界の仕組みに関する膨大な量の背景知識を学ぶことができるようだ」とルクンは声明の中で語っている。「この蓄積された知識が、しばしば“常識”と呼ばれるものの基礎を構成しているのではないかという仮説が成り立つ」

そして、常識は、何がありそうか、何がもっともらしいか、何が不可能かを導くことができる、世界のモデルの集まりと見ることができる。「これによって、人間は不慣れな状況でも効果的な計画を立てることができる。例えば、10代のドライバーは雪の上を運転したことがないかもしれないが、雪が滑りやすく、強引に運転すると車が横滑りしてしまうことを知っている」とルクンは書いている。

常識的な知識によって、動物は将来の結果を予測するだけでなく、時間的・空間的に欠落した情報を補うこともできる。ドライバーは、近くで金属がぶつかり合う音を聞けば、事故が起きたことをすぐに察知する。

自律知能のためのシステムアーキテクチャ。コンフィギュレータは他のモジュールから入力を受けるが、図を簡略化するためにそれらの矢印は省略した。Image via Yann LeCun / Meta AI

メタバースにおけるAIエージェントは、現実世界と仮想世界の複数のデータソースから学習する必要がある。メタは、Habitat 2.0による家の中のデジタルマッピングから、Ego 4Dによる一人称で記録されたあらゆるシーンのキャプチャまで、あらゆる種類のデータセットを蓄積してきた。画像、音声、動画、テキストなど、データの種類が多岐にわたるため、AIモデルもマルチモーダル（複数の役割にまたがっていること）でなければならなくなる。

体感型AI研究のためのシミュレーションプラットフォーム「AI Habitat」. Image via Meta AI

そのデータすべてにアノテーションを付けてモデルを学習させるのは不可能だ。教師あり学習を手動で行うのではなく、ラベル付けされていないデータから自己教師ありで学習するよう、システムに教えることになる。メタのコンピュータビジョン研究ディレクターであるピョートル・ドラーは、モデルに物体の視覚表現を教える方法として、多くの画像を見せて画素を隠し、モデルが最善の推測をして、隠れた部分を埋めるように仕向ける手法を説明した。

例えば、車のタイヤの画像を多数提示し、ホイールの一部を覆い隠した場合、モデルがタイヤの円形形状を完成させることができれば、その物体の一般的な構造をほぼ独力で学習したことになるのだ。そうなれば、ニューラルネットワークの訓練や導入がより迅速に行えるようになる。

ルクンは、比較的遅い教師あり学習法から、より速い自己教師ありアプローチに移行するという考えを長年支持している。「人間や動物が新しいスキルを学んだり、新しい知識を習得したりするのは、これまで我々が構築してきたどの人工システムよりもずっとずっと速いことがはっきりとわかる」と彼は言う。

「新しいスキルのようなものであれば、より少ない試行回数で学ぶことができるし、より少ない例で学ぶことができる。では、人間や動物が使っている学習で、今のところ機械で再現できないものは何だか？　それが大きな疑問だ。機械でこれを行う方法はまだわかっていないが、自己監視下での走行など、いくつかのアイデアはある」

野心的な機械翻訳と音声認識

しかし、メタバースの最終的な目標は、ユーザーが空想のAIアシスタントやモデルと対話することだけではない。1つは「No Language Left Behind」と名付けられた野心的な機械翻訳システムで、たとえ希少で原文が乏しい言語であっても、あらゆる言語を学習するとされている。

2つ目のプロジェクトは、ユニバーサル音声翻訳機で、瞬時の同時音声翻訳により、ユーザーがメタバースで異なる言語でコミュニケーションできるようにするものだ。

「私たちは、より多くの人々が母国語でインターネットにアクセスできるような技術を作り続けていくつもりだ。それをメタバース内のコンテンツや体験にも広げていきたいと考えている」とザッカーバーグは述べた。「このことは、人々が仮想世界をテレポートし、異なる背景を持つ人々と一緒に何かを経験するようになったときに、特に重要になる。今、私たちはインターネットを改善し、どんな言語を話すか、どこから来たかに関係なく、誰もが互いにコミュニケーションできる新しい基準を設定するチャンスを持っている。そして、もしこれがうまくいけば、これはAIが地球規模で人々を結びつけるのに役立つ一つの例に過ぎない」

有料購読者へのご案内

購読頂きありがとうございます。ブログなどで報告している通り、アクシオンの本サイトにはブルームバーグ、ニューヨーク・タイムズ、サイエンティフィック・アメリカン等の厳選された記事を有料会員限定で提供しています。オリジナルと足し上げると毎月70本程度の有料記事を提供しており、今後も有料記事が拡大する方向で進んでいます。ぜひ、本サイトを訪れてください。