メタの自己教師あり学習モデルは「1つですべて兼ねる」への一歩か

メタの研究者は、音声、画像、テキストを処理できる単一のAIモデルを訓練したと発表した。このマルチモーダルシステムが将来的に同社の拡張現実やメタバース製品を動かすことが期待されている。

メタの自己教師あり学習モデルは「1つですべて兼ねる」への一歩か
Photo by Uriel SC on Unsplash

メタの研究者は音声、画像、テキストを処理できる単一のAIモデルを訓練したと発表した。このマルチモーダルシステムが将来的に同社の拡張現実やメタバース製品を動かすことが期待されている。

このモデルは「data2vec」と呼ばれ、さまざまなタスクを実行できる。多くの機械は、ラベル付きのデータからのみ学習する。しかし、自己教師あり学習により、機械は世界を観察するだけで、画像、音声、テキストの構造を把握して学習することができる

「これは、より多くの音声言語のテキストを理解するなど、機械が新しい複雑なタスクに取り組むための、よりスケーラブルで効率的なアプローチだ」とメタの研究者は語っている。

AIのアルゴリズムは通常、1種類のデータで学習するが、data2vecは3つの異なるモダリティで学習する。ただし、音声、画像、テキストなど、それぞれの形式を個別に処理することに変わりはない。

メタは、このようなマルチモーダルなモデルがあれば、メタバースのようなデジタル空間の中で、AIエージェントをその環境に順応させることができると考えているようだ。

data2vecを使えば、ラベル付きデータに頼らずに、「世界のさまざまな側面を学習する機械」を作ることができるようになる。これにより、より一般的な自己教師付き学習への道が開かれ、AIが動画や記事、音声記録を使って、サッカーの試合やパンの焼き方の違いなど、複雑なテーマについて学習する世界に近づくことができる。また、Data2vecは、より適応性の高いAIを開発することを可能にし、現在可能な範囲を超えたタスクをこなすことができるようになると研究者らは考えている。

Data2vecは、Transformerベースのニューラルネットワークで、自自己教師あり学習を用いて、オーディオ、コンピュータビジョン、自然言語処理の共通パターンを学習する。このモデルは、与えられたデータの表現方法を予測する方法を学習することで、さまざまな種類のデータを扱うことを学ぶ。モデルは画像が与えられた場合は次のピクセルを、音声の場合は次の発話を、文章の場合は単語を埋めることを推測しなければならないことを知っている。

図1. data2vecが異なるモダリティに対して同じ学習プロセスを踏む様子を示す図。モデルはまず、元の入力例の表現を生成し(教師モード)、次に入力のマスクされたバージョンに基づいて同じモデルによって回帰される。教師のパラメータは、生徒の重みの指数的移動平均です。生徒は教師のK個のネットワーク層の平均値を予測する(青部分). 出典:  Baevski et al(2022)
図1. data2vecが異なるモダリティに対して同じ学習プロセスを踏む様子を示す図。モデルはまず、元の入力例の表現を生成し(教師モード)、次に入力のマスクされたバージョンに基づいて同じモデルによって回帰される。教師のパラメータは、生徒の重みの指数的移動平均です。生徒は教師のK個のネットワーク層の平均値を予測する(青部分). 出典: Baevski et al(2022)

研究者たちは、16個のNvidia V100およびA100 GPUを組み合わせて、960時間の音声、書籍やWikipediaのページにある数百万の単語、ImageNet-1Kの画像を使ってdata2vecを学習させた。

Meta AIのリサーチエンジニアであるAlexei Baevskiは、英テクノロジーメディアThe Registerに次のように述べている。「モダリティごとに別々のモデルをトレーニングしているが、モデルが学習するプロセスは同じだ。将来的には、モダリティを組み合わせて、特化したモデルよりも効果的な高性能の自己教師付きモデルを構築することが可能になると期待している。異なるモダリティは、同じコンテンツに付加的な情報を加えることができる。例えば、動画のボディランゲージ、音声の韻律情報、テキストを組み合わせることで、より豊かな対話の表現が可能になる。現在、マルチモーダルな情報を組み合わせようとするアルゴリズムは存在するが、専門的なアルゴリズムに取って代わるほどの性能はまだない」。

Baevskiは、将来的にマルチモーダルシステムは、匂い、3Dオブジェクト、ビデオなどの概念をモデル化するために、より広範囲のデータを取り込むことができると述べている。

彼は、ARグラスをかけて料理をするというアイデアを紹介した。「様々なレストランやシェフの何千時間にも及ぶ料理の記録をもとに学習されたモデルがあるとする。このモデルにアクセスできるARグラスを装着してキッチンで料理をすると、次に何をすべきかを示す視覚的な合図がオーバーレイされ、潜在的なミスを指摘したり、特定の食材を加えることで料理の味にどのような影響があるかを説明したりすることができる」とThe Registerに対し語っている。

マルチモーダルシステムに関するこれまでの研究では、敵対的な攻撃を受けやすいことが指摘されている。例えば、OpenAIのCLIPモデルは、画像とテキストを学習しており、リンゴの画像に「iPod」という文字があると、誤ってiPodと認識してしまう。しかし、data2vecに同じような弱点があるかどうかは不明だ。

「しかし、現在のモデルはモダリティごとに個別に学習されているため、モダリティごとの敵対的攻撃の分析に関する既存の研究は、私たちの研究にも適用できると考えている」とBaevskiはThe Registerに対し述べている。

「将来的には、今回の研究を利用して、モダリティを1つのモデルにまとめた高性能なアルゴリズムを実現し、それらが敵対的攻撃に対してどのような影響を受けるかを研究する予定だ」

メタの研究者らがdata2vecをテストしたところ、特定のデータタイプのみで訓練された上位モデルのいくつかを、異なるタイプのタスクで凌駕した。この予備的な結果は論文に記載されており、コードはGitHubで公開されている。

「Data2vecは、同じ自己教師付きアルゴリズムが異なるモダリティでもうまく機能すること、そしてしばしば既存の最良のアルゴリズムよりもうまく機能することを示している。これは、より一般的な自己教師付き学習への道を開くものであり、AIが動画、記事、音声記録を使って、サッカーの試合やパンの焼き方などの複雑なテーマについて学習する世界に近づくものだ。また、data2vecによって、コンピュータがラベル付きのデータをほとんど必要とせずにタスクをこなせる世界に近づくことを期待している」とBaevskiはThe Registerに対し述べている。

毎月70本のハイエンド記事が読み放題の有料購読が初月無料

アクシオンではクイックな情報は無料で公開していますが、より重要で死活的な情報は有料会員にのみ提供しております。有料会員は弊社オリジナルコンテンツに加え、ブルームバーグ、サイエンティフィック・アメリカン、ニューヨーク・タイムズから厳選された記事、月70本以上にアクセスができるようになります。現在、初月無料キャンペーン中。下の画像をクリックしてください。

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)