Google、GPT-4対抗馬Geminiをリリース間近：より万能なAIの可能性を開拓か

Googleが近く市場投入しようとしているAIは、様々な情報を使い、様々な判断を下せる、マルチモーダルAIであるとされる。OpenAIがリードしてきたChatGPTのセンセーションを大幅に上回る新手が登場しようとしているのかもしれない。

吉田拓史

19 9月 2023 — 4 min read

2023年6月15日木曜日、フランス・パリで開催されたビバテック・フェアでのGoogleの看板。写真家ネイサン・レイン／ブルームバーグ

Googleは、Microsoft Azureを通じて利用可能なOpenAIのGPT-4と競合するとされる最新AIの「Gemini」について、少人数のグループにアクセス権を与え、間もなく公開することを示唆したと報じられた。

米メディアThe Informationが9月中旬に報じたところによると、Googleは近く、Geminiを「Google Cloud Vertex」のAIサービスを通して、企業向けに提供する予定だ。同社はGeminiをすでに自社のコンシューマー向けサービスに組み込み、Google Cloudを通じて企業向けに販売する方針という。

Geminiは、GoogleのAI部門Google DeepMindの研究者が取り組んでいる次世代のマルチモーダルAIモデルだ。マルチモーダルAIは、テキスト、音声、画像、動画などの複数のデータ形式を統合し、高度な判断や理解を実現するAI技術を指す。従来のAIは主に単一のデータ形式に焦点を当てていたが、マルチモーダルAIはこれらを融合させることで、より複雑な認識を行う。現実世界の多様な問題に対応するこの技術は、医療診断から広告・マーケティングまで、さまざまな分野での利用が期待されており、多くの研究者がその応用研究に取り組んでいる。

Googleには十分なデータセットがあったようだ。8月中旬のThe Informationの記事によると、Googleは、YouTube動画のトランスクリプトの大規模データでGeminiをトレーニングしているという。YouTubeは地球上のほぼすべての言語の動画、音声、テキストデータをカバー。OpenAIもYouTube動画から文字起こしを行い、GPTシリーズをトレーニングしたと噂されている。

調査会社SemiAnalysisのDylan PatelとDaniel Nishballは最近、Googleのサプライヤーから得たデータを元に、Geminiは、OpenAIのGPT-4を打ち負かす可能性が高いと書いた。Patelらの分析では、Googleはより多くのAIトレーニング用チップを利用でき、主要な性能指標でGPT-4を凌駕できるという。

これに対し、OpenAIのサム・アルトマンCEOは、SemiAnalysisの主張に反論した。「信じられないことに、Googleはセミアナライシス社に社内の情報を公開させた(笑)」とアルトマンはX（旧Twitter）の投稿に書き、Google内部からGeminiのパフォーマンスに関する資料が与えられれば、当然、お世辞を書くとほのめかした。

手がかり

GeminiがどのようなマルチモーダルAIになるかは、情報が欠けている。ヒントとしては、7月に公開された米メディアThe VergeとGoogle DeepMind CEOのデミス・ハサビスのインタビューが挙げられる。

ハサビスは、大規模な言語モデル（LLM）はユーザーとのインターフェースとして機能し、その背後で特定の専門タスクを行うためには、別の専門的なAIモジュール（例えば、AlphaFold）を呼び出す手法に言及している。ツールユース（Tooluse）だ。

ツールユース機能の下では、中央システムはユーザーのプロンプトに効果的に応え、その質問や問い合わせを適切なツールにルーティングする。その結果をユーザーに対して理解しやすい形で返す。これら全てのプロセスは、自然言語を通じて行われるという。

「つまり、ユーザーにとっては、多くの能力を持つ1つの大きなAIシステムのように見えるだけで、その裏側では、AIシステムは専門化された小さなAIシステムに分解されている可能性がある」とハサビスはThe Vergeに対して言った。

おそらく、Geminiは複数のモデルで構成されており、少なくとも強化学習モデルとLLMの2つが含まれているはずだ。最近公開された、米メディアWiredによるインタビューでは、ハサビスは、「高いレベルでは、GeminiはAlpha Goタイプのシステムの長所のいくつかと、大型モデルの驚くべき言語能力を組み合わせたものだと考えることができます」とハサビスは。「また、かなり面白くなりそうな新機軸もいくつかあります」。ちなみに、Geminiはラテン語で「双子」の意である。

また、ハサビスのかつての盟友もGoogleの外で似たような道を歩んでいる。Google DeepMindの共同創業者であるムスタファ・スレイマンは「生成AIは単なる最初のフェーズに過ぎない。次に来るのは対話型AIで、他のソフトウェアや他の人々に呼びかけて、設定したタスクを遂行できるボットだ。彼はまた、強固な規制の必要性を訴えており、その実現は難しいとは考えていない」と言った。