Google、GPT-4対抗馬Geminiをリリース間近:より万能なAIの可能性を開拓か

Googleが近く市場投入しようとしているAIは、様々な情報を使い、様々な判断を下せる、マルチモーダルAIであるとされる。OpenAIがリードしてきたChatGPTのセンセーションを大幅に上回る新手が登場しようとしているのかもしれない。

Google、GPT-4対抗馬Geminiをリリース間近:より万能なAIの可能性を開拓か
2023年6月15日木曜日、フランス・パリで開催されたビバテック・フェアでのGoogleの看板。写真家 ネイサン・レイン/ブルームバーグ

Googleが近く市場投入しようとしているAIは、様々な情報を使い、様々な判断を下せる、マルチモーダルAIであるとされる。OpenAIがリードしてきたChatGPTのセンセーションを大幅に上回る新手が登場しようとしているのかもしれない。


Googleは、Microsoft Azureを通じて利用可能なOpenAIのGPT-4と競合するとされる最新AIの「Gemini」について、少人数のグループにアクセス権を与え、間もなく公開することを示唆したと報じられた。

米メディアThe Informationが9月中旬に報じたところによると、Googleは近く、Geminiを「Google Cloud Vertex」のAIサービスを通して、企業向けに提供する予定だ。同社はGeminiをすでに自社のコンシューマー向けサービスに組み込み、Google Cloudを通じて企業向けに販売する方針という。

Geminiは、GoogleのAI部門Google DeepMindの研究者が取り組んでいる次世代のマルチモーダルAIモデルだ。マルチモーダルAIは、テキスト、音声、画像、動画などの複数のデータ形式を統合し、高度な判断や理解を実現するAI技術を指す。従来のAIは主に単一のデータ形式に焦点を当てていたが、マルチモーダルAIはこれらを融合させることで、より複雑な認識を行う。現実世界の多様な問題に対応するこの技術は、医療診断から広告・マーケティングまで、さまざまな分野での利用が期待されており、多くの研究者がその応用研究に取り組んでいる。

Googleには十分なデータセットがあったようだ。8月中旬のThe Informationの記事によると、Googleは、YouTube動画のトランスクリプトの大規模データでGeminiをトレーニングしているという。YouTubeは地球上のほぼすべての言語の動画、音声、テキストデータをカバー。OpenAIもYouTube動画から文字起こしを行い、GPTシリーズをトレーニングしたと噂されている。

調査会社SemiAnalysisのDylan PatelとDaniel Nishballは最近、Googleのサプライヤーから得たデータを元に、Geminiは、OpenAIのGPT-4を打ち負かす可能性が高いと書いた。Patelらの分析では、Googleはより多くのAIトレーニング用チップを利用でき、主要な性能指標でGPT-4を凌駕できるという。

Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X, The GPU-Poors
Compute Resources That Make Everyone Look GPU-Poor

これに対し、OpenAIのサム・アルトマンCEOは、SemiAnalysisの主張に反論した。「信じられないことに、Googleはセミアナライシス社に社内の情報を公開させた(笑)」とアルトマンはX(旧Twitter)の投稿に書き、Google内部からGeminiのパフォーマンスに関する資料が与えられれば、当然、お世辞を書くとほのめかした。

手がかり

GeminiがどのようなマルチモーダルAIになるかは、情報が欠けている。ヒントとしては、7月に公開された米メディアThe VergeとGoogle DeepMind CEOのデミス・ハサビスのインタビューが挙げられる。

ChatGPT gets the headlines, but scientific research like AlphaFold is also the future of AI, says Google DeepMind CEO Demis Hassabis
The buzz around AI has moved from science research to chatbots, but Google DeepMind’s CEO says it’s all relevant to progress.

ハサビスは、大規模な言語モデル(LLM)はユーザーとのインターフェースとして機能し、その背後で特定の専門タスクを行うためには、別の専門的なAIモジュール(例えば、AlphaFold)を呼び出す手法に言及している。ツールユース(Tooluse)だ。

ツールユース機能の下では、中央システムはユーザーのプロンプトに効果的に応え、その質問や問い合わせを適切なツールにルーティングする。その結果をユーザーに対して理解しやすい形で返す。これら全てのプロセスは、自然言語を通じて行われるという。

「つまり、ユーザーにとっては、多くの能力を持つ1つの大きなAIシステムのように見えるだけで、その裏側では、AIシステムは専門化された小さなAIシステムに分解されている可能性がある」とハサビスはThe Vergeに対して言った。

おそらく、Geminiは複数のモデルで構成されており、少なくとも強化学習モデルとLLMの2つが含まれているはずだ。最近公開された、米メディアWiredによるインタビューでは、ハサビスは、「高いレベルでは、GeminiはAlpha Goタイプのシステムの長所のいくつかと、大型モデルの驚くべき言語能力を組み合わせたものだと考えることができます」とハサビスは。「また、かなり面白くなりそうな新機軸もいくつかあります」。ちなみに、Geminiはラテン語で「双子」の意である。

また、ハサビスのかつての盟友もGoogleの外で似たような道を歩んでいる。Google DeepMindの共同創業者であるムスタファ・スレイマンは「生成AIは単なる最初のフェーズに過ぎない。次に来るのは対話型AIで、他のソフトウェアや他の人々に呼びかけて、設定したタスクを遂行できるボットだ。彼はまた、強固な規制の必要性を訴えており、その実現は難しいとは考えていない」と言った

関連記事

AlphaGoのチームがChatGPTを本気で倒しに来た[吉田拓史]
Google傘下のAI研究所であるDeepMindは、次の大規模言語モデル(LLM)はOpenAIのものを超えると主張している。同社の得意なAI技術が組み合わさることでより汎用性の高い人間のパートナーが生まれるか?
ロボットが研究するとき|AIはいかに科学に革命をもたらすか[英エコノミスト]
人工知能(AI)に関する議論は、アルゴリズムによる偏見や差別、雇用の大量破壊、さらには人類滅亡など、その潜在的な危険性に焦点が当てられがちだ。しかし、このようなディストピア的なシナリオを心配する観測筋がいる一方で、潜在的な報酬に注目する向きもある。特に医学、気候科学、グリーンテクノロジーなどの分野で、科学的発見のペースを根本的に加速させることによってである。Google DeepMind CEOのデミス・ハサビスやMetaのAI研究責任者であるヤン・ルカンといったこの分野の著名人は、AIが科学の進歩を加速させ、発見の黄金時代をもたらすと信じている。彼らは正しいのだろうか? このような主張は…

Read more

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者(CPO)は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

By 吉田拓史
宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラスト セキュリティ 実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

By 吉田拓史
​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

Google Cloudが9月25日に開催した記者説明会では、イオンリテール株式会社がCloud Runを活用し顧客生涯価値(LTV)向上を目指したデータ分析基盤を内製化した事例を紹介。従業員1,000人以上がデータ分析を行う体制を目指し、BIツールによる販促効果分析、生成AIによる会話分析、リテールメディア活用などの取り組みを進めている。

By 吉田拓史
Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Google Cloudは、年次イベント「Google Cloud Next Tokyo '24」で、大規模言語モデル「Gemini」を活用したAIエージェントの取り組みを多数発表した。Geminiは、コーディング支援、データ分析、アプリケーション開発など、様々な分野で活用され、業務効率化や新たな価値創出に貢献することが期待されている。

By 吉田拓史