Google、GPT-4対抗馬Geminiをリリース間近:より万能なAIの可能性を開拓か

Googleが近く市場投入しようとしているAIは、様々な情報を使い、様々な判断を下せる、マルチモーダルAIであるとされる。OpenAIがリードしてきたChatGPTのセンセーションを大幅に上回る新手が登場しようとしているのかもしれない。

Google、GPT-4対抗馬Geminiをリリース間近:より万能なAIの可能性を開拓か
2023年6月15日木曜日、フランス・パリで開催されたビバテック・フェアでのGoogleの看板。写真家 ネイサン・レイン/ブルームバーグ

Googleが近く市場投入しようとしているAIは、様々な情報を使い、様々な判断を下せる、マルチモーダルAIであるとされる。OpenAIがリードしてきたChatGPTのセンセーションを大幅に上回る新手が登場しようとしているのかもしれない。


Googleは、Microsoft Azureを通じて利用可能なOpenAIのGPT-4と競合するとされる最新AIの「Gemini」について、少人数のグループにアクセス権を与え、間もなく公開することを示唆したと報じられた。

米メディアThe Informationが9月中旬に報じたところによると、Googleは近く、Geminiを「Google Cloud Vertex」のAIサービスを通して、企業向けに提供する予定だ。同社はGeminiをすでに自社のコンシューマー向けサービスに組み込み、Google Cloudを通じて企業向けに販売する方針という。

Geminiは、GoogleのAI部門Google DeepMindの研究者が取り組んでいる次世代のマルチモーダルAIモデルだ。マルチモーダルAIは、テキスト、音声、画像、動画などの複数のデータ形式を統合し、高度な判断や理解を実現するAI技術を指す。従来のAIは主に単一のデータ形式に焦点を当てていたが、マルチモーダルAIはこれらを融合させることで、より複雑な認識を行う。現実世界の多様な問題に対応するこの技術は、医療診断から広告・マーケティングまで、さまざまな分野での利用が期待されており、多くの研究者がその応用研究に取り組んでいる。

Googleには十分なデータセットがあったようだ。8月中旬のThe Informationの記事によると、Googleは、YouTube動画のトランスクリプトの大規模データでGeminiをトレーニングしているという。YouTubeは地球上のほぼすべての言語の動画、音声、テキストデータをカバー。OpenAIもYouTube動画から文字起こしを行い、GPTシリーズをトレーニングしたと噂されている。

調査会社SemiAnalysisのDylan PatelとDaniel Nishballは最近、Googleのサプライヤーから得たデータを元に、Geminiは、OpenAIのGPT-4を打ち負かす可能性が高いと書いた。Patelらの分析では、Googleはより多くのAIトレーニング用チップを利用でき、主要な性能指標でGPT-4を凌駕できるという。

Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X, The GPU-Poors
Compute Resources That Make Everyone Look GPU-Poor

これに対し、OpenAIのサム・アルトマンCEOは、SemiAnalysisの主張に反論した。「信じられないことに、Googleはセミアナライシス社に社内の情報を公開させた(笑)」とアルトマンはX(旧Twitter)の投稿に書き、Google内部からGeminiのパフォーマンスに関する資料が与えられれば、当然、お世辞を書くとほのめかした。

手がかり

GeminiがどのようなマルチモーダルAIになるかは、情報が欠けている。ヒントとしては、7月に公開された米メディアThe VergeとGoogle DeepMind CEOのデミス・ハサビスのインタビューが挙げられる。

ChatGPT gets the headlines, but scientific research like AlphaFold is also the future of AI, says Google DeepMind CEO Demis Hassabis
The buzz around AI has moved from science research to chatbots, but Google DeepMind’s CEO says it’s all relevant to progress.

ハサビスは、大規模な言語モデル(LLM)はユーザーとのインターフェースとして機能し、その背後で特定の専門タスクを行うためには、別の専門的なAIモジュール(例えば、AlphaFold)を呼び出す手法に言及している。ツールユース(Tooluse)だ。

ツールユース機能の下では、中央システムはユーザーのプロンプトに効果的に応え、その質問や問い合わせを適切なツールにルーティングする。その結果をユーザーに対して理解しやすい形で返す。これら全てのプロセスは、自然言語を通じて行われるという。

「つまり、ユーザーにとっては、多くの能力を持つ1つの大きなAIシステムのように見えるだけで、その裏側では、AIシステムは専門化された小さなAIシステムに分解されている可能性がある」とハサビスはThe Vergeに対して言った。

おそらく、Geminiは複数のモデルで構成されており、少なくとも強化学習モデルとLLMの2つが含まれているはずだ。最近公開された、米メディアWiredによるインタビューでは、ハサビスは、「高いレベルでは、GeminiはAlpha Goタイプのシステムの長所のいくつかと、大型モデルの驚くべき言語能力を組み合わせたものだと考えることができます」とハサビスは。「また、かなり面白くなりそうな新機軸もいくつかあります」。ちなみに、Geminiはラテン語で「双子」の意である。

また、ハサビスのかつての盟友もGoogleの外で似たような道を歩んでいる。Google DeepMindの共同創業者であるムスタファ・スレイマンは「生成AIは単なる最初のフェーズに過ぎない。次に来るのは対話型AIで、他のソフトウェアや他の人々に呼びかけて、設定したタスクを遂行できるボットだ。彼はまた、強固な規制の必要性を訴えており、その実現は難しいとは考えていない」と言った

関連記事

AlphaGoのチームがChatGPTを本気で倒しに来た[吉田拓史]
Google傘下のAI研究所であるDeepMindは、次の大規模言語モデル(LLM)はOpenAIのものを超えると主張している。同社の得意なAI技術が組み合わさることでより汎用性の高い人間のパートナーが生まれるか?
ロボットが研究するとき|AIはいかに科学に革命をもたらすか[英エコノミスト]
人工知能(AI)に関する議論は、アルゴリズムによる偏見や差別、雇用の大量破壊、さらには人類滅亡など、その潜在的な危険性に焦点が当てられがちだ。しかし、このようなディストピア的なシナリオを心配する観測筋がいる一方で、潜在的な報酬に注目する向きもある。特に医学、気候科学、グリーンテクノロジーなどの分野で、科学的発見のペースを根本的に加速させることによってである。Google DeepMind CEOのデミス・ハサビスやMetaのAI研究責任者であるヤン・ルカンといったこの分野の著名人は、AIが科学の進歩を加速させ、発見の黄金時代をもたらすと信じている。彼らは正しいのだろうか? このような主張は…

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史