GeminiとGPT、どちらが先を行く？

グーグルが12月初旬にGeminiをリリースした。Geminiは実際のプロダクトとして「マルチモーダル」を成立させ、言語モデルの性能競争に過度に集中していたAI界に新たな次元を出現させた。

出典：Google DeepMind

OpenAIのチャットボットChatGPTは、GPT（Generative Pre-trained Transformer）として知られるニューラルネットワークに基づいており、大量のテキストデータによって学習されている。一方、GoogleのBardはもともとLaMDA（Language Model for Dialogue Applications）と呼ばれる対話用学習モデルに基づいて開発された。しかし、Googleは12月初旬、BardをGeminiという新しい基盤に基づいてアップグレードした。

Geminiの特徴は、「マルチモーダルモデル」と呼ばれる点だ。これは、Geminiがテキストだけでなく、画像、音声、ビデオといった様々な種類の情報を理解し、扱えることを意味する。つまり、Geminiは多様な方法で情報を受け取り、反応できるということだ。たとえば、テキストで質問をするだけでなく、写真を見せて質問することもできるようになっている。このように、Geminiは様々な形式の情報を組み合わせて使うことが可能な先進的なAIモデルだ。

チャットボットの用途に限定すれば、GPTが首位をキープしているかもしれない。機械学習モデルの開発と共有、公開をするためのプラットフォーム「Hugging Face」のchatbot-arena-leaderboardで、3つのベンチマークによる評価では、GPT−4が首位に立ち、元OpenAIの研究者が立ち上げたAnthropicの「Claude」が続いている。フランスの新興企業Mixtralのモデルも検討し、中級モデルGemini Proは現状、その下にいる（下図）。上級モデルGemini Ultraのベンチマークが出た時、GPTとGeminiの決戦の戦況が明確になるだろう。

Gemini Ultra - 非常に複雑なタスクに対応する最大かつ最も高性能なモデル。
Gemini Pro - 幅広いタスクのスケーリングに最適なモデル。
Gemini Nano - オンデバイスタスク向けの最も効率的なモデル。

しかし、より広範なタスクをこなすという意味では、Geminiが大きくリードしたかもしれない。グーグルが公開したGemini UltraとGPT-4のベンチマーク比較では、Gemini Ultraがチャットボット用途を含むテキストから、画像、動画、音声のすべてで、画像、音声、テキストも扱える GPT-4Vision（以下GPT-4V）を凌駕したということになる。そして、9月に発表されたGPT-4Vは、Geminiが約束するような完全なマルチモーダルモデルではないため、マルチモーダルではOpenAIが追う立場に立たされた可能性が高い。

画像用途では伯仲

AI新興企業LangChainは、Gemini Pro VisionをGPT-4Vと対決させ、スライドデッキに基づく質問にどれだけ答えられるかを確かめた。LangChainのチームは「同じOpenClip（＊1）埋め込みモデルを使用した場合、GPT-4Vのパフォーマンスに匹敵し、埋め込まれた画像の要約に基づいて検索した場合、1つの質問しか逃さなかった」と結論づけた。

Gemini ✨is natively multimodal, but how does it stack up against GPT-4V?

We put gemini-pro-vision head-to-head with the reigning champ to see how well it could answer questions based on a multimodal slide deck.

The results? Gemini seems to be a formidable model, matching… pic.twitter.com/L66Y7jePaH
— LangChain (@LangChainAI) December 13, 2023