新参UAEが言語AIでMeta超え 一躍「民主化」の旗手に

大流行の言語AIをめぐる競争で、アラブ首長国連邦(UAE)が突如として最も優れたモデルを発表し、広く公開した。AI界を席巻し続けた米国勢に、新参の中東勢が先行し、「民主化」を主導する異例の展開だ。


先週、アラブ首長国連邦(UAE)のアブダビにある技術イノベーション研究所(TII)が発表した400億パラメータ大規模AIモデル「FalconLLM」が、オープンソース大規模言語モデル(LLM)のベンチマークで首位に躍り出た

ベンチマークを作成するHugging Faceは、自然言語処理(NLP)用に構築されたライブラリや、機械学習(ML)モデルやデータセットを共有するためのプラットフォームを提供する米国企業で、AIモデルの独立した検証機関として世界で最も重要な存在とみなされている。

FalconLMの2つのバージョンである、Falcon 40B Instruct と Falcon 40B が ランキング「Hugging Face OpenLLM Leaderboard」のトップに立った。FalconはGPT-3と比較して大幅な性能向上を実現し、学習用計算バジェットの75%しか使用せず、推論時の計算量はわずか5分の1という。さらに、トレーニングに要する計算量では、 OpenAIのGPT-3の75%、Google DeepMindのChinchillaの40%、GoogleのPaLM-62Bの80%を要するのみで、より効率的である。

Falconの躍進により、2月に限定的にオープンソース化され、多数の研究者や開発者を巻き込んで界隈の話題をさらってきたMetaのLLaMA系は、3位以下に順位を下げた。

”最も民主的な言語モデル”がUAEからもたらされる

LLaMAのコードはGitHubで公開されているが、その重みがオープンソース化されることはなかった。つまり、このモデルの商業利用は制限されている。さらに、すべての亜種はオリジナルのLLaMAライセンスに依存しており、小規模な商用アプリケーションには適さない。

しかし、Falconはより柔軟なライセンスを採用しているため、モデルを微調整し、商業目的で使用することができる。Falconは、研究の限界を超えた初のオープンソースの大規模言語モデルとして注目されている。当初、ライセンスは100万ドルを超える収益に対して10%のロイヤリティを支払うことを既定していた。しかし、その後、TIIはライセンスを変更し、ロイヤリティの義務がなくなった。

GPT-4はこれまでで最も先進的なLLMだが、クローズドソースであり、OpenAIはモデルのアーキテクチャ、モデルサイズ、ハードウェア、トレーニング計算、データセット構築、トレーニング方法などの詳細について一切明らかにしていない。

4月には、Googleの流出文書の中で、エンジニアがオープンソース勢の急速な追い上げによって、「(技術的リード)2週間分しか離れていない」などと訴えていることが話題になった。Googleは社内の研究者に対して製品化するまで論文を発表することを禁じたとされる。