DeepMind、言語モデルの大規模化は引き続き効果的と判断

DeepMindはさまざまなサイズの変換言語モデルを学習させた。その結果、読解力、ファクトチェック、有害言語の識別など、モデルの規模を大きくすることで継続的にパフォーマンスが向上する分野が明らかになった。

DeepMind、言語モデルの大規模化は引き続き効果的と判断
Photo by Joel Naren on Unsplash

Googleの検索エンジンの改良から翻訳アプリケーションの構築まで、「大規模マルチタスク言語モデル」(MMLU)と呼ばれる一群のシステムが使用されている。しかし、これらのプログラムには、性差別的な言葉や人種差別的な言葉を再生したり、論理的推論のテストに失敗するなど、深刻な問題もある。

これらの弱点は、データやコンピューティングパワー、そしてモデルの規模を増やすだけで改善できるのか、それとも、技術の限界に達しているのか、という大きな問いを投げかけている。

これは、Alphabetの人工知能(AI)研究所であるDeepMindが、12月初旬に発表した3つの研究論文が扱ったテーマでもある。同社の結論は、これらのシステムをさらにスケールアップすることで、多くの改善が得られるはずだというものだ。「この論文の重要な発見のひとつは、大規模な言語モデルの進歩と能力が依然として向上している」とDeepMindのリサーチサイエンティストで論文の著者の一人であるJack Raeはブリーフィングで記者団にこう語ったという。

過去20年間で、言語モデルは、言語の構造を暗黙的に捉えるニューラルネットワークへと進歩してきた。進歩は、規模とネットワークアーキテクチャの両方によってもたらされている。経験的に予測されたスケールメリットは、Open AIのGPT-3(2020年)によって実際に実現された。GPT-3は、3,000億トークンのテキストを学習した1,750億パラメータのTransformerで、多くの自然言語処理(NLP)タスクにおいて、前例のない生成品質とジェネラリスト能力を示した。

学習データ、モデルサイズ(パラメータで測定)、学習計算量の組み合わせをスケーリングして、学術的および産業的なベンチマークで性能が向上したモデルを得るという傾向がある。この傾向に沿った注目すべきモデルとしては、3億4,500万パラメータのBERT(Devlinら、2019年)が幅広いベンチマークの言語分類タスクで強力なパフォーマンスを発揮し、15億パラメータのGPT-2(Radfordら、2018年)および83億パラメータのMegatron(Shoeybiら、2019年)がゼロショット言語モデルのパフォーマンスを徐々に向上させ、110億パラメータのT5(Raffelら、2020a)が伝達学習を進め、いくつかのクローズドブックの質問応答タスクでパフォーマンスを発揮し、前述の1,750億パラメータのGPT-3が挙げられる。

DeepMindは「Gopher」と名付けられた2,800億個のパラメータを持つ言語モデルを構築することで、このMMLUの能力を探っている。パラメータとは言語モデルの大きさや複雑さを表す簡単な尺度で、GopherはOpenAIのGPT-3(パラメータ数1,750億)よりは大きいが、MicrosoftとNVIDIAのMegatronモデル(パラメータ数5,300億)のような実験的なシステムには及ばないことを意味している。

DeepMindは4,400万パラメータから2,800億パラメータまでのさまざまなサイズの変換言語モデルを学習させた(最大のモデルをGopherと名付けた)。その結果、読解力、ファクトチェック、有害言語の識別など、モデルの規模を大きくすることで継続的にパフォーマンスが向上する分野が明らかになった。また、研究者らはモデルのサイズを大きくしても結果が大きく変わらない分野、例えば、論理的な推論や常識的なタスクなどの結果も明らかにした。

これらの結論を得るために、DeepMindの研究者たちは、152の言語タスクまたはベンチマークにおいて、さまざまなサイズの言語モデルを評価した。Gopherは、比較可能な結果を含むタスクの約81%において、現在の最先端の言語モデルよりも性能を向上させており、特にファクトチェックや一般的な知識などの知識集約型の領域で顕著であるようだ。

Gopherの能力は、いくつかの重要なタスクにおいて既存の言語モデルを上回る。Chart via DeepMind.
Gopherの能力は、いくつかの重要なタスクにおいて既存の言語モデルを上回る。Chart via DeepMind.

研究者らはGopherを定量的に評価するだけでなく、私たちはこのモデルを直接対話によって検証した。主な発見は、Gopherが(チャットのような)対話型のインタラクションに促されたとき、モデルが驚くべき一貫性を提供することがあるということだ。

「例えば、Gopherは細胞生物学について議論し、特に対話を微調整していないにもかかわらず、正しい引用を行うことができる。しかし、私たちの研究では、モデルのサイズを超えて存続するいくつかの失敗モードについても明らかにした。その中には、繰り返しの傾向、ステレオタイプのバイアスの反映、誤った情報の確信的な伝播などがある」と共著者の一人Jack Raeはブログに書いている。

言語モデルの巨大化傾向は続いており、DeepMindの研究は、この傾向を裏付けるものであり、MMLUの規模を拡大することで、感情分析や要約などをテストする最も一般的なベンチマークにおいて性能が向上することを示唆している。

また、DeepMindの研究者は別の論文で、MMLUの導入に伴う様々な潜在的弊害についても調査している。これには、システムが有害な言語を使用すること、誤った情報を共有する能力、スパムやプロパガンダを共有するような悪意のある目的に使用される可能性などが含まれている。これらの問題は、AI言語モデルがチャットボットや販売代理店など、より広く展開されるようになれば、ますます重要になるだろう。

最後の論文では、Gopherの基礎と倫理的・社会的リスクの分類法をもとに、学習のエネルギーコストを削減し、モデルの出力を学習コーパス内のソースに容易にトレースできる改良された言語モデルアーキテクチャRetrieval-Enhanced Transformer (RETRO)を提案している。

参考文献

Read more

米国のEV革命は失速?[英エコノミスト]

米国のEV革命は失速?[英エコノミスト]

米国人は自動車が大好きだ。バッテリーで走らない限りは。ピュー・リサーチ・センターが7月に発表した世論調査によると、電気自動車(EV)の購入を検討する米国人は5分の2以下だった。充電網が絶えず拡大し、選べるEVの車種がますます増えているにもかかわらず、このシェアは前年をわずかに下回っている。 この言葉は、相対的な無策に裏打ちされている。2023年第3四半期には、バッテリー電気自動車(BEV)は全自動車販売台数の8%を占めていた。今年これまでに米国で販売されたEV(ハイブリッド車を除く)は100万台に満たず、自動車大国でない欧州の半分強である(図表参照)。中国のドライバーはその4倍近くを購入している。

By エコノミスト(英国)
労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

2010年代半ばは労働者にとって最悪の時代だったという点では、ほぼ誰もが同意している。ロンドン・スクール・オブ・エコノミクスの人類学者であるデイヴィッド・グレーバーは、「ブルシット・ジョブ(どうでもいい仕事)」という言葉を作り、無目的な仕事が蔓延していると主張した。2007年から2009年にかけての世界金融危機からの回復には時間がかかり、豊かな国々で構成されるOECDクラブでは、労働人口の約7%が完全に仕事を失っていた。賃金の伸びは弱く、所得格差はとどまるところを知らない。 状況はどう変わったか。富裕国の世界では今、労働者は黄金時代を迎えている。社会が高齢化するにつれて、労働はより希少になり、より良い報酬が得られるようになっている。政府は大きな支出を行い、経済を活性化させ、賃上げ要求を後押ししている。一方、人工知能(AI)は労働者、特に熟練度の低い労働者の生産性を向上させており、これも賃金上昇につながる可能性がある。例えば、労働力が不足しているところでは、先端技術の利用は賃金を上昇させる可能性が高い。その結果、労働市場の仕組みが一変する。 その理由を理解するために、暗

By エコノミスト(英国)
中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

脳腫瘍で余命いくばくもないトゥー・チャンワンは、最後の言葉を残した。その中国の気象学者は、気候が温暖化していることに気づいていた。1961年、彼は共産党の機関紙『人民日報』で、人類の生命を維持するための条件が変化する可能性があると警告した。 しかし彼は、温暖化は太陽活動のサイクルの一部であり、いつかは逆転するだろうと考えていた。トゥーは、化石燃料の燃焼が大気中に炭素を排出し、気候変動を引き起こしているとは考えなかった。彼の論文の数ページ前の『人民日報』のその号には、ニヤリと笑う炭鉱労働者の写真が掲載されていた。中国は欧米に経済的に追いつくため、工業化を急いでいた。 今日、中国は工業大国であり、世界の製造業の4分の1以上を擁する。しかし、その進歩の代償として排出量が増加している。過去30年間、中国はどの国よりも多くの二酸化炭素を大気中に排出してきた(図表1参照)。調査会社のロディウム・グループによれば、中国は毎年世界の温室効果ガスの4分の1以上を排出している。これは、2位の米国の約2倍である(ただし、一人当たりで見ると米国の方がまだひどい)。

By エコノミスト(英国)