Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達

Google Brainの研究者たちは、より大きく、より良いものを追求し続ける中で、新たに提案したSwitch Transformer言語モデルを、計算コストを抑えながら1.6兆個のパラメータにまでスケールアップした。

Google BrainのSwitch Transformer言語モデル、16兆個のパラメータに到達

Google Brainの研究者たちは、より大きく、より良いものを追求し続ける中で、新たに提案したSwitch Transformer言語モデルを、計算コストを抑えながら1.6兆個のパラメータにまでスケールアップした。研究チームは、Mixture of Experts (MoE) ルーティングアルゴリズムを単純化し、データ、モデル、専門家の並列性を効率的に組み合わせ、この「法外な数のパラメータ」を可能にした。

最近の多くのシンプルなディープラーニングアーキテクチャは、より複雑なアルゴリズムよりも優れた性能を発揮していますが、このような性能向上には膨大な計算予算、膨大なデータセット、膨大なパラメータ数が必要となる。研究チームは、ディープラーニングモデルはすべての入力に対して同じパラメータを再利用する傾向があるのに対し、Mixture of Experts (MoE)モデルは異なるパラメータを使用することに注目している。研究チームは、各入力例に対するニューラルネットワークの重み(パラメータ)のサブセットのみを使用して言語モデルを大規模に訓練することに注目しており、このスパース度はMoEパラダイムを単純化するために新たに提案された技術に由来している。

ディープラーニングアーキテクチャの文脈では、MoEルーティングアルゴリズムは、モデルが複数のエキスパートネットワークの出力を組み合わせることを可能にする。このようにして、学習されたゲーティングネットワークは、エキスパートネットワークの出力を混合して最終的な出力を生成することが不可欠となる。「MoEは、言語モデリングや機械翻訳のベンチマークにおいて、最先端の結果をもたらした」と研究者は説明している。

この研究の主な貢献の1つは、単純化されたMoEパラダイムが通信と計算コストを削減したことだ。これまでに実績のあるMoE戦略では、複数のエキスパートネットワークにルーティングを行い、ルーティング関数の非自明な勾配を可能にしていましたが、提案されたモデルでは、1つのエキスパートのみを使用している。

William Fedus et al. (2021)

同チームによると、提案された単純化された手法は、各デバイスのメモリと計算フットプリントを管理可能に維持しながら、デバイスの数に応じてモデルの重みが増加することを確実にしているとのことです。32個のTPUコアを使用してColossal Clean Crawled Corpus (C4)で事前学習したSwitch Transformerは、慎重に調整された密なモデルとMoEモデルの両方を上回る性能を発揮しながら、より少ない計算量を実現しました。

実験では、Switch Transformerは、Common Crawlデータセット(mC4)の多言語バリアントの101の言語で、多言語T5ベース(mT5)モデルを改良しました。Switch Transformerはまた、101言語のうち91%の言語で4倍のスピードアップが見られ、mT5ベースラインよりも平均的なプレトレーニングのスピードアップを達成しました。さらに、チームは、T5-XXLモデルの4分の1の時間で1.6兆個のパラメータを持つSwitch Transformerを事前学習することで、現在の言語モデルの規模を押し上げる可能性を実証した。

William Fedus et al. (2021)

参考文献

  1. William Fedus et al. SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY. arXiv:2101.03961v1. 11, Jan 2021.

700円/月の支援

Axionは吉田が2年無給で、1年が高校生アルバイトの賃金で進めている「慈善活動」です。有料購読型アプリへと成長するプランがあります。コーヒー代のご支援をお願いします。個人で投資を検討の方はTwitter(@taxiyoshida)までご連絡ください。

デジタル経済メディアAxionを支援しよう
Axionはテクノロジー×経済の最先端情報を提供する次世代メディアです。経験豊富なプロによる徹底的な調査と分析によって信頼度の高い情報を提供しています。投資家、金融業界人、スタートアップ関係者、テクノロジー企業にお勤めの方、政策立案者が主要読者。運営の持続可能性を担保するため支援を募っています。
Takushi Yoshida is creating writing/journalism | Patreon
Patreon is a membership platform that makes it easy for artists and creators to get paid. Join over 200,000 creators earning salaries from over 6 million monthly patrons.

投げ銭

投げ銭はこちらから。金額を入力してお好きな額をサポートしてください。

Pay Yoshida Takushi using PayPal.Me
Go to paypal.me/axionyoshi and type in the amount. Since it’s PayPal, it’s easy and secure. Don’t have a PayPal account? No worries.

Special thanks to supporters !

Shogo Otani, 林祐輔, 鈴木卓也, Mayumi Nakamura, Kinoco, Masatoshi Yokota, Yohei Onishi, Tomochika Hara, 秋元 善次, Satoshi Takeda, Ken Manabe, Yasuhiro Hatabe, 4383, lostworld, ogawaa1218, txpyr12, shimon8470, tokyo_h, kkawakami, nakamatchy, wslash, TS, ikebukurou, 太郎, bantou, ysh_tmk, katsuyukitanaka.

Read more

米国のEV革命は失速?[英エコノミスト]

米国のEV革命は失速?[英エコノミスト]

米国人は自動車が大好きだ。バッテリーで走らない限りは。ピュー・リサーチ・センターが7月に発表した世論調査によると、電気自動車(EV)の購入を検討する米国人は5分の2以下だった。充電網が絶えず拡大し、選べるEVの車種がますます増えているにもかかわらず、このシェアは前年をわずかに下回っている。 この言葉は、相対的な無策に裏打ちされている。2023年第3四半期には、バッテリー電気自動車(BEV)は全自動車販売台数の8%を占めていた。今年これまでに米国で販売されたEV(ハイブリッド車を除く)は100万台に満たず、自動車大国でない欧州の半分強である(図表参照)。中国のドライバーはその4倍近くを購入している。

By エコノミスト(英国)
労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

2010年代半ばは労働者にとって最悪の時代だったという点では、ほぼ誰もが同意している。ロンドン・スクール・オブ・エコノミクスの人類学者であるデイヴィッド・グレーバーは、「ブルシット・ジョブ(どうでもいい仕事)」という言葉を作り、無目的な仕事が蔓延していると主張した。2007年から2009年にかけての世界金融危機からの回復には時間がかかり、豊かな国々で構成されるOECDクラブでは、労働人口の約7%が完全に仕事を失っていた。賃金の伸びは弱く、所得格差はとどまるところを知らない。 状況はどう変わったか。富裕国の世界では今、労働者は黄金時代を迎えている。社会が高齢化するにつれて、労働はより希少になり、より良い報酬が得られるようになっている。政府は大きな支出を行い、経済を活性化させ、賃上げ要求を後押ししている。一方、人工知能(AI)は労働者、特に熟練度の低い労働者の生産性を向上させており、これも賃金上昇につながる可能性がある。例えば、労働力が不足しているところでは、先端技術の利用は賃金を上昇させる可能性が高い。その結果、労働市場の仕組みが一変する。 その理由を理解するために、暗

By エコノミスト(英国)
中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

脳腫瘍で余命いくばくもないトゥー・チャンワンは、最後の言葉を残した。その中国の気象学者は、気候が温暖化していることに気づいていた。1961年、彼は共産党の機関紙『人民日報』で、人類の生命を維持するための条件が変化する可能性があると警告した。 しかし彼は、温暖化は太陽活動のサイクルの一部であり、いつかは逆転するだろうと考えていた。トゥーは、化石燃料の燃焼が大気中に炭素を排出し、気候変動を引き起こしているとは考えなかった。彼の論文の数ページ前の『人民日報』のその号には、ニヤリと笑う炭鉱労働者の写真が掲載されていた。中国は欧米に経済的に追いつくため、工業化を急いでいた。 今日、中国は工業大国であり、世界の製造業の4分の1以上を擁する。しかし、その進歩の代償として排出量が増加している。過去30年間、中国はどの国よりも多くの二酸化炭素を大気中に排出してきた(図表1参照)。調査会社のロディウム・グループによれば、中国は毎年世界の温室効果ガスの4分の1以上を排出している。これは、2位の米国の約2倍である(ただし、一人当たりで見ると米国の方がまだひどい)。

By エコノミスト(英国)