NLP

BLOOM：数百人の研究者の共同作業により開発されたオープンな大規模言語モデル

完全な透明性をもって訓練された初の多言語LLMがBLOOM（BigScience Large Open-science Open-access Multilingual Language Modelの略）である。BLOOMは、46の自然言語と13のプログラミング言語で学習した1760億パラメータの言語モデルで、数百人の研究者の共同作業により開発・公開された。

吉田拓史

23 12月 2022 — 2 min read

出典：BigScience

大規模言語モデル（LLM）は、AI研究に大きなインパクトを与えている。事前学習された言語モデルは、より少ない量のラベル付きデータからより良いパフォーマンスを生み出すことが多いため、現代の自然言語処理（NLP）パイプラインの基礎になっている。

言語モデルの性能は、モデルを大きくするにつれて増加する傾向があり、LLMの学習コストは、十分にリソースのある組織にとってのみ許容可能なものとなった。さらに、最近まで、ほとんどのLLMは一般に公開されていなかった。その結果、研究者コミュニティの大半はLLMの開発から排除されてきた。

この現状を変えるために、完全な透明性をもって訓練された初の多言語LLMがBLOOM（BigScience Large Open-science Open-access Multilingual Language Modelの略）である。BLOOMは、46の自然言語と13のプログラミング言語で学習した1760億パラメータの言語モデルで、数百人の研究者の共同作業により開発・公開された。

BLOOMは、AIスタートアップのHugging Faceがフランス政府からの資金援助を受けてコーディネートしたBigScienceというプロジェクトにおいて、1000人以上のボランティア研究者が昨年1年間かけて作り上げたものである。 BigScienceは2021年5月に始まり、1000人以上の研究者が大規模で多言語のディープラーニングモデルを構築するために協力した。

オープンソースのAIスタートアップであるHugging Faceによって組織された30のワーキンググループは、2021年半ばから2022年半ばにかけて、データガバナンス、入力データとソースの選択、モデリング、モデルの評価、モデルの最適化とスケーリングを含むエンジニアリング、一般化、倫理的AIと法的枠組み、ROOTSオープン多言語データセットとRAILオープンAIライセンスの導入といった大規模言語モデル（LLM）構築におけるすべての異なるステップを扱う作業を設定することになりました。

この共同研究には、Institute for Development and Resources in Intensive Scientific Computing (IDRIS) と Grand Equipement National De Calcul Intensif (GENCI)が参加した。これらの機関は、ワークショップにJean Zayスーパーコンピュータの利用を可能にした。このチームは、最大150 TFLOPSの学習スループットを達成した。最終的なBLOOMモデルのトレーニングには117日間を要した。

今年の7月12日に正式にローンチした。研究者たちは、他の主要モデルと同等の性能を持つオープンアクセスLLMの開発が、AI開発の文化に長期的な変化をもたらし、世界中の研究者が最先端のAI技術へのアクセスを民主化するのに役立つことを期待している。

㊧全46自然言語の言語族をツリーマップで表したもの。表面はバイト数に比例する。インド・ヨーロッパ語族と中国・チベット語族を合わせると1321.89GBとなり、圧倒的に多い。オレンジ色の薄い面は18GBのインドネシア語データ、緑の長方形は0.4GBのニジェール・コンゴ語ファミリーサブセットを表している。㊨13のプログラミング言語のファイル数分布をワッフル表示したもので、1つの正方形が約30,000ファイルを表している。出典：Bigscience(2022)

ぐるなび、バーティカルAIエージェントの新アプリ「UMAME!」β版をリリース

飲食店情報サービス大手のぐるなび（本社・東京）は1月20日、次世代飲食ビジネスの基盤構築をめざす「ぐるなびNextプロジェクト」の初成果として、新たな飲食店探索アプリ「UMAME!（うまみー！）」のβ版を公開した。

AIで企業の情報探索を効率化：Google Agentspaceの全貌

近年、AI技術の進化は目覚ましく、ビジネスの現場でも様々な形で活用が進んでいる。そのような中、Google Cloudが新たに発表したGoogle Agentspaceは、いま注目を集めるAIエージェントがエンタープライズITを大きく変革する予兆と言えるだろう。

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者（CPO）は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

宮崎市が実践するゼロトラスト：Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラストセキュリティ実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

Read more

ぐるなび、バーティカルAIエージェントの新アプリ「UMAME!」β版をリリース

AIで企業の情報探索を効率化：Google Agentspaceの全貌

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

宮崎市が実践するゼロトラスト：Google Cloud 採用で災害対応を強化し、市民サービス向上へ