新しいトレーニング技術でエッジデバイス上の言語モデルを高速化

MITコンピュータサイエンス・人工知能研究所(CSAIL)とMIT-IBMワトソンAIラボの研究者はこのほど、GoogleのTransformerアーキテクチャを組み込んだAIモデルトレーニング技術であるHardware-Aware Transformers(HAT)を提案しました。

新しいトレーニング技術でエッジデバイス上の言語モデルを高速化

MITコンピュータサイエンス・人工知能研究所(CSAIL)とMIT-IBMワトソンAIラボの研究者はこのほど、GoogleのTransformerアーキテクチャを組み込んだAIモデルトレーニング技術であるHardware-Aware Transformers(HAT)を提案しました。彼らは、HATはRaspberry Pi 4のようなデバイス上で、ベースラインと比較してモデルサイズを3.7倍に縮小しながら、推論速度を3倍に向上させることができると主張しています。

GoogleのTransformerは、その最先端の性能により、自然言語処理(そして一部のコンピュータビジョン)のタスクに広く使用されています。それにもかかわらず、Transformerはその計算コストのためにエッジデバイスへの展開が困難なままです。Raspberry Piでは、たった30語の文を翻訳するには13ギガフロップス(1秒間に10億回の浮動小数点演算)が必要で、20秒かかります。これでは、言語AIをモバイルアプリやサービスに統合する開発者や企業にとって、アーキテクチャの有用性が明らかに制限されてしまいます。

研究者のソリューションは、AIモデル設計を自動化するための手法であるニューラル・アーキテクチャ・サーチ(NAS)を採用しています。HATは、多数のサブトランスフォーマーを含むトランスフォーマー「スーパーネット」(SuperTransformer)を最初に訓練することで、エッジデバイスに最適化されたトランスフォーマーの探索を実行します。次に、これらのサブトランスは同時に訓練され、1つのトランスの性能が、ゼロから訓練された異なるアーキテクチャの相対的な性能の近似値を提供するようになります。最後のステップでは、HATは、ハードウェアのレイテンシ制約を与えられた場合に、最適なサブトランスフォーマを見つけるための進化的探索を行います。

HATの効率をテストするために、16万から4,300万組の訓練文からなる4つの機械翻訳タスクで実験を行った。各モデルについて、待ち時間を300回測定し、最も速いものと遅いものの10%を除去した後、残りの80%の平均を取り、Raspberry Pi 4、Intel Xeon E2-2640、Nvidia Titan XPグラフィックスカードで実行しました。

研究チームによると、HATによって特定されたモデルは、従来から訓練されたTransformerよりもすべてのハードウェアで低いレイテンシを達成しただけでなく、1台のNvidia V100グラフィックスカードで184時間から200時間の訓練を行った後、一般的なBLEU言語ベンチマークで高いスコアを獲得しました。Googleが最近提案したEvolved Transformerと比較すると、モデルは3.6倍も小さく、計算コストは12,041倍も低く、パフォーマンスの低下はありませんでした。

左)HATのアーキテクチャの簡略図. 右)Googleが最近提案したEvolved Transformerと比較すると、計算コストは12,041倍も低かった. Source: https://github.com/mit-han-lab/hardware-aware-transformers

「リソースに制約のあるハードウェアプラットフォーム上で低レイテンシ推論を可能にするために、我々はニューラルアーキテクチャ探索を用いてHATを設計することを提案します」と共著者は書いています。HATはGitHub上でオープンソースとして公開されています。「我々は、HATが実世界のアプリケーションのための効率的なTransformer導入の道を開くことを期待しています」

参考文献

  1. David R.So et al. The Evolved Transformer. arXiv:1901.11117.
  2. Hanurui Wang et al. HAT: Hardware-Aware Transformers for Efficient Natural Language Processing. arXiv:2005.14187. [Submitted on 28 May 2020]

Photo by Harrison Broadbent on Unsplash

Read more

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者(CPO)は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

By 吉田拓史
宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラスト セキュリティ 実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

By 吉田拓史
​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

Google Cloudが9月25日に開催した記者説明会では、イオンリテール株式会社がCloud Runを活用し顧客生涯価値(LTV)向上を目指したデータ分析基盤を内製化した事例を紹介。従業員1,000人以上がデータ分析を行う体制を目指し、BIツールによる販促効果分析、生成AIによる会話分析、リテールメディア活用などの取り組みを進めている。

By 吉田拓史
Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Google Cloudは、年次イベント「Google Cloud Next Tokyo '24」で、大規模言語モデル「Gemini」を活用したAIエージェントの取り組みを多数発表した。Geminiは、コーディング支援、データ分析、アプリケーション開発など、様々な分野で活用され、業務効率化や新たな価値創出に貢献することが期待されている。

By 吉田拓史