半導体

NVIDIAがAIチップ競技会を制圧するも挑戦者が続々台頭

AIチップのベンチマーク大会で、NVIDIAは再び大半のカテゴリを制圧したように見える。しかし、GoogleやGraphcoreのような挑戦者は限定された用途や基準で存在感を示した。

吉田拓史

01 7月 2022 — 4 min read

NVIDIA DGX SuperPOD. 出典：NVIDIA

MLCommonsが水曜日に発表した最新のMLPerf学習結果（v2.0）は、昨年12月にリリースされたv1.1とほぼ同様の結果となっている。応募社数は、12月の14社から21社に増加。全体として、今回の結果は、前回の約1.8倍の性能向上となったとされる。ベンチマークによっては、3.5年で8倍の性能向上という高い数値も出ている。

最新のラウンドでは、Azure、Baidu、Dell、富士通、GIGABYTE、Google、Graphcore、HPE、Inspur、Intel-Habana Labs、Lenovo、Nettrix、NVIDIA、Samsung、Supermicroなどが再参加。21社の参加企業は、GoogleからGraphcore、Habana、NVIDIAのいずれかの4種類のアクセラレータを使用している。

ML Commonsのこの図は、8個のプロセッサ/アクセラレータを持つシステムのピーク性能と、いくつかの主要モデルにおけるその性能を示している。そして、これを俗に言う「ムーアの法則」のIEが2年ごとに2倍になることと比較している。出典：ML Commons

NVIDIAは今回もMLPerfの8つのベンチマークすべてに提出した唯一のベンダーとなった。NVIDIAとそのパートナーは、これまでのMLPerfの結果と同様に、音声認識、自然言語処理（NLP）、推薦システム、物体検出、画像分類など、すべてのベンチマークにわたってAIトレーニングのパフォーマンスと最も多くのサブミッションをリードした。

「MLPerfの提出物の90％がNVIDIAのAIプラットフォームを使用していることに興奮している」とNVIDIAのアクセラレイティッド・コンピューティング製品管理ディレクターであるShar Narasimhanは声明で述べている。今回、NVIDIA AIプラットフォームを使用して結果を提出したパートナーは、全体の4分の3以上の合計16社に上った。

NVIDIAは、典型的なAIワークフローを処理するシステムの能力を証明するために、すべてのベンチマークを実行することの価値を強調した。Narasimhanはメディア向けブリーフィングで、Googleは大別すると4種類のベンチマークで提出し、GraphcoreとHabanaはともに2種類のベンチマークだけで提出したことを強調した。MLモデルのトレーニングにとって重要な指標のひとつが総所有コスト（TCO）であり、すべてのベンチマークに対応できることはTCOに対するパフォーマンスを引き上げることにほかならない。

また、NVIDIAは「チップあたりの性能」というものさしで自社の提出物が8つのカテゴリ中6つのカテゴリで優位だったと主張した（図表参照）。A100を使用したシステムの提出は今回で4回目となったが、これで最後になる可能性がある。

NVIDIAは、チップあたりの性能を計算するために、すべての提出物を提出者間で最も一般的なスケールに正規化した、と主張している。出典：NVIDIA

同社は、最近発表したHopper GPUを今回のラウンドに急いで投入しないことを選択した。新しいHopper Tensor Coreは、FP8とFP16精度のデータ型を混在して適用する機能を備えているため、MLPerfの次のラウンドでは、Hopper Tensor Coreが採用される可能性が高いと思われる。

これに対し、Googleは、5つのベンチマークで最速の学習時間を記録したと主張し、学習時間の速さという基準を主張している。プリンシパルエンジニアのNaveen Kumarと、MLインフラストラクチャ製品管理ディレクターのVikram Kasivajhulaは連名のブログで「私たちの2.0サブミッションは、すべてTensorFlow上で実行され、5つのベンチマークすべてにおいてトップクラスの性能を示した」と主張している。

「ハードウェアは別として、このベンチマーク結果は、TPUソフトウェアスタックを改善するための我々の取り組みによって、少なからず実現されたものだ」とKumarらは記述している。

トレーニング時間の加速によって4つのカテゴリでNVIDIAを上回りトップだったと主張するGogole。出典：Google

特にNVIDIAとGoogleのベンチマークでは、1つのベンチマークに対して数千のアクセラレータが使用されている。そのため、Googleの提出物の中には、トレーニング時間が本当に短いものがあるのがわかる。他の参加者は規模が小さかったので、かなり長い時間になっている。このような大規模化したマシンは大規模化が著しいNLPモデルのような用途において実用性がある。

NVIDIAとGoogleの依拠した基準が異なることからわかるように、MLPerfベンチマークを使った性能の判断は、まだ厄介なところがある。明らかに、システムサイズとアクセラレータの数の違いは、学習時間の大きな要因となっている。多くの場合、ソフトウェアも同様だ。

Graphcoreは、その性能向上と、ソフトウェアエコシステム（スタックの下位では必ずしも少し異なるが）が成熟しており、典型的なAIアプリケーションを動作させることができるという事実をアピールした。GraphcoreのBow Pod16は、ResNet-50においてNVIDIAの高価なフラッグシップモデルDGX-A100 640GBよりも31％速いtime-to-trainを達成した。

インテル傘下のHabana LabsはGaudi2は大幅な性能向上を果たしたと誇っている。Tensorプロセッサのコアが10から24に増え、搭載メモリ容量も32GBから96GBへと3倍に、搭載SRAMも24MBから48MBへと倍増した。Habana LabsのCOOであるEitan MedinaはMLPerfに関するブログで、「当社の第1世代のGaudiと比較して、Gaudi2はResNet-50のトレーニングスループットで3倍、BERTで4.7倍のスピードアップを達成した」と主張している。

Habanaは、ResNet-50という小さなMLモデルでかなりの差をつけて勝っているが、BERTという小さな自然言語処理モデルでは、非常に小さな差で勝っている。出典：Habana

Habanaは、ResNet-50という小さなMLモデルでかなりの差をつけて勝っているが、BERTという小さな自然言語処理モデルでは、非常に小さな差で勝っている。Habanaにはもっと大きなモデル、もっと多くの種類のモデルを期待したいところだ。

NVIDIAがAIチップ競技会を制圧するも挑戦者が続々台頭

吉田拓史

Read more

ぐるなび、バーティカルAIエージェントの新アプリ「UMAME!」β版をリリース

AIで企業の情報探索を効率化：Google Agentspaceの全貌

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

宮崎市が実践するゼロトラスト：Google Cloud 採用で災害対応を強化し、市民サービス向上へ