NVIDIAがAIチップ競技会を制圧するも挑戦者が続々台頭

AIチップのベンチマーク大会で、NVIDIAは再び大半のカテゴリを制圧したように見える。しかし、GoogleやGraphcoreのような挑戦者は限定された用途や基準で存在感を示した。

MLCommonsが水曜日に発表した最新のMLPerf学習結果（v2.0）は、昨年12月にリリースされたv1.1とほぼ同様の結果となっている。応募社数は、12月の14社から21社に増加。全体として、今回の結果は、前回の約1.8倍の性能向上となったとされる。ベンチマークによっては、3.5年で8倍の性能向上という高い数値も出ている。

最新のラウンドでは、Azure、Baidu、Dell、富士通、GIGABYTE、Google、Graphcore、HPE、Inspur、Intel-Habana Labs、Lenovo、Nettrix、NVIDIA、Samsung、Supermicroなどが再参加。21社の参加企業は、GoogleからGraphcore、Habana、NVIDIAのいずれかの4種類のアクセラレータを使用している。

ML Commonsのこの図は、8個のプロセッサ/アクセラレータを持つシステムのピーク性能と、いくつかの主要モデルにおけるその性能を示している。そして、これを俗に言う「ムーアの法則」のIEが2年ごとに2倍になることと比較している。出典：ML Commons

NVIDIAは今回もMLPerfの8つのベンチマークすべてに提出した唯一のベンダーとなった。NVIDIAとそのパートナーは、これまでのMLPerfの結果と同様に、音声認識、自然言語処理（NLP）、推薦システム、物体検出、画像分類など、すべてのベンチマークにわたってAIトレーニングのパフォーマンスと最も多くのサブミッションをリードした。

「MLPerfの提出物の90％がNVIDIAのAIプラットフォームを使用していることに興奮している」とNVIDIAのアクセラレイティッド・コンピューティング製品管理ディレクターであるShar Narasimhanは声明で述べている。今回、NVIDIA AIプラットフォームを使用して結果を提出したパートナーは、全体の4分の3以上の合計16社に上った。

NVIDIAは、典型的なAIワークフローを処理するシステムの能力を証明するために、すべてのベンチマークを実行することの価値を強調した。Narasimhanはメディア向けブリーフィングで、Googleは大別すると4種類のベンチマークで提出し、GraphcoreとHabanaはともに2種類のベンチマークだけで提出したことを強調した。MLモデルのトレーニングにとって重要な指標のひとつが総所有コスト（TCO）であり、すべてのベンチマークに対応できることはTCOに対するパフォーマンスを引き上げることにほかならない。

また、NVIDIAは「チップあたりの性能」というものさしで自社の提出物が8つのカテゴリ中6つのカテゴリで優位だったと主張した（図表参照）。A100を使用したシステムの提出は今回で4回目となったが、これで最後になる可能性がある。

NVIDIAは、チップあたりの性能を計算するために、すべての提出物を提出者間で最も一般的なスケールに正規化した、と主張している。出典：NVIDIA

同社は、最近発表したHopper GPUを今回のラウンドに急いで投入しないことを選択した。新しいHopper Tensor Coreは、FP8とFP16精度のデータ型を混在して適用する機能を備えているため、MLPerfの次のラウンドでは、Hopper Tensor Coreが採用される可能性が高いと思われる。

これに対し、Googleは、5つのベンチマークで最速の学習時間を記録したと主張し、学習時間の速さという基準を主張している。プリンシパルエンジニアのNaveen Kumarと、MLインフラストラクチャ製品管理ディレクターのVikram Kasivajhulaは連名のブログで「私たちの2.0サブミッションは、すべてTensorFlow上で実行され、5つのベンチマークすべてにおいてトップクラスの性能を示した」と主張している。

「ハードウェアは別として、このベンチマーク結果は、TPUソフトウェアスタックを改善するための我々の取り組みによって、少なからず実現されたものだ」とKumarらは記述している。

トレーニング時間の加速によって4つのカテゴリでNVIDIAを上回りトップだったと主張するGogole。出典：Google

特にNVIDIAとGoogleのベンチマークでは、1つのベンチマークに対して数千のアクセラレータが使用されている。そのため、Googleの提出物の中には、トレーニング時間が本当に短いものがあるのがわかる。他の参加者は規模が小さかったので、かなり長い時間になっている。このような大規模化したマシンは大規模化が著しいNLPモデルのような用途において実用性がある。

NVIDIAとGoogleの依拠した基準が異なることからわかるように、MLPerfベンチマークを使った性能の判断は、まだ厄介なところがある。明らかに、システムサイズとアクセラレータの数の違いは、学習時間の大きな要因となっている。多くの場合、ソフトウェアも同様だ。

Graphcoreは、その性能向上と、ソフトウェアエコシステム（スタックの下位では必ずしも少し異なるが）が成熟しており、典型的なAIアプリケーションを動作させることができるという事実をアピールした。GraphcoreのBow Pod16は、ResNet-50においてNVIDIAの高価なフラッグシップモデルDGX-A100 640GBよりも31％速いtime-to-trainを達成した。

NVIDIAのAIコンピュータ支配の一角を崩す謎の半導体メーカー

コスト効率と柔軟性で軍拡競争の脇を狙う

アクシオン｜経済メディア吉田拓史

Graphcore AIチップ業界の彗星

Graphcore（グラフコア）は2016年に創業されたAIチップのIntelligence Processing Unit （IPU）を開発する英国のセミコンダクター企業。GrpahcoreはAIチップを設計する新興企業の中でも最も速い勢いで資金調達を行っている。2020年6月時点の企業価値は約19.5億ドル。

アクシオン｜経済メディア吉田拓史

インテル傘下のHabana LabsはGaudi2は大幅な性能向上を果たしたと誇っている。Tensorプロセッサのコアが10から24に増え、搭載メモリ容量も32GBから96GBへと3倍に、搭載SRAMも24MBから48MBへと倍増した。Habana LabsのCOOであるEitan MedinaはMLPerfに関するブログで、「当社の第1世代のGaudiと比較して、Gaudi2はResNet-50のトレーニングスループットで3倍、BERTで4.7倍のスピードアップを達成した」と主張している。

Habanaは、ResNet-50という小さなMLモデルでかなりの差をつけて勝っているが、BERTという小さな自然言語処理モデルでは、非常に小さな差で勝っている。出典：Habana

Habanaは、ResNet-50という小さなMLモデルでかなりの差をつけて勝っているが、BERTという小さな自然言語処理モデルでは、非常に小さな差で勝っている。Habanaにはもっと大きなモデル、もっと多くの種類のモデルを期待したいところだ。