半導体

NVIDIAのAI支配の一角を崩す謎の半導体メーカー

コスト効率と柔軟性で軍拡競争の脇を狙う

吉田拓史

07 9月 2021 — 6 min read

Image by Grahcore

要点

AIチップにおけるNvidiaの優位性は揺るがないものの、コスト効率と柔軟性で一角を崩しそうなプレイヤーが輝きを見せている。英国の新興企業Graphcoreだ。

6月に公開されたAIアクセラレータのベンチマーク競技会MLPerfでは、例年通り、NvidiaとGoogleがそれぞれDGX A100システムとTPU4を発表し、上位を独占した。

二社の他に特筆すべきは、Intelが第3世代のXeonを搭載したシステムやHabana LabsのGaudiチップを搭載したシステムで幅広く参加したこと、Graphcoreが同社のIPUチップを搭載したシステムで参加したことだ。

エントリーされたシステムの大部分は、依然としてNvidiaの各種GPUを使用していた。「DGX SuperPodを搭載したNvidiaのスーパーコンピュータ『Selene』は、8つのパフォーマンス記録をすべて更新。8つのテストのうち、4つのテストを1分以内に完了し、最も複雑なテストであるMiniGoベンチマークでは16分以内に完了した」とNvidiaはメディアやアナリストへの事前説明会で勝利を主張していた。

それでも、英国ブリストルを拠点とする新興企業Graphcoreは性能面での明確なリーダーの脇で静かに存在感を放ったことは注目に値する。

5年前に設立され、7億1,000万ドルの資金を調達したGraphcoreは、MLPerfのどのテストでもトップスコアを獲得することはできなかったが、「使用したチップの数」で他の2社と比較した場合、重要な結果を示した。

MLPerfは、業界コンソーシアムであるMLCommonsが作成したもので、機械学習の2つの部分、すなわち、複数の実験で設定を改良してニューラルネットワークを構築する「トレーニング」と、完成したニューラルネットワークが新しいデータを受け取って予測を行う「推論」のためのコンピュータのベンチマーク評価を、年に複数回行っている。

今回のMLPerfのトレーニングカテゴリでは、GraphcoreのPOD16システムはDGX A100の半分のコストで、ポイントを押さえたパフォーマンスを提供している。つまり、2つのモデルのうち、最近の現実世界で直接の相関関係があるのは1つのモデル（自然言語処理に特化したモデル）だけだ。

Graphcoreは既存ユーザーの社内ハードウェアでの作業を受けながら最適化に数ヶ月を要したが、ようやくコンピュータビジョン用のResNet-50と自然言語処理用のBERTという2つのモデルで、オープンセットとクローズドセットの両方で結果を出した。

BERT自然言語モデルを学習させるために、Googleの「TPU」チップは、プログラムを習熟させるのにわずか17秒しかかからなかった。Nvidiaのトップマシンは19秒だった。Graphcoreは12分と、かなり劣っている。ただし、Graphcoreのシステムは、AMD EPYCプロセッサ2個とグラフコアのIPUチップ64個だけで構成されている。

Googleの2つのマシンは、1つは同社のTPU3,456個とAMDのEPYCプロセッサ1,728個、もう1つはTPU2,048個とEPYC1,024個で構成されていた。

Nvidiaは同社の最新GPUであるA100を4,096個とEPYCを1,024個使用し、別のシステムではA100を1,024個とEPYCを256個使用した。

これに対しGraphcoreのBERTスコアは、AMDの2プロセッサシステムでの最速タイム（12分）であり、次点のNvidiaベースのシステムは、NvidiaのA100チップを8個しか使用しているもかかわらず、21分もの時間を要した。

IPUチップの数だけでなく、AMDのホストプロセッサの数も少なくて済んでいるため、Graphcoreは、IPUチップがホストマイクロプロセッサーの数に依存せずに拡張可能であり、必要なところに馬力を投入できることを強調している。Graphcore IPU-PODの特徴は、サーバーとAIアクセラレーターを分離し、ワークロードの要求に応じてCPUとIPUの数を様々な比率で設定できることだ。

BERTベンチマークの別バージョンである「オープン」サブミッションでは、提出者がソフトウェアコードに手を加えて、ニューラルネットワークの標準的でない実装を行うことが認められているが、GraphcoreはBERTでの学習時間を9分強に短縮した。投稿に使用したすべてのソフトウェアはMLPerfのリポジトリで公開されており、誰でも結果を再現できるようになっている。

Graphcoreはコストパフォーマンスを切り口にNvidiaのDGX A100が占拠する市場の一角を崩そうとしている。

NvidiaはA100のシステム価格を公表していないが、市場情報や販売店からの情報によると、30万ドル前後だと思われる。GraphcoreのPOD16は14万9,000ドルと半額だ。

自然言語処理の分野では、機械学習モデルが内包するパラメータ数が指数関数的に増加し、ますますヘビーな計算資源を必要とするようになっている。このなかで各社は大量のチップを組み合わせた巨艦主義的な機械学習アクセラレータを作るようになっている。

この市場のトレンドの中で、Graphcoreがコスト効率と柔軟性で市場の一角を崩すことができるかもしれない。

ただし、NvidiaはGraphcoreが主張している「小さな勝利」をも踏み潰したいようだ。データセンター・コンピューティング製品管理担当シニア・ディレクターのParesh Kharya（パレッシュ・カリヤ）はMLperfの説明会でこのように主張している。

「重要なのは、性能はチップの数に応じて完全にスケールアップするわけではないということだ。例えばBERTでは、Habanaが8チップで提出したので、当社の8チップの提出物と比較した。Graphcoreは64チップで提出したので、当社の64チップの提出物とGraphcoreの提出物を比較した。1チップあたりの性能でも、Nvidia A-100は市販製品部門の8つの性能記録をすべて更新した。A-100はGraphcoreの最大3倍、Habanaの最大8倍の性能を発揮した。8つのうち3つの演習では、プレビュー中のGoogle TPUが、チップあたりの正規化された性能の点でA-100をわずかに上回っていた（に過ぎない）」。

📨ニュースレター登録

平日朝 6 時発行のAxion Newsletterは、テックジャーナリストの吉田拓史（@taxiyoshida）が、最新のトレンドを調べて解説するニュースレター。同様の趣旨のポッドキャストもあります。

株式会社アクシオンテクノロジーズへの出資

一口50万円の秋のラウンドに向けて事前登録を募っております。事前登録者には優先的に投資ラウンドの案内を差し上げます。登録は以下のからメールアドレスだけの記入で済みます。登録には義務は一切ともないません。すでに100人超に登録を頂いています。

クリエイターをサポート

運営者の吉田は2年間無給、現在も月8万円の役員報酬のみでAxionを運営しています。

投げ銭
ウェブサイトの「寄付サブスク」ボタンからMonthly 10ドルかYearly 100ドルを支援できます。大口支援の場合はこちらから。
毎月700円〜の支援👇

Special thanks to supporters !

Shogo Otani, 林祐輔, 鈴木卓也, Kinoco, Masatoshi Yokota, Tomochika Hara, 秋元善次, Satoshi Takeda, Ken Manabe, Yasuhiro Hatabe, 4383, lostworld, ogawaa1218, txpyr12, shimon8470, tokyo_h, kkawakami, nakamatchy, wslash, TS, ikebukurou 黒田太郎, bantou, shota0404, Sarah_investing, Sotaro Kimura, TAMAKI Yoshihito, kanikanaa, La2019, magnettyy, kttshnd, satoshihirose, Tale of orca, TAKEKATA, Yuki Fujishima.

NVIDIAのAI支配の一角を崩す謎の半導体メーカー

吉田拓史