Microsoft Azure、「AIスーパーコンピューティング」向けのA100 GPUインスタンスをクラウドに追加

Microsoft Azureは、そのクラウドプラットフォームにHPCやAIを指向した技術を注入し続けている。先週19日、クラウドサービスを提供するMicrosoft Azureは、Nvidia A100 Ampere GPU、AMD Eypc Rome CPU、1.6 Tbps HDR InfiniBand、PCIe 4.0接続を搭載した「スーパーコンピュータクラスのAI」を目指した新しい仮想マシン・ファミリーを発表した。NDv4 VMインスタンスは、1,000億以上のパラメータとエクサオプスの計算まで拡張可能であると、AzureのHPC & Big Computeのプリンシパル・プログラム・マネージャーであるEvan Burnessは述べている。

「Azureのイノベーションの継続の中で、最もパワフルで大規模なスケーリングが可能なAI VMである新しいND A100 v4 VMシリーズを発表できることに興奮しています」と、Azureの加速HPCインフラストラクチャ担当シニアプログラムマネージャーのIan Finderは述べている。

これらのインスタンスをAzureクラウドサービスに構築する前に、Microsoftは最初に類似の要素からOpenAI用のAIスーパーコンピュータを設計し、配備した。Nvidia GPUとAMD Eypc Romeチップである。285,000以上のCPUコア、10,000以上のGPU、クラスタ内の各GPUサーバーの400ギガビット/秒のネットワーク接続性を備えたこのシステムは、Top500リストの上位5位以内に入るとMicrosoftは主張していた。

このスーパーコンピューターによって、研究者はOpenAI1,750億パラメータGPT-3モデルを確立することができた。このモデルは、詩の作曲や言語翻訳など、明示的に訓練されていないタスクをサポートすることができ、人工知能をその基礎となる目的に向かって前進させることができる。カルフォルニア大学バークリー校の学部生がGPT-3で生成したブログは、エンジニアが利用するニュースサイト「ハッカーニュース」で1位になった。

GPT-3生成のブログ、ハッカーニュースで1位に
カルフォルニア大学バークリー校の大学生のLiam Porrが言語生成AIツール「GPT-3」を使って偽のブログ記事を作成したところ、ハッカーニュースで1位になった。Porrは、GPT-3によって生成されたコンテンツが人間によって書かれたものだと信じ込ませることができることを実証した。

新しいインスタンスは、AIやディープラーニングのワークロードのニーズに合わせて設計されたAzureのNDsシリーズVMの一部。

NDv4 VMは、NDv2シリーズの仮想マシンに続くもので、Nvidia HGXシステムの上に構築され、8つのNvidia V100 GPU(各32GBのメモリを搭載)、40個のノンハイスレッドIntel Xeon Platinum 8168プロセッサコア、672GiBのシステムメモリを搭載している。現在プレビュー中の「Azure NDv3」シリーズは、少量のバッチサイズでもニューラルネットワークのハイスループット処理を可能にする新アーキテクチャ「Graphcore IPU」を搭載している。

ND A100 v4 VMシリーズは、GTC(NvidiaのGPU Technology Conference)での投入発表からわずか4ヶ月後にAmpereのA100 GPUをAzureクラウドに導入し、AIやHPCクラスの技術がクラウドに流れ込む採用サイクルが加速していることを示している。Google CloudはA100 GPUをベースにしたA2ファミリーを導入したが、Ampereが登場してから2カ月も経たないうちに、A2ファミリーを導入した。クラウド大手のAWSは、A100 GPUを提供すると述べている。

「ND A100 v4 VMシリーズは、すべての主要なシステムコンポーネントにPCIe Gen4のような最新のハードウェア標準を内蔵した、まったく新しいAzure設計のAMDローム搭載プラットフォームに支えられている。PCIe Gen4とNVIDIAの第3世代NVLinkアーキテクチャは、各VM内で最速のGPU間相互接続を実現し、データの移動を従来の2倍以上に高速化しています」とFinderはブログ記事で述べている。

「ND A100 v4 VMシリーズは、単一の仮想マシン(VM)と8つのNVIDIA Ampere A100 Tensor Core GPUから始まりますが、人間の脳が相互接続されたニューロンで構成されているように、ND A100 v4ベースのクラスタは、VMあたり1.6 Tb/sという前例のない相互接続帯域幅で、何千ものGPUまで拡張することができる。各GPUには、トポロジーにとらわれない専用の200Gb/秒のNVIDIA Mellanox HDR InfiniBand接続が提供される。数十、数百、数千のGPUをMellanox InfiniBand HDRクラスタの一部として連携させ、あらゆるレベルのAIの野望を達成することができる。あらゆるAIの目標(ゼロからモデルをトレーニングしたり、独自のデータを使ってトレーニングを継続したり、希望するタスクに合わせて微調整したりを、他のパブリッククラウドのどのサービスよりも16倍高い専用GPU対GPU帯域幅を使って、はるかに高速に達成することができる」。

彼は、ほとんどの顧客が「エンジニアリング作業なしでNvidia V100 GPUをベースにした前世代のシステムと比較して、すぐに2倍から3倍の計算性能の向上が期待できる」と付け加えているが、マルチプレシジョン、スパースアクセラレーション、マルチインスタンスGPU(MIG)などのA100の機能を活用することで、顧客は最大20倍の性能向上が期待できる。

パートナーのNvidiaは、「AzureのA100インスタンスは、クラウドで信じられないほどの規模のAIを可能にします。あらゆる規模のAIワークロードに電力を供給するために、同社の新しいND A100 v4 VMシリーズは、1つのA100の単一パーティションから、Nvidia Mellanoxインターコネクトでネットワーク接続された数千台のA100のインスタンスにまでスケールすることができる」と述べている。

「ND A100 v4 VMシリーズは、VMスケールセットのようなAzureコアのスケーラビリティブロックを活用して、透過的に任意のサイズのクラスタを自動的かつ動的に構成する。これにより、誰でも、どこでも、あらゆる規模でAIを実現し、AIスーパーコンピュータでさえも数分でオンデマンドでインスタンス化できるようになる。その後、VMに独立してアクセスしたり、Azure Machine Learningサービスを使用してクラスタ全体のトレーニングジョブを起動して管理したりすることができる」。