金満Metaですら逡巡する「AIデータセンター」の莫大なコスト

「AIデータセンター」の需要が急成長している。しかし、AI化と運用に要するコストは極めて高く、流行りの大規模言語モデル（LLM）は、膨大な炭素排出を伴う。重厚長大型の軍拡競争には限界があるのかもしれない。

吉田拓史

16 6月 2023 — 3 min read

生成AIのゴールドラッシュは、「スコップ」を売るNVIDIAのセンセーションを引き起こし、CEOであるジェンスン・フアンを時代の寵児に変貌させた。ゴールドラッシュの恩恵を受けそうなのはNVIDIAだけではない。データセンター業界もその1つだ。

データセンター大手のJLLが4月に発表した報告書は、ChatGPTやBardのような生成AIアプリケーションの成長がデータセンターの需要を加速させ、液体冷却を用いた高密度な施設の推進に役立つと述べている。

JLLのアジア太平洋地域データセンター担当マネージング・ディレクター、クリス・ストリートは、5月、TechWireAsiaに対するインタビューで、AI応用を支えるシステムが要求する電力密度の増加が見られ、計算能力の増大は特に旧式の施設にとって挑戦をもたらす、と語った。このため多くの組織がクラウドサービスへの移行を余儀なくされている。

ストリートによると、再利用できる施設もあれば、アップグレードにかなりの労力が必要で、それに見合わない施設もあるという。再利用可能な施設では、液浸や液冷などの最新冷却技術を導入して、電力の高密度化の問題に対処することも可能だそうだ。

ストリートによると、必要とされるAIの要件が一定のレベルを超えた場合、運用コストを下げるため、AIシステムの十分な規模を確保するべきだが、莫大な初期投資はプレッシャーになりうるという。しかし、要件が小さい企業には、高負荷のAI応用を処理するためにプライベートおよびパブリッククラウドインフラを使用するなど、いくつかのオプションがあるという。

データセンターのAI化の可能性と制約には、NVIDIAのAIチップ独占が深く関与している。半導体業界コンサルティング会社SemiAnalysisの分析によると、（株価急騰の原因となった）NVIDIAのデータセンター部門の売上の急成長は、GPU 以外のサーバーの購入が減ったことが直接の要因と考えられる。AIへの投資シフトにより、従来のCPUの売上が弱くなり、IntelからNVIDIAに予算が流れているということだ。NVIDIAは最新のAI応用に必要不可欠となっているDGX H100を約27万ドルで販売している（1台あたりの粗利益はほぼ19万ドルで6割超とSemiAnalysisは推定している。儲かるはずだ）。

基本的には、AI開発に必要な膨大なリソースとコンピューティングパワーを考えると、この分野での大型投資が正当化される企業は限られる。いわゆる大手テクノロジー企業である。

GPUが要する莫大な電力に警鐘を鳴らす人もいる。半導体専門誌Semiconductor Engineeringによると、昨年のDesign Automation Conferenceで、AMD CTOのMark Papermasterは、AIシステムによるエネルギー使用の増大は、2050年までに世界のすべてのエネルギーを消費する勢いだと警告した。Googleとカリフォルニア大学バークレー校の研究者の論文は、GPT-3のトレーニングによって、サンフランシスコとニューヨークを往復する旅客機1機分の約3倍にあたる二酸化炭素排出が発生すると推定している。研究チームには、消費電力の少ない命令セットアーキテクチャ（ISA）のRISCの発明者であるデービッド・パターソンも含まれる。

パターソンが参加するチームは、別の研究で、2021年に18.3テラワット時だった同社の総電力消費量の10～15％を人工知能が占めていることを発見した。これは、アトランタと同規模の都市の全家庭の年間消費電力量に匹敵する、と論文は断定している。

Microsoftのグループと提携して大規模なAIモデルのカーボンフットプリントを測定したエルサレム・ヘブライ大学のロイ・シュワルツ教授は、「明らかにこれらの企業は、自分たちが使っているモデルがどれだけの炭素を排出しているかを公開したがりません」と述べている。

AIデータセンターの投資判断は相当難しい

しかし、Metaのような大型プレイヤーでもAIデータセンターへの設備投資をめぐって、失敗があったようだ。2022年に予定されていたMeta独自のカスタム推論チップの大規模展開を中止した後、経営陣は方針を転換し、同年、数十億ドル相当のNVIDIA GPUを発注したとロイターのKrystal Huが報じた。データセンター4件の計画を大きく変更することになった問題の一端は、MetaがGPUの導入の決断が遅れ、それに付随する設備投資にも遅延が生じたことにあるようだ。同社は元々、AIアプリケーションに対して安価なCPUを採用していたという。

GPUは、AI処理に適しているものの、より多い電力消費と発熱を伴う。また、大量のGPU群で構成されるシステムをネットワーク化するために、より近くに配置する必要があり、より効果的な冷却方法が要求されることになった。Metaの新しい施設では通常のデータセンターと比べて数十倍にも及ぶネットワークへの投資と最新の液体冷却システムが必要だったという。

米メディアThe Informationは、Microsoftのシリコンエンジニアリング担当コーポレートバイスプレジデントであるJean BoufarhatがMetaに参加することになると記している。彼は、「Facebook Agile Silicon Team（FAST）」と呼ばれる半導体チームを運営し、苦戦している同社のチップの取り組みを再活性化させる予定だ。