深層学習向けのドメイン固有アーキテクチャ（DSA）であるTPUが生まれた経緯

ムーアの法則の終わりは、ドメイン固有アーキテクチャ（Domain Specific Architecture: DSA）をコンピューティングの次のフロンティアとした。2015年に最初に展開されたGoogleのTPU（Tensor Processing Unit）は最新のCPUおよびGPUよりも30から80倍優れたエネルギー効率で、ディープニューラルネットワーク（DNN）を15から30倍高速で実行するという。

Googleは2006年にはじめてデータセンターにGPU、FPGA（Field Programmable Gate Array ）、ASICs（特定用途向け集積回路）を導入することを検討したという。機械学習を利用したアプリケーションは、Googleの大規模データセンターの余剰能力を使用し、「論理的に構築された特化アーキテクチャ」で補うことができた。しかし、2013年に音声認識の利用が拡大する見通しがたち、その計算需要に従来のCPUを利用すると費用が非常に高くなることがわかり、Googleは方針を転換した。

Googleは推論用のカスタムチップを迅速に生産するための優先度の高いプロジェクトを開始した。目標はコストパフォーマンスを10倍改善することでした。この要件を与えられたTPUは、わずか15か月でGoogleデータセンターで設計、検証、構築、展開された。

展開を遅らせるリスクを軽減するために、Googleのエンジニアは、TPUをCPUと緊密に統合するのではなく、入出力バス上のコプロセッサ（中央処理装置の演算処理を補助する目的で搭載される処理装置）として設計し、GPUのように既存のサーバーにプラグインできるようにした。

GoogleはデータセンターにおけるGPUの消費電力がネックだったと指摘している。データセンターのハードウェア投資の基準は、総所有コスト(TCO: Total Cost of Ownership)におけるはずだ。機械などを保有する際にその購入費用だけでなく、使い続ける費用なども含んだ総コストを指す。巨大なデータセンターにおいてプロセッサの電力効率がきわめて重要だとJohn Henesseyが指摘している。論文では、TCOはビジネス上の理由で開示できないが、TCOと相関する電力コストを開示できるとしている。

TPU v1(2015年)は推論のみの対応だったが、TPU v2(2017年)は推論とトレーニングにも対応した。Googleは今年の5月に発表したTPU v3で構成したポッドは前世代のポッドより8倍早いと主張している。TPU v3は初めて水冷を採用している。冷却液で冷やすことは熱容量が圧倒的に大きく、空冷よりおおむね冷却性能が高い。

参考文献

Communications of the ACM, "A Domain-Specific Architecture for Deep Neural Networks", By Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson

Image: TPU v2 via Google