MS、GPU10万台以上を載せた惑星規模のAIインフラを運用

マイクロソフトは先月、「Singularity」(シンギュラリティ)と名付けたAIワークロードのための惑星規模の分散スケジューリングサービスを運用していることを明らかにした。

MS、GPU10万台以上を載せた惑星規模のAIインフラを運用
"Microsoft Logo" by ajay_suresh is marked with CC BY 2.0.

マイクロソフトは先月、「Singularity」(シンギュラリティ)と名付けたAIワークロードのための惑星規模の分散スケジューリングサービスを運用していることを明らかにした。

26人のマイクロソフト社員が共著したプレプリント(査読前論文)に記述されているSingularityの目的は、深層学習のトレーニングにかかる計算コストへの対応であり、そのコストはワークロードのサイズ、複雑さ、数の増加に伴って急速に膨れ上がっている。また、ハイパフォーマンス・コンピューティングとそのシステム上でのAIモデル・トレーニングのコストと環境フットプリントをいかにして最小化するかという議論の焦点となっているアイドル時間を最大限に活用する試みでもある

Singularityは、arXivで公開されたプレプリント論文では、「惑星規模のアクセラレータの与えられた固定容量のプールで、複数の価格階層に対して厳しいサービスレベル契約を提供しつつ、総計の有用スループットを最大化することによってAIのコストを下げる」と、ひとつの主要目標に向かって作られていると説明されている。

研究者によると、Singularityはこのアクセラレータのフリート全体を「単一のローカルな共有クラスタとして扱い、リソースの断片化や静的な容量予約を回避する」とのことだ。Singularityは、リソースの増減に合わせてジョブを弾力的にスケーリングし、必要に応じて、ノード、クラスタ、リージョン間でジョブのチェックポイント、先取り、移行を行うことでこれを管理する。このスケジューラは、クラスタ、地域、ワークロードの境界を超えると同時に、プリエンプトされたところからジョブを再開することで障害に対する回復力を確保するという。

アクシオン有料購読、初月無料キャンペーン

毎月70本追加される一流海外メディアとオリジナル記事にアクセス

1ヶ月無料で購読する

この論文では、Singularity自体よりもスケジューラーに多くの時間を費やしているが、システムのアーキテクチャを示すいくつかの図を提示している。Singularityの性能分析では、Xeon Platinum 8168を使用したNvidia DGX-2サーバーでのテスト実行に言及している。これは、各20コアの2ソケット、サーバーあたり8つのV100モデルGPU、692GBのRAM、InfiniBandでネットワーク接続されたサーバーだ。SingularityのGPUは数十万個で、さらにFPGAやその他のアクセラレータを搭載している可能性もあり、マイクロソフトは少なくとも数万台のこうしたサーバーを保有していることになる。

マイクロソフトのAIシステム「Singularity」のアーキテクチャ。
出典:Shukla et al(2022)
マイクロソフトのAIシステム「Singularity」のアーキテクチャ。 出典:Shukla et al(2022)

この論文では、Singularityのスケーリング技術とスケジューラーに焦点を当て、コスト削減と信頼性向上を実現するための秘策であると主張している。

このソフトウェアは、ジョブとアクセラレータリソースを自動的に切り離す。つまり、ジョブがスケールアップまたはスケールダウンする際には、「ワーカーがマッピングされるデバイスの数を変更するだけで、ジョブのワールドサイズ(すなわちワーカーの総数)は、ジョブを実行する物理デバイスの数に関係なく同じままであり、ユーザーには完全に透過的だ」。

これは、「レプリカ・スプライシング」と呼ばれる新しい技術により、各ワーカーがデバイスのメモリ全体を使用できるようにしながら、無視できるオーバーヘッドで同じデバイス上の複数のワーカーをタイムスライスすることが可能になっている」おかげで実現した。

これを実現するには、著者らが「デバイスプロキシ」と呼ぶ、「独自のアドレス空間で動作し、物理的なアクセラレータデバイスと一対一で対応する」ものが必要となる。ジョブワーカーがデバイスAPIを開始すると、それらはインターセプトされ、別のアドレス空間で実行され、その寿命がワーカープロセスの寿命から切り離されたデバイスプロキシプロセスに共有メモリ上で送られる。

以上により、より多くのジョブを、より効率的にスケジュールすることが可能になり、何千台ものサーバーがより長い時間サービスを受けることができるようになる。また、スケーラビリティを向上させ、中断することなく迅速に拡張することができるとされている。

Read more

アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史
新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)