グーグルはクラウドで勝つための方法を模索している

【ブルームバーグ・ビジネスウィーク】12月7日にアマゾンのクラウドコンピューティングネットワークが停止したとき、ディズニー、ネットフリックス、チケットマスターなど、アマゾンのサーバーに依存している幅広い企業に支障をきたした。しかし、アマゾンウェブサービス(AWS)が過去1年以上で最悪の障害を起こしたことで、広範囲に渡る混乱を歓迎する理由がある企業は珍しい。グーグルだ。

消費者向けサービスでは圧倒的な強さを誇っているものの、検索大手のアルファベットは、急成長しているクラウドコンピューティング業界ではアマゾンやマイクロソフトの後塵を拝してきた。クラウド企業は、スピード、機能、信頼性などさまざまな面で競争しているが、グーグルクラウドの最高経営責任者(CEO)であるトーマス・クリアンは、グーグルのクラウドインフラが他社よりも信頼性が高いと顧客に思わせることが、追いつくための重要なポイントだと考えている。

しかし、この主張を評価する方法はないかもしれない。クラウド業界のアナリストによると、競合サービスの相対的なダウンタイムを測定することは、ネットワークの規模、提供するサービスの多様性、障害を引き起こす要因の複雑な組み合わせなどの理由から、ほとんど不可能だという。

企業のAWS利用料金の削減に協力しているDuckbill Groupのチーフクラウドエコノミストであるコリー・クインは、アマゾンとグーグルクラウドは「信頼性の面では拮抗している」とし、マイクロソフトのAzureは2020年に大きな障害が発生したため、後塵を拝していると述べている(マイクロソフトの広報担当者は、同社のクラウドは「業界をリードする信頼性」を提供しており、一部の障害発生後には顧客に支払いクレジットを提供していると述べている)。

しかし、グーグルは独自の技術的課題に直面している。グーグルがグローバルなデータセンターのシステムを構築し始めた当初の目的は、自社の消費者向けの技術製品を提供することだった。その設計は、グーグルの検索、メール、ビデオストリーミングを世界中で稼働させるというタスクに適していた。しかし、同じサーバーファームをクラウドコンピューティングネットワークのバックボーンとして使用すると、技術的に新たな問題が発生する。この問題を解決することが、クリアンCEOの主要なエンジニアリング課題となっている。

クラウドコンピューティングは、誰もが急成長を期待するハイテク業界の一分野だ。調査会社のIDCによると、クラウド市場は2025年まで毎年30%ずつ成長し、4,000億ドルに達すると予想されている。2020年のパブリッククラウド市場では、アマゾンが41%、マイクロソフトが20%、グーグルが6%のシェアを占めているとガートナーは分析している。

クラウド市場のシェア

だからといって、グーグルの業績が悪いわけではない。アナリストたちは、同社のクラウド部門が今年、260億ドルの収益を上げると予想しており、これはクリアンがCEOに就任する前年の2018年の約4.5倍にあたるという。この事業は利益を上げていないが、クリアンはその損失を削減しており、その焦点はやはり利益よりも成長にあると語っている。グーグルは2月1日、第4四半期のクラウド部門の売上高が55億4,000万ドルに達し、アナリストの予想を上回ったと発表した。グーグル クラウドの従業員数は、クリアンが就任した当時の25,000人から40,000人に増加し、ゴールドマン・サックス、HSBC、Twitterなどの多国籍企業が顧客として名を連ねている。

オラクルの元幹部であるクリアンは、VMwareを共同設立した優秀なエンジニアであるダイアン・グリーンの後を継ぎ、グーグルのクラウド部門を本格的なビジネスにするために入社した。クリアンの下で、同社は顧客サービスを強化した。営業部隊は急速に成長し、大口顧客を維持するための戦略的パートナーシップを重視するようになった。しかし、就任後数ヶ月の間に消費者から多くの苦情が寄せられたため、彼はすぐに信頼性を重視するようになった。

大きな課題のひとつは、グーグルのデータセンターのネットワークが極端に集中していることだ。グーグルは、世界の遠く離れた場所にあるマシンが、自宅近くのマシンに大きく依存するようにインフラを設計した。これにより、グーグルは世界中の何十億人もの人々に同じサービスを提供しやすくなった。また、データの鮮度を保ち、ソフトウェアを迅速に更新することも可能になった。

しかし、このやり方には落とし穴があり、2019年6月、グーグルが今では「マヤ・アポカリプス」と呼ぶ事件が起きた。グーグルのデータセンターの作業員は、オレゴン州の一部のマシンを物理的に修理している最中に、サーバー間の責任を自動的にシフトする「マヤ」というソフトウェアプログラムのバグにより、ネットワーク全体の制御を実質的に行うBorg Mastersという別のシステムが停止した。これにより、ドミノ式に南北アメリカのサービスが停止した。サーバーの故障に伴い、グーグルのネットワーク容量は縮小し、さらに混雑したため、YouTubeの視聴者に速度低下を引き起こし、システムの復旧が遅れた。

マヤ・アポカリプスの後、クリアンは社員に「信頼性のリセット」が必要だと伝えた。当初、信頼性の問題を解決するにはそれだけの期間が必要だと考え、ソフトウェアの更新を1ヶ月間凍結した。内部事情に詳しい3人の人物によると、同社は過去3年間の大半をこのプロジェクトに費やしてきたという。

ある程度までは、アマゾンのクラウド・インフラの特定の側面を再構築することが目的だったようだ。「AWSは、多くのプロバイダーが行っていないことを行っている。それは、強力な地域分離だ」とDuckbillのクインは言う。「ある地域の障害が他の地域に影響することはほとんどない。一方、グーグルには自慢のグローバルネットワークがあり、その結果、グローバルな計画停電のような事態が発生している。グーグル クラウドがダウンすると、AWSよりも多くの地域で、より厳しくダウンする傾向がある」と述べている。

グーグルクラウドは、必要に応じてサーバーを互いに分離するための一連の取り組みを行ってきた。主な取り組みである「プロジェクト・ドローブリッジ」の種は、マヤ・アポカリプスの後に蒔かれたが、プロジェクトが正式に開始されたのは2021年春だった。これは、お客様が地域間の接続を一時的に切断(プルアップ)することで、データを分離し、問題が広がらないようにするというものだ。グーグルによると、これは、複数の管轄区域で業務を行っている銀行やその他の規制産業にとって、特に重要なことだという。このプログラムでは、顧客が自社のアプリケーションやサービスの独立したバージョンを世界中のさまざまな地域でホストすることができ、メインのバージョンがダウンした場合でも、顧客は最も近い地域のバージョンのサービスに接続することができる。

グーグルで技術スタッフを統括するヴァイスプレジデントのベン・トレイナー・スロスは「お客様のワークロードの信頼性は当社の最優先事項であり、当社のチームがお客様への共感を示す方法でもある」と電子メールで述べている。また、地域化についてはお客様によって好みが分かれるため、グーグルでは選択肢を用意しているという。

11月16日には、ネットワーク設定の問題で複数のグーグルのクラウドコンピューティング製品が混乱し、顧客であるホームデポット、スナップチャット、スポティファイのウェブサイトやアプリが利用できなくなるという事件が発生しており、同社の取り組みはまだまだ発展途上だ。クリアンとスロスは、エンジニアリング上の問題を解決すると同時に、グーグルのエンジニアたちにこの問題を理解してもらおうとした。技術スタッフに顧客とのミーティングに参加してもらったり、顧客が書いたサービス停止の経験に関する文章を読んだりして、グーグルのサービスが停止したときに顧客がどのような影響を受けるかを理解してもらった。

顧客の中には、グーグルへの信頼を失ったとか、他のクラウド事業者を検討するかもしれないといった、深い不満や怒りを表明する人もいると社員は言う。このような脅威がどの程度深刻なのかを評価するのは難しい。クラウド・プロバイダーの変更は大掛かりな作業であり、競合するプロバイダーも定期的に障害を起こしている。外部の人間がネットワークの相対的な信頼性を評価するのは難しいため、他の場所で障害が少ないとは言い切れない。たとえクリアンがグーグルを最も信頼性の高いクラウドにすることに成功したとしても、それをビジネス上の優位性に変えることは、技術的な課題だけでなく、マーケティング上の課題でもあるのだ。

Nico Grant. Google Is Searching for a Way to Win the Cloud. © 2022 Bloomberg L.P.