Googleは、ハーバード大学と協力のもと、米国の郡や州における今後14日間のCOVID-19患者数、死亡者数、ICU利用率、人工呼吸器の利用可能性、その他の指標を予測するモデル「COVID-19 Public Forecasts」を発表した。このモデルは、ジョンズ・ホプキンス大学、デカルト研究所、米国国勢調査局などの公開データをもとに訓練されており、Googleは、ハーバード大学の共同研究者の指導を受けながら、今後も更新していくとしている。

COVID-19 Public Forecastsは、医療、公共部門、およびその他の影響を受ける組織の第一応答者のためのリソースとしての役割を果たすことを意図している、とGoogleは言う。これにより、郡単位でターゲットを絞ったテストや公衆衛生上の介入が可能となり、理論的には、急速に進化するCOVID-19パンデミックへの対応能力を向上させることができる。例えば、医療提供者は、予測された症例数をデータポイントとして、PPE、スタッフの配置、スケジューリングのための資源計画に組み込むことができる。一方、州や郡の保健部門は、感染症の予測を利用して、検査戦略の情報提供やアウトブレイクのリスクのある地域の特定に役立てることができる。

COVID-19 Public Forecastsを作成するために、Googleはその研究者がAIと巧妙な疫学的基盤を組み合わせた新しい時系列機械学習アプローチを開発したと述べている。設計上、モデルは公開データ上で訓練され、研究者がモデルが識別した関係性に飛び込み、なぜ特定の予測を行うのかを解釈できるようなアーキテクチャを活用している。また、COVID-19の影響を最も強く受けている有色人種(COVID-19の患者数と死亡者数が不釣り合いに多い)に関する予測が乱暴に偏っていたり、誤解を招くようなものではないことを確認するためにも評価が行われている。

COVID-19 Public Forecasts. Image via Google Cloud.

Google の研究者は、COVID-19 予測モデルの公平性分析の中で、「我々のモデルは、アフリカ系アメリカ人、ヒスパニック系、および白人が多い郡の比較モデルと比較して、絶対誤差と正規化された(相対的な)誤差が有意に低いことを観察しています。私たちのモデルは、ほとんどのコミュニティに最高の全体的な予測を提供するために、米国のすべての郡に渡って高い精度で最適化されています」と記述している。

COVID-19公共予測は、BigQueryのサービスの1TB/月無料レベルの一部として無料でクエリーすることができ、カンマ区切りの値ファイル(CSV)としてダウンロードすることもできる。また、Google の Data Studio ダッシュボードおよび National Response Portal からも利用できる

Googleによると、データセットに対するクエリで処理されたすべてのバイトはゼロアウトされるが、データセットに結合されたデータは、悪用を防ぐために通常の料金で課金されるという。9月15日以降は、予測セットに対するクエリは通常のGoogle Cloudの課金レートに戻される。

COVID-19 Public Forecastsのリリースは、危機に関連する公開データセットのリポジトリをホストし、アクセスや分析を容易にするGoogleのCOVID-19 Public Datasetsプログラムの立ち上げに続くものです。COVID-19 Public Datasetsプログラムには、ジョンズ・ホプキンス・システム科学工学センター(JHU CSSE)のデータセット、世界銀行のグローバルヘルスデータ、OpenStreetMapデータなどが含まれており、これらのデータはすべてGoogle Cloudに無償で保存されている。

Photo by Brian Wangenheim on Unsplash