電池部品に最適な分子ビルディングブロックを設計することは、何十億もの可能性のある材料がある中で、新しい種類のケーキのレシピを作るようなものだ。

この課題には、どの成分が最もうまく機能するのか、つまり、より簡単に言えば、食べられる(電池の場合は安全な)製品を生み出すのかを決定することが必要です。しかし、最先端のスーパーコンピューターを使っても、科学者たちは、次世代の電池材料の基礎となる可能性のあるすべての分子の化学的特性を正確にモデル化することはできない。

その代わりに、米国エネルギー省(DOE)のアルゴンヌ国立研究所の研究者たちは、機械学習と人工知能の力を利用して、電池の発見プロセスを劇的に加速させた。2019年末に発表された2つの新しい論文に記載されているように、アルゴンヌ国立研究所の研究者はまず、電池の電解質の基礎となりうる約133,000個の低分子有機分子の高精度なデータベースを作成した。そのために、1〜9個の非水素原子を持つ有機分子の高レベル量子化学計算(G4MP2)という計算量の多いモデルを使用した。しかし、この分子の集合体は、科学者たちが電解質の候補を探ろうとしていた1660億個の大きな分子のごく一部に過ぎなかった。

G4MP2を使用して1,660億個の分子のそれぞれを解決するのは、スーパーコンピューターにとって不可能な量の計算時間と電力を必要とするため、研究チームは機械学習アルゴリズムを使用して、より小さなデータセットから正確に知られている構造と、より大きなデータセットからより粗くモデル化された構造を関連付けることに成功した。

アルゴンヌ大学データサイエンス部門のディレクターで論文の著者でもあるイアン・フォスターは、「これらの分子がどのように働くかを決定する際には、精度と結果の計算にかかる時間の間に大きなトレードオフがある。私たちは、機械学習が、計算コストの何分の一かで、ほぼ同じ精度の分子画像を得る方法であると信じている」と声明の中で述べている。

機械学習モデルの基礎を提供するために、フォスターらは、密度汎関数理論に基づいた計算負荷の少ないモデリングフレームワークを使用しました。密度汎関数理論は、分子特性の近似値を提供しますが、G4MP2よりも精度が劣る。

このアルゴリズムを改良して、より広範な有機分子の情報を把握するために、高精度なG4MP2を用いて計算した分子の原子位置と密度汎関数理論のみを用いて解析した分子の原子位置を比較した。G4MP2をゴールドスタンダードとして使用することで、研究者らは密度汎関数理論モデルに補正係数を組み込むように訓練し、計算コストを抑えながら精度を向上させることができた。

「機械学習アルゴリズムは、大きな分子の原子とその隣の原子との関係を見て、それらがどのように結合し、どのように相互作用しているかを見て、それらの分子と我々がよく知っている他の分子との間の類似点を探す方法を提供してくれる」と、研究の一つの著者であるアルゴンヌ大学の計算科学者ローガン・ウォードは声明の中で述べている。これは、これらの大きな分子のエネルギーや、低精度の計算と高精度の計算の違いを予測するのに役立つものだ。

Photo: "Complex Oxide Molecular Beam Epitaxy--3" by Argonne National Laboratory is licensed under CC BY-NC-SA 2.0