DeepMindのAIシステム、50年来の「タンパク質の折り畳み問題」を解明
DeepMindのAIシステムAlphaFoldの最新バージョンは、2年に1度開催されるタンパク質立体構造予測技術を客観的に評価するコンテンスト「CASP」の主催者によって、この問題の解決策として認められた。この画期的な成果は創薬設計や環境の持続可能性などの進歩を劇的に加速させる可能性を示している。
タンパク質は、アミノ酸の鎖からなる大きな複雑な分子であり、タンパク質がどのような働きをするかは、そのユニークな立体構造に大きく依存している。タンパク質がどのような形に折り畳まれるかを解明することは「タンパク質の折り畳み問題」と呼ばれ、過去50年間、生物学の大きな課題となってきた。
DeepMindのAIシステムAlphaFoldの最新バージョンは、2年に1度開催されるタンパク質立体構造予測技術を客観的に評価するコンテンスト「CASP」の主催者によって、この問題の解決策として認められた。この画期的な成果は創薬設計や環境の持続可能性などの進歩を劇的に加速させる可能性を示している。
2018年12月、DeepMindは「AlphaFold」と呼ばれる機械学習システムを使って、タンパク質の折りたたみという課題に取り組んだ。2年間の作業の成果であり、Alphabetの子会社は当時、AlphaFoldが先行するソリューションよりも正確に構造を予測できると述べていた。この主張を裏付けるように、このシステムはメキシコ・カンクンで開催されたCASP13で競合他社98社を破り、43種類のタンパク質のうち25種類の構造を予測することに成功した。CASP13のメソッドに関する論文を関連するコードとともに科学誌Natureに発表していた。
「CASP14において、DeepMindが開発した新しいディープラーニングアーキテクチャにより、他に類を見ないレベルの精度を達成することが可能になった。これらの手法は、生物学、物理学、機械学習の分野や、過去半世紀に渡ってタンパク質の折り畳み分野で多くの科学者が行ってきた研究からインスピレーションを得ている」と研究チームが執筆したブログは説明している。
折り畳まれたタンパク質は「空間グラフ」と考えることができ、このグラフは、タンパク質内の物理的相互作用や進化の歴史を理解する上で重要だ。CASP14で使用されたAlphaFoldの最新バージョンでは、エンドツーエンドで訓練されたアテンションベースのニューラルネットワークシステムを作成した。このシステムは、進化的に関連する配列、多重配列アラインメント(MSA)、アミノ酸残基ペアの表現を使用して、このグラフを洗練させる。
このプロセスを繰り返すことで、システムはタンパク質の物理的構造を強力に予測し、数日のうちに非常に正確な構造を決定することができる。さらに、AlphaFoldは、内部の信頼度指標を用いて、予測されたタンパク質構造のどの部分が信頼できるかを予測することができる。
DeepMindはこのシステムを、タンパク質データバンクから約17万件のタンパク質構造と、構造不明のタンパク質配列を含む大規模なデータベースからなる一般に公開されているデータ上で訓練した。このシステムは約128個のTPUv3コアを使用しており(およそ100~200個のGPUに相当)、数週間かけて実行したが、これは今日の機械学習で使用されているほとんどの大規模な最新モデルと比較すると、比較的控えめな計算量だ。CASP13 AlphaFoldシステムと同様に、私たちのシステムに関する論文を準備しており、近いうちに査読付きジャーナルに投稿する予定だという。
「私たちは、AlphaFoldが生物学的研究やより広い世界に与える影響を楽観視しており、今後数年間、他の研究者と協力してAlphaFoldの可能性をもっと知りたいと思っている。査読付き論文の作成と並行して、拡張性のある方法でシステムへのアクセスをより広く提供するための最善の方法を模索している」と研究チームは述べている。
その一方で、タンパク質の構造予測が、例えば、機能不全に陥ったタンパク質を特定したり、そのタンパク質がどのように相互作用するかを推論したりすることで、少数の専門家グループによる特定の疾患の理解にどのように貢献できるかについても検討している、と研究チームは述べた。これらの知見は、既存の実験手法を補完して有望な治療法をより早く見つけるための、より精密な医薬品開発の作業を可能にする可能性がある。
AlphaFoldはこれまでの研究の中で最も重要な進歩の一つだが、他の科学的研究と同様に、まだ多くの疑問が残っている。私たちが予測したすべての構造が完璧になるわけではない。複数のタンパク質がどのようにして複合体を形成しているのか、DNA、RNA、低分子との相互作用はどのように行われているのか、すべてのアミノ酸の側鎖の正確な位置を決定する方法など、学ぶべきことはまだたくさんある。