GoogleのAIが難病を引き起こす遺伝子変異を予測 生命科学に新たなインパクト

GoogleのAI研究部門が開発した遺伝子変異の病原性を予測するAlphaMissenseは、ライフサイエンスにおけるAIの新たなランドマークとなりそうだ。AIによる革命は、ChatGPT以外の分野で起きているのかもしれない。

GoogleのAIが難病を引き起こす遺伝子変異を予測  生命科学に新たなインパクト
Photo by Google DeepMind on Unsplash

GoogleのAI研究部門が開発した遺伝子変異の病原性を予測するAlphaMissenseは、ライフサイエンスにおけるAIの新たなランドマークとなりそうだ。AIによる革命は、ChatGPT以外の分野で起きているのかもしれない。


トップ科学誌Science誌に掲載された最近の論文で、Google DeepMindの研究者らはAlphaMissenseを発表した。AlphaMissenseは、タンパク質の構造を予測するAlphaFoldを応用した(*1)高精度のタンパク質構造モデルで、ヒトのプロテオーム全体のミスセンス変異体の病原性を詳細な水準で予測し、その特徴を明らかにするものだった。これまで知られていなかった病気の原因となる遺伝子の特定に役立つ可能性がある。

論文によると、AlphaMissenseというツールは、遺伝子に起きる変更がタンパク質(細胞の働きに大事な成分)の機能にどう影響するかを教えてくれる。これによって、病気を引き起こす可能性がある特定の遺伝子の変更を見つけ出す手がかりになる。さらに、このような予測をもっと正確に行う新しいツールを開発するための基礎研究にも使えるという。

長い間と多くの費用をかけて行われた研究により、人体で見つかった400万種類のミスセンス変異の中で、その2%が病気の原因や無害として区分された。一つ一つのミスセンス変異の影響を調べるのに、数ヶ月必要なこともある。しかし、AlphaMissenseはそのプロセスを急速に進める可能性がある。

このツールは、約7100万通りのミスセンス変異それぞれに「病原性スコア」を割り当てることで、変異の影響を迅速に評価する。スコアが高いほど、その変異が疾患を引き起こすまたは疾患に関連する可能性が高まるという。

AlphaMissenseは、アミノ酸配列からタンパク質の構造を予測するAlphaFoldに基づいている。2022年7月にDeepMind(現 Google DeepMind)が発表したAlphaFoldは、画期的な成果だった。同社によれば、AlphaFoldタンパク質構造データベースは190カ国以上、120万人以上の研究者に利用されており、AlphaFold の採用率はあらゆる領域で急速に伸びているという。

AlphaFold Protein Structure Database
AlphaFold Protein Structure Database

NatureのEwen Callawayの記事によると、論文の共著者であるGoogle DeepMindの研究担当バイスプレジデント、Pushmeet Kohliは記者会見で、「AlphaMissenseは、生物学における未解決の課題である変異の構造的影響を決定する代わりに、AlphaFoldの構造に関する『直感』を利用して、タンパク質のどこに病気の原因となる変異が生じやすいかを特定する」と述べた。

AlphaMissenseには、「タンパク質言語モデル(protein language model)と呼ばれるニューラルネットワークの一種も組み込まれている。これはChatGPTの大本にあるGenerative pre-trained transformer(GPT)のような大規模言語モデル(LLM)にヒントを得たものだ。Transformerに単語を学習させるのではなく、何百万ものタンパク質配列を学習させる。このようなモデルは、タンパク質の構造を予測し、新しいタンパク質を設計するのに長けていることが証明されている。「どの配列が妥当で、どの配列が妥当でないかを学習しているため、変異予測に有用である」とこの研究を共同主導したDeepMindの研究科学者Žiga AvsecはNatureに対して言った。

研究チームは、AlphaMissenseを使って、ヒトゲノム(遺伝情報)で起こりうるすべてのミスセンス変異のカタログを作成し、57%は良性である可能性が高く、32%は病気を引き起こす可能性があると判断した。

ミスセンス変異の説明

遺伝子は、DNAの塩基配列によって構成されている。DNAの塩基は、A(アデニン)、T(チミン)、G(グアニン)、C(シトシン)の4種類だ。これらの塩基が3つずつ組み合わさって、アミノ酸をコードしている。ミスセンス変異とは、DNAの塩基配列のうち、1文字が別の塩基に置き換わることで、アミノ酸のコードが変わってしまう変異だ。ミスセンス変異は、遺伝子から作られるタンパク質の構造や機能を変化させる可能性がある。タンパク質の構造や機能が変化すると、さまざまな病気を引き起こす可能性がある。

ミスセンス変異の例としては、鎌状赤血球貧血症が挙げられる。鎌状赤血球貧血症は、ヘモグロビンの遺伝子にミスセンス変異が起こることで発症する病気だ。ヘモグロビンは、赤血球に酸素を運ぶタンパク質であり、ミスセンス変異によってヘモグロビンの構造が変化すると、血液が固まりやすくなり、さまざまな症状を引き起こす。

人間の遺伝情報内で、約7100万の「ミスセンス変異」が起こる可能性がある(*2)。平均的な人は、これらの変化のうち9000以上を持っている。これらの多くは害がないのだが、一部は重い遺伝性の病気、例えば鎌状赤血球貧血症や嚢胞性線維症に関係している。また、これらの小さな遺伝子の変化の組み合わせが、2型糖尿病のような複雑な病気の原因にもなるとも報告されている。

ChatGPTよりも画期的な発明

Google DeepMindのCEO、デミス・ハサビスは、米メディアThe Vergeに対して、AIチャットボットが人気を博しているが、AIがこれまでに世界にもたらした最も明確で大きな利益はAlphaFoldだと述べた。ハサビスによれば、世界中のほとんどの生物学者がAlphaFoldを使用しており、主要な製薬会社もこのツールを使って新薬の開発を推進しているとのことだ。

脚注

*1:AlphaMissenseは、わずかなアーキテクチャの違いを除けばAFを応用したものである。さらに、AFが本来持っている複数配列アラインメント(MSA)を理解し、関連する配列から進化的制約を学習する能力を取り入れた。

*2:研究者らは、数百万個のヒトプロテオームワイドミスセンス変異予測からなる4つのリソースを研究コミュニティ向けに公開した。最初のデータセットには7,100万個のミスセンスバリアントが含まれており、そのうち32%と57%がそれぞれ病原性と良性の可能性があった。ここで、各ミスセンスバリアントは1塩基の変化を示し、その結果アミノ酸が変化している。2番目のリソースは遺伝子レベルのAlphaMissense病原性予測である。3番目のリソースは、19,233のヒトタンパク質における2億1,600万個の1塩基置換の可能性で構成されている。最後と4番目のリソースは、今後の研究のために、60,000の転写産物アイソフォームにわたる、すべてのミスセンス変異体およびアミノ酸置換の可能性の予測であった。

参考文献

  1. Jun Cheng et al. ,Accurate proteome-wide missense variant effect prediction with AlphaMissense.Science381,eadg7492(2023).DOI:10.1126/science.adg7492
  2. 山口 秀輝, 齋藤 裕, タンパク質の言語モデル, JSBi Bioinformatics Review, 2023, 4 巻, 1 号, p. 52-67, 公開日 2023/06/03, Online ISSN 2435-7022, https://doi.org/10.11234/jsbibr.2023.1

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史