
多くの企業が AI のキラー アプリを探し続けていますが、生化学者はすでにそれを発見しています。その応用はタンパク質のフォールディングです。今週は、Google DeepMind が開発した AI システムである Alpha Fold 2 の発売から 5 周年を迎えます。このシステムは、DNA配列からタンパク質の構造を高精度に予測することができます。
過去 5 年間で、AlphaFold 2 とそれに続く AI モデルは、生化学研究において、顕微鏡、ペトリ皿、ピペットとほぼ同じくらい基本的かつ遍在的なツールになりました。 AI モデルは科学者が新薬を探索する方法を変革し始めており、より迅速かつより成功した新薬開発が約束されています。そして、科学者が海洋汚染から気候変動に対する作物の回復力を高めることまで、あらゆるものに対する解決策の研究を支援し始めています。
Google DeepMind のタンパク質構造予測チームを率いるジョン・ジャンパー首席科学者は、「その影響は私たちの予想をはるかに上回っています」とフォーチュンに語った。 2024 年、Jumper と Google DeepMind の共同創設者兼 CEO であるデミス・ハサビスは、AlphaFold 2 の開発によりノーベル化学賞を共同受賞しました。
AlphaFold を使用してタンパク質の構造を予測する方法を学ぶことは、現在、世界中の多くの大学院レベルの生物学の学生に標準ツールとして教えられています。 「それは分子生物学者になるための訓練の一部にすぎません」とジャンパー氏は言う。
Fortune は、2020 年の特集記事で、いわゆる「タンパク質のフォールディング問題」を解決する Google DeepMind の探求を記録しました。タンパク質は複雑な物理的立体構造を持っており、Alphafold が開発される以前は、これらの立体構造を解明するには時間と費用のかかる実験室実験が必要でした。
同社は最終的に、ChatGPT などの人気のチャットボットを強化するのと同じ種類の AI である Transformer を使用して問題を解決しました。しかし、次に最も可能性の高い単語を出力するために Transformer をテキストでトレーニングするのではなく、AI モデルは、タンパク質の DNA 配列と既知のタンパク質構造のデータベース、およびどの DNA 配列が共進化すると思われるかに関する情報に基づいてトレーニングされました。タンパク質の構造に関する手がかりが得られるからです。次に、タンパク質の構造を予測するように求められます。
AIを科学に応用する取り組みを主導するGoogle DeepMindの研究担当副社長プッシュミート・コーリ氏は、「本当にうまくいったのかと自分をつねらなければならないときがある。失敗した理由はたくさんあるだろう」と語る。
コーリ氏はまた、AlphaFoldはAIがハイテク企業に多額の利益をもたらすだけでなく、科学、そして最終的には人類の進歩にも貢献できることを証明したと述べた。 「AlphaFold は、このテクノロジーである人工知能を開発する場合、人類にとって最も有意義な用途は何かという基本的な原則とビジョンを実際に確認しました。そして、科学は AI の完璧なユースケースだと思います。これが唯一のユースケースとは言いませんが、間違いなく最も魅力的なユースケースです。」
180,000 個のタンパク質構造から 2 億 4,000 万個へ
タンパク質はアミノ酸の長い鎖であり、生命のエンジンとして機能し、ほとんどの生物学的プロセスを制御します。タンパク質の機能はその形状によって決まります。細胞がタンパク質を生成するとき、アミノ酸は自発的に折りたたまれて、ポケット、突起、そして時には長い尾部からなる絡み合ったねじれた構造になります。
化学と物理法則がこの折り方を決定します。ノーベル賞を受賞した化学者クリスチャン・アンフィンセンが 1972 年に、タンパク質がとる最終構造は DNA だけで完全に決定されるはずだと仮説を立てたのはこのためです。それは驚くべき推測でした。当時、まだ単一のゲノムは解読されていませんでした。しかし、アンフィンセンの理論は、経験的実験の代わりに複雑な数学を使用してタンパク質をモデル化することを目的とした、計算生物学の下位分野全体を立ち上げました。問題は、宇宙には原子の数よりも多くのタンパク質構造が考えられるため、高性能コンピューターを使用してもモデル化が非常に困難であることです。
AlphaFold 2 が登場するまでは、科学者がタンパク質の構造を確実に知る唯一の方法は、費用と時間がかかるいくつかの実験手順のうちの 1 つを使用することでした。その結果、科学者は、AlphaFold 2 よりも前に約 180,000 個のタンパク質の構造を決定することができました。タンパク質構造を予測するための他のコンピューターベースの方法では、精度が約 50% しか達成できず、特に予測が信頼できる時期を事前に知る方法がなかったため、生化学者にとってはほとんど役に立ちませんでした。
AlphaFold 2 のおかげで、構造を予測できるタンパク質は現在 2 億 4,000 万個以上あります。これには、人体によって生成されるすべてのタンパク質だけでなく、コロナウイルス、マラリア、シャーガス病などの主要な人間の病気に関連するタンパク質も含まれます。
Google DeepMind により、研究者は AlphaFold 2 を自分のコンピュータに無料でダウンロードして実行できるようになりました。しかし、予測をより利用しやすくするために、研究者がタンパク質の DNA 配列をアップロードして構造予測を取得できるインターネット ベースのサーバーも構築しました。そして Google DeepMind は、ほぼすべての既知のタンパク質の構造予測を生成し、それらを英国ケンブリッジ郊外の欧州分子生物学研究所の欧州バイオインフォマティクス研究所が運営するデータベースに登録しました。
これまでに 330 万人以上が AlphaFold 2 を使用しています。 AlphaFold の独自の研究は 40,000 を超える学術論文で直接引用されており、その 30% はさまざまな疾患の研究に焦点を当てています。ある研究では、AI モデルが約 200,000 件の研究出版物に直接的または間接的に貢献していることがわかりました。 Google DeepMind のデータによると、このツールは 400 件を超える成功した特許出願でも言及されています。
ジャンパー氏はフォーチュンに対し、科学者たちがAlphaFoldを使って「何を探せばいいのかさえわからなかった」生命過程の鍵を見つけられたことに最も満足していると語った。たとえば、科学者たちは最近、AlphaFold を使用して、精子が卵子と受精するために不可欠な、これまで知られていなかったタンパク質複合体の発見を支援しました。
オーストリアのウィーンにある分子病理学研究所の生化学者で、精子表面のタンパク質を発見したアンドレア・パウリ氏は科学誌ネイチャーに対し、彼のチームは「発見を早めるため、すべてのプロジェクトにAlphaFold 2を使用している」と語った。
心臓病からミツバチまで、生命の謎を解き明かす
AlphaFold による発見の 1 つは、低密度リポタンパク質 (LDL) の中心にある重要なタンパク質の構造を決定するのに役立ちました。 LDLは一般に「悪玉コレステロール」として知られており、心臓病の主な原因です。 apoB100と呼ばれるこのタンパク質は、そのサイズが大きく、他のタンパク質との複雑な相互作用のため、以前はマッピングすることが不可能でした。しかし、ミズーリ大学の 2 人の科学者は、AlphaFold からの予測とイメージング手法であるクライオ電子顕微鏡法を組み合わせて、apoB100 の構造を発見しました。これは最終的に科学者が高コレステロールのより良い治療法を見つけるのに役立つ可能性がある。
他の科学者は、AlphaFold を使用して、ミツバチの免疫システムで重要な役割を果たすタンパク質であるビテロゲニンの構造を発見しました。タンパク質の構造を知ることで、科学者が世界中でミツバチの個体数が減少していることをより深く理解し、より病気に強いミツバチの種を生み出す遺伝子組み換えを発見できるのではないかと期待されている。
AlphaFold 予測の全体的な精度は、タンパク質の種類によって異なります。しかし、AlphaFold は、科学者がタンパク質の特定部分の構造に関する AI の予測を信頼すべきかどうかの指標となる信頼度スコアも提供します。ヒトタンパク質の場合、予測の約 36% が信頼度の高い予測であるのに対し、細菌大腸菌の場合、AlphaFold はケースの約 73% で構造に関して高い信頼性スコアを示します。
一部のタンパク質は、その形状が周囲の他の物質やタンパク質によって大きく異なるため、「先天的に無秩序な」領域を持っています。経験的なイメージング手法も AI ベースのモデルも、これらの無秩序な領域がどのように見えるかについて適切な情報を提供しません。 (Google DeepMind が 2024 年に発表した、より強力な AI モデルである AlphaFold 3 は、これらの無秩序な領域が他のタンパク質や分子にどのように結合するかを予測できる場合があります (常にではありません)。)
AlphaFold が創薬に与える影響はまだ証明されていません。
AlphaFold は最終的に創薬に大きな影響を与える可能性がありますが、これまでのところ、AI モデルがどの程度の違いをもたらしたかを評価するのは困難です。あるケースでは、科学者たちはAlphaFoldを使用して、毎年最大700万人が感染し、年間1万人以上が死亡している熱帯寄生虫病であるシャーガス病の治療に再利用できる2種類のFDA承認薬を見つけた。
Jumper 氏は、ある程度、元の構造予測ツールよりも創薬においてより直接的な役割を果たす可能性があるのは、AlphaFold 2 のフォローアップ AI モデルであると述べました。たとえば、AlphaFold 3 は、タンパク質の構造だけでなく、タンパク質がどのように相互に結合するか、または小分子に結合するかといういくつかの重要な側面も予測します。ほとんどの薬物はタンパク質上の標的部位に結合してその機能を変化させる小分子であるか、場合によってはタンパク質自体であるため、これは不可欠です。一方、AlphaFold 2 の拡張機能である AlphaFold Multimer は、タンパク質間の相互作用を予測し、医薬品設計にも役立ちます。
Google DeepMind は、AlphaFold 3 やその他のツールを使用して医薬品を設計する Isomorphic という姉妹会社を独立させました。同社はノバルティスやイーライリリーと提携しているが、どの薬剤候補を研究しているかはまだ公表していない。 AlphaFold 3 は学術研究者は無料で利用できますが、このソフトウェアは Isomorphic と Google 以外の営利団体は利用できません。
Google DeepMind は、特定の結合特性を持つ新しいタンパク質を設計できる AlphaProteo と呼ばれる AI モデルも作成しました。そして AI Lab は、単一点の遺伝子変異がどれほど有害であるかを予測できる AlphaMissense と呼ばれるシステムを作成しました。これは、科学者が多くの病気の根本原因を理解し、遺伝子治療を含む治療法を見つけるのに役立つ可能性があります。
ジャンパー氏は、GoogleのGemini AIのような大規模言語モデルが科学で役割を果たせるかどうかを探ることに個人的に興味があると語った。一部の AI スタートアップ企業は、科学者がタンパク質の機能を指定し、LLM がそのタンパク質の DNA レシピを提供する LLM の実験を開始しています。 (実際に機能するかどうかを確認するには、まだ実験的にテストする必要があります。) しかし、ジャンパー氏は、この種の LLM が非常に新しいタンパク質の設計にどれほどうまく機能するかについては、いくぶん懐疑的であると述べました。 Jumper 氏は、一部の人々が基本的に AlphaFold 用のチャットボット フロントエンドを作成していることも認識していますが、これは「それほど面白いものではない」と述べています。
むしろ、LLM の力を利用して新しい仮説を立て、それをテストするための新しい実験を設計するというアイデアに興奮していると彼は言いました。 DeepMind は、Gemini をベースにして、これの一部を実行できるプロトタイプ「AI サイエンティスト」を作成しました。しかしジャンパー氏は、このコンセプトにはもっと大きな可能性があると考えていると語った。 「本当に興味深いデータセットと本当に大きなデータセットは科学文献全体です」と彼は言いました。


