最近、ARC InstituteとNvidiaは、スタンフォード大学、UCバークレー、UCサンフランシスコの研究チームとともに、世界最大の生物学的人工知能モデルであるEVO2を共同で開始しました。 128,000を超えるゲノムのデータに基づいて、この画期的なモデルは、現在最も強力な生成AI言語モデルに匹敵する9.3兆ヌクレオチドを訓練し、生物学研究の分野での大きな跳躍を示しています。
EVO2の深い学習能力により、異なる生物の遺伝子配列のパターンを迅速に識別し、研究者の労働時間を大幅に削減できます。このモデルは、ヒト疾患を引き起こす突然変異を正確に認識するだけでなく、単純な細菌ゲノムの長さに匹敵する新しいゲノムを設計します。開発チームは、2025年2月19日にEVO2の詳細を公開し、EVOデザイナーと呼ばれるユーザーフレンドリーなインターフェイスを開始する予定です。さらに、EVO2のコードはARCのGitHubで公開され、NvidiaのBionemoフレームワークに統合され、さらなる科学的研究を促進しています。
前世代のモデルEVO1と比較して、EVO2はデータ範囲を大幅に拡大し、細菌、古細菌、ウイルス、および人間や植物などの真核生物からのデータをカバーしています。研究者たちは、EVO2の開発は生成生物学の分野で重要なマイルストーンをマークし、機械がヌクレオチドの言語を「読み、書き、考え」、将来のバイオエンジニアリングと遺伝子療法の設計に新しい可能性を提供できると述べました。
技術レベルでは、EVO2はNVIDIA DGXクラウドAIプラットフォームでトレーニングされ、2,000を超えるNVIDIA H100 GPUを使用しました。この強力なコンピューティングパワーにより、モデルは一度に最大100万ヌクレオチドを処理できるため、ゲノムの遠隔部分間の関係をよりよく理解できます。新しいAIアーキテクチャ「Stripedhyena2」により、EVO2はEVO1の30倍のデータを処理できるようになり、パフォーマンスがさらに向上します。
EVO2には、特にタンパク質機能と生物の適応性に関連する遺伝的変化の分析において、幅広い用途があります。たとえば、乳がん関連遺伝子BRCA1のバリアント検査では、EVO2は90%以上の突然変異を予測します。これらの調査結果は、実験室の時間と資金を大幅に節約するだけでなく、新薬の開発も加速します。
さらに、EVO2は新しい生物学的ツールまたは治療オプションの設計に役立ちます。たとえば、科学者はこのモデルを使用して、特定の細胞を標的とする遺伝子療法を設計して、副作用を避けることができます。研究チームは、将来的にはEVO2に基づいてより具体的なAIモデルを構築できると考えており、ゲノム研究とバイオエンジニアリングの可能性が増えています。
倫理的およびセキュリティリスクに関しては、研究者はEVO2のデータセットに、技術を責任を持って開発および展開するために人間や他の複雑な生物に有害な病原体が含まれていないことを保証します。この動きは、テクノロジーの安全性を保証するだけでなく、将来の生物学的研究のための強固な基盤を置いています。
EVO2の詳細な紹介は、次のリンクにあります:https://arcinstitute.org/news/blog/evo2
キーポイント:EVO2は世界最大の生物学的AIモデルであり、128,000のゲノムをカバーするトレーニングデータがあります。このモデルは、疾患の突然変異を迅速に特定し、新しいゲノムを設計し、科学的研究効率を大幅に改善することができます。 EVO2は、将来のバイオエンジニアリングと遺伝子治療の設計のための新しい可能性を提供します。