近日,Arc Institute与NVIDIA携手合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究团队,共同推出了全球最大的生物学人工智能模型——Evo2。这一突破性模型基于超过128,000个基因组的数据,训练了9.3万亿个核苷酸,其规模与当前最强大的生成性AI语言模型相媲美,标志着生物学研究领域的一次重大飞跃。
Evo2的深度学习能力使其能够快速识别不同生物体基因序列中的模式,大大缩短了研究人员的工作时间。该模型不仅能够准确识别引发人类疾病的突变,还能设计出与简单细菌基因组长度相当的新基因组。开发团队计划于2025年2月19日发布Evo2的详细信息,并推出名为Evo Designer的用户友好界面。此外,Evo2的代码已在Arc的GitHub上公开,并集成至NVIDIA的BioNeMo框架,以推动科学研究的进一步发展。
与上一代模型Evo1相比,Evo2在数据范围上有了显着扩展,涵盖了细菌、古菌、病毒以及人类、植物等真核生物的数据。研究人员表示,Evo2的开发标志着生成生物学领域的一个重要里程碑,它使机器能够“读、写、思考”核苷酸的语言,为未来的生物工程和基因疗法设计提供了新的可能性。
在技术层面,Evo2在NVIDIA DGX Cloud AI平台上进行了训练,使用了2000多块NVIDIA H100 GPU。这一强大的计算能力使模型能够一次处理高达100万个核苷酸的基因序列,从而更好地理解基因组远程部分之间的关系。新的AI架构“StripedHyena2”使Evo2能够处理比Evo1多30倍的数据,进一步提升了其性能。
Evo2的应用前景广泛,尤其在分析与蛋白质功能和生物体适应性相关的遗传变化方面表现出色。例如,在乳腺癌相关基因BRCA1的变体测试中,Evo2预测突变的准确率超过90%。这些发现不仅能够大幅节省实验室时间和资金,还将加速新药的研发进程。
此外,Evo2还可以帮助设计新的生物工具或治疗方案。例如,科学家可以利用该模型设计针对特定细胞的基因疗法,从而避免副作用。研究团队认为,未来可以在Evo2的基础上构建更具体的AI模型,为基因组研究和生物工程提供更多可能性。
在伦理和安全风险方面,研究人员确保Evo2的数据集不包含对人类和其他复杂生物有害的病原体,以负责任地开发和部署这一技术。这一举措不仅保障了技术的安全性,也为未来的生物研究奠定了坚实的基础。
Evo2的详细介绍可访问以下链接:https://arcinstitute.org/news/blog/evo2
划重点:Evo2是全球最大的生物学AI模型,训练数据涵盖128,000个基因组。该模型能够快速识别疾病突变并设计新基因组,大幅提高科研效率。 Evo2为未来的生物工程和基因疗法设计提供了新的可能性。