Recientemente, ARC Institute y Nvidia lanzaron conjuntamente el modelo de inteligencia artificial biológica más grande del mundo: EVO2, junto con equipos de investigación de la Universidad de Stanford, UC Berkeley y UC San Francisco. Basado en datos de más de 128,000 genomas, este modelo innovador capacitó a 9.3 billones de nucleótidos, comparables al modelo de lenguaje de IA generativo más potente en la actualidad, marcando un salto importante en el campo de la investigación de biología.
La capacidad de aprendizaje profundo de EVO2 le permite identificar rápidamente patrones en secuencias genéticas de diferentes organismos, reduciendo en gran medida las horas de trabajo de los investigadores. Este modelo no solo reconoce con precisión las mutaciones que desencadenan enfermedades humanas, sino que también diseña nuevos genomas que son comparables a la longitud de un genoma bacteriano simple. El equipo de desarrollo planea lanzar detalles de EVO2 el 19 de febrero de 2025 y lanzar una interfaz fácil de usar llamada EVO Designer. Además, el código de EVO2 se ha publicado en GitHub de ARC e integrado en el marco Bionemo de NVIDIA para promover una mayor investigación científica.
En comparación con el modelo de generación anterior EVO1, EVO2 ha ampliado significativamente su rango de datos, cubriendo datos de bacterias, arqueas, virus y eucariotas como humanos y plantas. Los investigadores dijeron que el desarrollo de EVO2 marca un hito importante en el campo de la biología generativa, que permite a las máquinas "leer, escribir, pensar" el lenguaje de los nucleótidos, proporcionando nuevas posibilidades para futuros bioingeniería y diseño de terapia génica.
A nivel técnico, EVO2 fue entrenado en la plataforma NVIDIA DGX Cloud AI y usó más de 2,000 GPU H100 NVIDIA. Este poderoso poder informático permite que el modelo procese hasta 1 millón de nucleótidos a la vez, mejor comprensión de las relaciones entre las partes remotas del genoma. La nueva arquitectura de IA "Stripedhyena2" permite a EVO2 procesar 30 veces más datos que EVO1, mejorando aún más su rendimiento.
EVO2 tiene una amplia gama de aplicaciones, especialmente en el análisis de los cambios genéticos relacionados con la función proteica y la adaptabilidad del organismo. Por ejemplo, en las pruebas variantes del gen BRCA1 relacionado con el cáncer de mama, EVO2 predice mutaciones con más del 90%. Estos hallazgos no solo ahorrarán enormemente el tiempo y los fondos de laboratorio, sino que también acelerará el desarrollo de nuevos medicamentos.
Además, EVO2 puede ayudar a diseñar nuevas herramientas biológicas o opciones de tratamiento. Por ejemplo, los científicos podrían usar el modelo para diseñar terapias genéticas dirigidas a células específicas para evitar los efectos secundarios. El equipo de investigación cree que en el futuro, se pueden construir modelos de IA más específicos en base a EVO2, proporcionando más posibilidades para la investigación genómica y la bioingeniería.
En términos de riesgos éticos y de seguridad, los investigadores se aseguran de que el conjunto de datos de EVO2 no contenga patógenos que sean perjudiciales para los humanos y otros organismos complejos para desarrollar e implementar de manera responsable la tecnología. Este movimiento no solo garantiza la seguridad de la tecnología, sino que también sienta una base sólida para futuras investigaciones biológicas.
La introducción detallada de EVO2 se puede encontrar en el siguiente enlace: https://arcinstitute.org/news/blog/evo2
Puntos clave: EVO2 es el modelo de IA biológico más grande del mundo, con datos de entrenamiento que cubren 128,000 genomas. Este modelo puede identificar rápidamente mutaciones de enfermedades y diseñar nuevos genomas, mejorando en gran medida la eficiencia de la investigación científica. EVO2 ofrece nuevas posibilidades para el futuro diseño de bioingeniería y terapia génica.