Récemment, l'ARC Institute et Nvidia ont lancé conjointement le plus grand modèle d'intelligence artificielle biologique au monde - EVO2, ainsi que des équipes de recherche de l'Université de Stanford, UC Berkeley et UC San Francisco. Sur la base des données de plus de 128 000 génomes, ce modèle révolutionnaire a formé 9,3 billions de nucléotides, comparable au modèle de langage générateur le plus puissant à l'heure actuelle, marquant un saut majeur dans le domaine de la recherche en biologie.
La capacité d'apprentissage en profondeur d'EVO2 lui permet d'identifier rapidement les modèles dans les séquences de gènes de différents organismes, réduisant considérablement les heures de travail des chercheurs. Ce modèle reconnaît non seulement avec précision les mutations qui déclenchent des maladies humaines, mais conçoit également de nouveaux génomes comparables à la longueur d'un simple génome bactérien. L'équipe de développement prévoit de publier les détails de EVO2 le 19 février 2025 et de lancer une interface conviviale appelée EVO Designer. En outre, le code d'EVO2 a été publié sur GitHub d'ARC et intégré dans le cadre Bionemo de Nvidia pour promouvoir de nouvelles recherches scientifiques.
Par rapport au modèle de génération précédente EVO1, EVO2 a considérablement élargi sa gamme de données, couvrant les données des bactéries, des archées, des virus et des eucaryotes tels que les humains et les plantes. Les chercheurs ont déclaré que le développement de EVO2 marque une étape importante dans le domaine de la biologie générative, qui permet aux machines de «lire, écrire, penser» le langage des nucléotides, offrant de nouvelles possibilités pour la bio-ingénierie future et la conception de la thérapie génique.
Au niveau technique, EVO2 a été formé sur la plate-forme NVIDIA DGX Cloud AI et a utilisé plus de 2 000 GPU NVIDIA H100. Cette puissante puissance de calcul permet au modèle de traiter jusqu'à 1 million de nucléotides à la fois, une meilleure compréhension des relations entre les parties éloignées du génome. La nouvelle architecture AI "StripedHyena2" permet à EVO2 de traiter 30 fois plus de données que EVO1, améliorant encore ses performances.
EVO2 a un large éventail d'applications, en particulier dans l'analyse des changements génétiques liés à la fonction des protéines et à l'adaptabilité des organismes. Par exemple, dans des tests variants du gène du cancer du sein BRCA1, EVO2 prédit des mutations avec plus de 90%. Ces résultats ne feront pas que gagner beaucoup de temps et de fonds en laboratoire, mais accéléreront également le développement de nouveaux médicaments.
De plus, EVO2 peut aider à concevoir de nouveaux outils biologiques ou des options de traitement. Par exemple, les scientifiques pourraient utiliser le modèle pour concevoir des thérapies géniques ciblant des cellules spécifiques pour éviter les effets secondaires. L'équipe de recherche estime qu'à l'avenir, des modèles d'IA plus spécifiques peuvent être construits sur la base de l'EVO2, offrant plus de possibilités de recherche génomique et de bio-ingénierie.
En termes de risques éthiques et de sécurité, les chercheurs s'assurent que l'ensemble de données d'EVO2 ne contient pas de pathogènes nocifs pour les humains et d'autres organismes complexes pour développer et déployer de manière responsable la technologie. Cette décision garantit non seulement la sécurité de la technologie, mais jette également une base solide pour les recherches biologiques futures.
L'introduction détaillée de EVO2 peut être trouvée sur le lien suivant: https://arcinstitute.org/news/blog/evo2
Points clés: EVO2 est le plus grand modèle d'IA biologique au monde, avec des données de formation couvrant 128 000 génomes. Ce modèle peut rapidement identifier les mutations de la maladie et concevoir de nouveaux génomes, améliorant considérablement l'efficacité de la recherche scientifique. EVO2 offre de nouvelles possibilités pour la future bio-ingénierie et la conception de la thérapie génique.