La NASA s'est associée à IBM, dans le cadre d'un accord Space Act, pour développer conjointement un modèle de langage étendu (LLM) appelé INDUS. Le modèle est conçu pour servir plusieurs domaines scientifiques, notamment les sciences de la Terre, les sciences biologiques, les sciences physiques, l'héliophysique, les sciences planétaires et l'astrophysique, et est formé à l'aide de la littérature scientifique organisée à partir de diverses sources de données. INDUS est unique dans son utilisation de tokeniseurs personnalisés et d'une vaste bibliothèque de vocabulaires spécifiques à un domaine, ce qui lui confère des capacités exceptionnelles pour traiter la littérature scientifique et répondre aux questions scientifiques.
L'équipe Interagency Implementation and Advanced Concepts Team (IMPACT) de la NASA, dans le cadre d'accords Space Act avec des partenaires privés non fédéraux, développe INDUS, une suite d'outils pour les sciences de la Terre, les sciences biologiques et physiques, l'héliophysique, les sciences planétaires et les grands modèles de langage ( LLM) dans des domaines tels que l'astrophysique et formés à l'aide de littérature scientifique sélectionnée à partir de diverses sources de données.

INDUS contient deux types de modèles : les encodeurs et les convertisseurs de phrases. Les encodeurs convertissent le texte en langage naturel en encodages numériques pouvant être traités par LLM. L'encodeur INDUS a été formé sur un corpus de 6 milliards de jetons contenant des données issues de l'astrophysique, des sciences planétaires, des sciences de la terre, de l'héliophysique, des sciences biologiques et des sciences physiques. Le tokenizer personnalisé développé par la collaboration IMPACT-IBM améliore le tokenizer général en identifiant des termes scientifiques tels que biomarqueurs et phosphorylation. Plus de la moitié des 50 000 mots d'INDUS sont propres aux domaines scientifiques spécifiques dans lesquels il est formé. Le modèle d'encodeur INDUS a été utilisé pour affiner environ 268 millions de paires de textes, y compris titre/résumé et question/réponse.
En fournissant à INDUS un vocabulaire spécifique à un domaine, l'équipe IMPACT-IBM a obtenu de meilleures performances qu'un LLM ouvert et non spécifique à un domaine sur le test de référence des tâches biomédicales, le test de réponse aux questions scientifiques et le test de reconnaissance d'entités des sciences de la Terre. En concevant diverses tâches linguistiques et en génération améliorée par la récupération, INDUS est capable de traiter les questions des chercheurs, de récupérer des documents pertinents et de générer des réponses. Pour les applications sensibles à la latence, l’équipe a développé des versions plus petites et plus rapides des modèles d’encodeur et de convertisseur de phrases.
Les tests de validation ont montré qu'INDUS était capable de récupérer des passages pertinents de la littérature scientifique en répondant à un ensemble de tests de la NASA comprenant environ 400 questions. Commentant l'approche globale, le chercheur d'IBM Bishwaranjan Bhattacharjee a déclaré : « Nous avons obtenu des performances supérieures non seulement grâce à un vocabulaire personnalisé, mais également à un grand nombre de modèles d'encodeurs spécialisés et à une bonne stratégie de formation. Pour la version plus petite et plus rapide, nous avons utilisé Recherche d'architecture neuronale pour obtenir une architecture de modèle et utiliser une plus grande supervision des modèles pour la distillation des connaissances pour la formation.
Points forts:
- La NASA coopère avec IBM pour développer le modèle de langage à grande échelle INDUS, adapté à des domaines tels que les sciences de la Terre, les sciences biologiques et physiques, l'héliophysique, les sciences planétaires et l'astrophysique.
- INDUS contient deux types de modèles, un encodeur et un convertisseur de phrases, entraînés à l'aide d'un tokenizer personnalisé et d'un corpus de 6 milliards de tokens, et affiné sur environ 268 millions de paires de textes.
- INDUS atteint de meilleures performances que les LLM ouverts et non spécifiques à un domaine grâce à un vocabulaire spécifique à un domaine et a conçu diverses tâches linguistiques et améliorations de récupération pour traiter les questions des chercheurs, récupérer des documents pertinents et générer des réponses.
En bref, le modèle linguistique à grande échelle INDUS constitue un nouvel outil puissant pour la recherche scientifique, et ses excellentes performances dans des domaines scientifiques spécifiques indiquent ses larges perspectives d'application dans la recherche scientifique future. La coopération entre la NASA et IBM constitue également une référence pour l'application future de grands modèles de langage dans le domaine scientifique.