La NASA se asoció con IBM, utilizando un acuerdo de la Ley Espacial, para desarrollar conjuntamente un modelo de lenguaje grande (LLM) llamado INDUS. El modelo está diseñado para servir a múltiples campos científicos, incluidas las ciencias de la Tierra, las ciencias biológicas, las ciencias físicas, la heliofísica, las ciencias planetarias y la astrofísica, y se entrena utilizando literatura científica seleccionada de diversas fuentes de datos. INDUS es único en el uso de tokenizadores personalizados y una gran biblioteca de vocabularios de dominios específicos, lo que le otorga capacidades excepcionales para procesar literatura científica y responder preguntas científicas.
El Equipo Interagencial de Implementación y Conceptos Avanzados (IMPACT) de la NASA, a través de acuerdos de la Ley Espacial con socios privados no federales, está desarrollando INDUS, un conjunto de herramientas para ciencias de la Tierra, ciencias biológicas y físicas, heliofísica, ciencias planetarias y modelos de lenguajes grandes ( LLM) en campos como la astrofísica y capacitados utilizando literatura científica curada de diversas fuentes de datos.

INDUS contiene dos tipos de modelos: codificadores y convertidores de oraciones. Los codificadores convierten texto en lenguaje natural en codificaciones numéricas que LLM puede procesar. El codificador INDUS se entrenó en un corpus de 6 mil millones de tokens que contiene datos de astrofísica, ciencias planetarias, ciencias de la tierra, heliofísica, ciencias biológicas y ciencias físicas. El tokenizador personalizado desarrollado por la colaboración IMPACT-IBM mejora el tokenizador general al identificar términos científicos como biomarcadores y fosforilación. Más de la mitad de las 50.000 palabras de INDUS son exclusivas de los campos científicos específicos en los que se forma. El modelo de codificador INDUS se utilizó para ajustar aproximadamente 268 millones de pares de texto, incluidos título/resumen y pregunta/respuesta.
Al proporcionar a INDUS un vocabulario específico de un dominio, el equipo de IMPACT-IBM logró un mejor desempeño que un LLM abierto y no específico de un dominio en el punto de referencia de tareas biomédicas, el punto de referencia de respuesta a preguntas científicas y la prueba de reconocimiento de entidades de ciencias de la tierra. Al diseñar diversas tareas lingüísticas y la generación mejorada con recuperación, INDUS puede manejar las preguntas de los investigadores, recuperar documentos relevantes y generar respuestas. Para aplicaciones sensibles a la latencia, el equipo desarrolló versiones más pequeñas y más rápidas de los modelos de codificador y convertidor de oraciones.
Las pruebas de validación demostraron que INDUS pudo recuperar pasajes relevantes de la literatura científica al responder un conjunto de pruebas de la NASA de aproximadamente 400 preguntas. Al comentar sobre el enfoque general, el investigador de IBM Bishwaranjan Bhattacharjee dijo: "Logramos un rendimiento superior no solo al tener un vocabulario personalizado, sino también una gran cantidad de modelos de codificadores entrenados especializados y una buena estrategia de entrenamiento. Para la versión más pequeña y rápida, utilizamos Búsqueda de arquitectura neuronal para obtener arquitectura de modelo y utilizar una mayor supervisión de modelo para la destilación de conocimientos para la capacitación”.
Reflejos:
- La NASA coopera con IBM para desarrollar el modelo de lenguaje a gran escala INDUS, que es adecuado para campos como las ciencias terrestres, las ciencias biológicas y físicas, la heliofísica, las ciencias planetarias y la astrofísica.
- INDUS contiene dos tipos de modelos, codificador y convertidor de oraciones, entrenados utilizando un tokenizador personalizado y un corpus de 6 mil millones de tokens, y ajustados en aproximadamente 268 millones de pares de texto.
- INDUS logra un mejor rendimiento que los LLM abiertos y no específicos de dominio a través de vocabulario específico de dominio y diseñó diversas tareas de lenguaje y mejoras de recuperación para manejar las preguntas de los investigadores, recuperar documentos relevantes y generar respuestas.
En resumen, el modelo de lenguaje a gran escala INDUS proporciona una nueva y poderosa herramienta para la investigación científica, y su excelente desempeño en campos científicos específicos indica sus amplias perspectivas de aplicación en futuras investigaciones científicas. La cooperación entre NASA e IBM también establece un punto de referencia para la futura aplicación de grandes modelos lingüísticos en el campo científico.