A NASA fez parceria com a IBM, usando um acordo da Lei Espacial, para desenvolver em conjunto um grande modelo de linguagem (LLM) chamado INDUS. O modelo foi projetado para atender a vários campos científicos, incluindo ciências da Terra, ciências biológicas, ciências físicas, heliofísica, ciências planetárias e astrofísica, e é treinado usando literatura científica selecionada de diversas fontes de dados. O INDUS é único no uso de tokenizers personalizados e uma grande biblioteca de vocabulários específicos de domínio, proporcionando excelentes capacidades no processamento de literatura científica e na resposta a questões científicas.
A Equipe Interagências de Implementação e Conceitos Avançados (IMPACT) da NASA, por meio de acordos da Lei Espacial com parceiros privados e não federais, está desenvolvendo o INDUS, um conjunto de ferramentas para ciências da Terra, ciências biológicas e físicas, heliofísica, ciências planetárias e modelos de linguagem grande ( LLMs) em áreas como astrofísica e treinados usando literatura científica com curadoria de diversas fontes de dados.

O INDUS contém dois tipos de modelos: codificadores e conversores de frases. Os codificadores convertem texto em linguagem natural em codificações numéricas que podem ser processadas pelo LLM. O codificador INDUS foi treinado em um corpus de 6 bilhões de tokens contendo dados de astrofísica, ciências planetárias, ciências da terra, heliofísica, ciências biológicas e ciências físicas. O tokenizer personalizado desenvolvido pela colaboração IMPACT-IBM melhora o tokenizer geral, identificando termos científicos como biomarcadores e fosforilação. Mais da metade das 50.000 palavras do INDUS são exclusivas das áreas científicas específicas nas quais é treinado. O modelo do codificador INDUS foi usado para ajustar aproximadamente 268 milhões de pares de texto, incluindo título/resumo e pergunta/resposta.
Ao fornecer ao INDUS um vocabulário específico de domínio, a equipe IMPACT-IBM obteve melhor desempenho do que um LLM aberto e não específico de domínio no benchmark de tarefas biomédicas, no benchmark de resposta a perguntas científicas e no teste de reconhecimento de entidades de ciências da terra. Ao projetar diversas tarefas linguísticas e geração aprimorada de recuperação, o INDUS é capaz de lidar com as perguntas dos pesquisadores, recuperar documentos relevantes e gerar respostas. Para aplicações sensíveis à latência, a equipe desenvolveu versões menores e mais rápidas dos modelos de codificador e conversor de frases.
Os testes de validação mostraram que o INDUS foi capaz de recuperar passagens relevantes da literatura científica ao responder a um conjunto de testes da NASA de aproximadamente 400 perguntas. Comentando sobre a abordagem geral, o pesquisador da IBM Bishwaranjan Bhattacharjee disse: "Alcançamos um desempenho superior não apenas por ter um vocabulário personalizado, mas também por um grande número de modelos de codificadores treinados especializados e uma boa estratégia de treinamento. Para a versão menor e mais rápida, usamos Busca de arquitetura neural para obter arquitetura de modelo e utilizar maior supervisão de modelo para destilação de conhecimento para treinamento ”.
Destaques:
- A NASA coopera com a IBM para desenvolver o modelo de linguagem em grande escala INDUS, que é adequado para áreas como ciências da terra, ciências biológicas e físicas, heliofísica, ciências planetárias e astrofísica.
- INDUS contém dois tipos de modelos, codificador e conversor de frases, treinados usando um tokenizer personalizado e um corpus de tokens de 6 bilhões, e ajustados em aproximadamente 268 milhões de pares de texto.
- O INDUS alcança melhor desempenho do que LLMs abertos e não específicos de domínio por meio de vocabulário específico de domínio e projetou diversas tarefas de linguagem e aprimoramentos de recuperação para lidar com perguntas de pesquisadores, recuperar documentos relevantes e gerar respostas.
Em suma, o modelo linguístico de grande escala do INDUS proporciona uma nova e poderosa ferramenta para a investigação científica, e o seu excelente desempenho em campos científicos específicos indica as suas amplas perspectivas de aplicação em futuras investigações científicas. A cooperação entre a NASA e a IBM também estabelece uma referência para a aplicação futura de grandes modelos de linguagem no campo científico.