Die NASA arbeitete im Rahmen einer Space Act-Vereinbarung mit IBM zusammen, um gemeinsam ein großes Sprachmodell (LLM) namens INDUS zu entwickeln. Das Modell ist für mehrere wissenschaftliche Bereiche konzipiert, darunter Geowissenschaften, Biowissenschaften, Naturwissenschaften, Heliophysik, Planetenwissenschaften und Astrophysik, und wird anhand kuratierter wissenschaftlicher Literatur aus verschiedenen Datenquellen trainiert. INDUS ist einzigartig in der Verwendung benutzerdefinierter Tokenisierer und einer großen Bibliothek domänenspezifischer Vokabulare, was ihm hervorragende Fähigkeiten bei der Verarbeitung wissenschaftlicher Literatur und der Beantwortung wissenschaftlicher Fragen verleiht.
Das Interagency Implementation and Advanced Concepts Team (IMPACT) der NASA entwickelt im Rahmen von Space Act-Vereinbarungen mit privaten, nicht bundesstaatlichen Partnern INDUS, eine Reihe von Werkzeugen für Geowissenschaften, biologische und physikalische Wissenschaften, Heliophysik, Planetenwissenschaften und große Sprachmodelle ( LLMs) in Bereichen wie der Astrophysik und werden anhand kuratierter wissenschaftlicher Literatur aus verschiedenen Datenquellen geschult.

INDUS enthält zwei Arten von Modellen: Encoder und Satzkonverter. Encoder wandeln Text in natürlicher Sprache in numerische Codierungen um, die von LLM verarbeitet werden können. Der INDUS-Encoder wurde auf einem 6-Milliarden-Token-Korpus trainiert, der Daten aus den Bereichen Astrophysik, Planetenwissenschaften, Geowissenschaften, Heliophysik, Biowissenschaften und Naturwissenschaften enthält. Der von der IMPACT-IBM-Zusammenarbeit entwickelte benutzerdefinierte Tokenizer verbessert den allgemeinen Tokenizer, indem er wissenschaftliche Begriffe wie Biomarker und Phosphorylierung identifiziert. Mehr als die Hälfte der 50.000 Wörter in INDUS sind einzigartig für die spezifischen wissenschaftlichen Bereiche, in denen es ausgebildet wird. Das INDUS-Encodermodell wurde zur Feinabstimmung von etwa 268 Millionen Textpaaren, einschließlich Titel/Zusammenfassung und Frage/Antwort, verwendet.
Durch die Bereitstellung eines domänenspezifischen Vokabulars für INDUS erzielte das IMPACT-IBM-Team eine bessere Leistung als ein offenes, nicht domänenspezifisches LLM beim biomedizinischen Aufgaben-Benchmark, dem wissenschaftlichen Frage-Antwort-Benchmark und dem geowissenschaftlichen Entitätserkennungstest. Durch die Gestaltung vielfältiger Sprachaufgaben und der abrufgestützten Generierung ist INDUS in der Lage, die Fragen der Forscher zu bearbeiten, relevante Dokumente abzurufen und Antworten zu generieren. Für latenzempfindliche Anwendungen entwickelte das Team kleinere, schnellere Versionen der Encoder- und Satzkonvertermodelle.
Validierungstests zeigten, dass INDUS bei der Beantwortung eines NASA-Testsatzes von rund 400 Fragen relevante Passagen aus der wissenschaftlichen Literatur abrufen konnte. Zum Gesamtansatz sagte IBM-Forscher Bishwaranjan Bhattacharjee: „Wir haben eine überlegene Leistung erzielt, indem wir nicht nur über ein benutzerdefiniertes Vokabular, sondern auch über eine große Anzahl speziell trainierter Encoder-Modelle und eine gute Trainingsstrategie verfügten. Für die kleinere, schnellere Version haben wir verwendet.“ Suche nach neuronaler Architektur, um Modellarchitektur zu erhalten und eine bessere Modellüberwachung zur Wissensdestillation für das Training zu nutzen.
Höhepunkte:
- Die NASA arbeitet mit IBM zusammen, um das groß angelegte Sprachmodell INDUS zu entwickeln, das für Bereiche wie Geowissenschaften, biologische und physikalische Wissenschaften, Heliophysik, Planetenwissenschaften und Astrophysik geeignet ist.
- INDUS enthält zwei Arten von Modellen, Encoder und Satzkonverter, die mit einem benutzerdefinierten Tokenizer und einem 6-Milliarden-Token-Korpus trainiert und auf etwa 268 Millionen Textpaare verfeinert wurden.
- INDUS erreicht eine bessere Leistung als offene, nicht domänenspezifische LLMs durch domänenspezifisches Vokabular und hat verschiedene Sprachaufgaben und Retrieval-Erweiterungen entwickelt, um Fragen von Forschern zu bearbeiten, relevante Dokumente abzurufen und Antworten zu generieren.
Kurz gesagt, das groß angelegte INDUS-Sprachmodell stellt ein leistungsstarkes neues Werkzeug für die wissenschaftliche Forschung dar, und seine hervorragende Leistung in bestimmten wissenschaftlichen Bereichen weist auf seine breiten Anwendungsaussichten in der zukünftigen wissenschaftlichen Forschung hin. Die Zusammenarbeit zwischen NASA und IBM setzt auch einen Maßstab für die zukünftige Anwendung großer Sprachmodelle im wissenschaftlichen Bereich.