НАСА заключило партнерское соглашение с IBM, используя соглашение о Космическом законе, для совместной разработки модели большого языка (LLM) под названием INDUS. Модель предназначена для обслуживания нескольких научных областей, включая науки о Земле, биологические науки, физические науки, гелиофизику, планетарные науки и астрофизику, и обучается с использованием тщательно подобранной научной литературы из различных источников данных. INDUS уникален тем, что использует собственные токенизаторы и большую библиотеку предметных словарей, что дает ему выдающиеся возможности в обработке научной литературы и ответе на научные вопросы.
Межведомственная группа НАСА по внедрению и передовым концепциям (IMPACT) в рамках соглашений с Законом о космосе с частными нефедеральными партнерами разрабатывает INDUS, набор инструментов для наук о Земле, биологических и физических наук, гелиофизики, планетарных наук и моделей большого языка ( LLM) в таких областях, как астрофизика, и прошли обучение с использованием тщательно подобранной научной литературы из различных источников данных.

INDUS содержит два типа моделей: кодировщики и преобразователи предложений. Кодировщики преобразуют текст на естественном языке в числовые кодировки, которые могут быть обработаны LLM. Кодер INDUS был обучен на корпусе из 6 миллиардов токенов, содержащем данные из астрофизики, планетарных наук, наук о Земле, гелиофизики, биологических наук и физических наук. Специальный токенизатор, разработанный в рамках сотрудничества IMPACT-IBM, совершенствует обычный токенизатор, определяя такие научные термины, как биомаркеры и фосфорилирование. Более половины из 50 000 слов в INDUS уникальны и относятся к конкретным научным областям, в которых он обучается. Модель кодировщика INDUS использовалась для точной настройки примерно 268 миллионов текстовых пар, включая заголовок/резюме и вопрос/ответ.
Предоставив INDUS предметно-ориентированный словарь, команда IMPACT-IBM добилась более высоких результатов, чем открытый, не предметно-специфичный LLM, в тестах биомедицинских задач, тестах на ответы на научные вопросы и тестах на распознавание объектов наук о Земле. Разрабатывая разнообразные языковые задачи и генерируя расширенные возможности поиска, INDUS может отвечать на вопросы исследователей, извлекать соответствующие документы и генерировать ответы. Для приложений, чувствительных к задержкам, команда разработала меньшие по размеру и более быстрые версии моделей кодировщика и преобразователя предложений.
Проверочные тесты показали, что INDUS смог извлечь соответствующие отрывки из научной литературы, ответив на тестовый набор НАСА, состоящий примерно из 400 вопросов. Комментируя общий подход, исследователь IBM Бишваранджан Бхаттачарджи сказал: «Мы добились превосходной производительности не только благодаря настраиваемому словарю, но и большому количеству специализированных обученных моделей кодировщиков и хорошей стратегии обучения. Для меньшей и более быстрой версии мы использовали Поиск нейронной архитектуры для получения архитектуры модели и более тщательного контроля модели для сбора знаний для обучения».
Основные моменты:
- НАСА сотрудничает с IBM для разработки крупномасштабной языковой модели INDUS, которая подходит для таких областей, как науки о Земле, биологические и физические науки, гелиофизика, планетология и астрофизика.
- INDUS содержит два типа моделей: кодировщик и преобразователь предложений, обученных с использованием специального токенизатора и корпуса из 6 миллиардов токенов и точно настроенных примерно на 268 миллионах текстовых пар.
- INDUS достигает более высокой производительности, чем открытые, не зависящие от предметной области программы LLM, за счет словарного запаса, специфичного для предметной области, а также разработки разнообразных языковых задач и улучшений поиска для обработки вопросов исследователей, поиска соответствующих документов и генерации ответов.
Короче говоря, крупномасштабная языковая модель INDUS представляет собой новый мощный инструмент для научных исследований, а ее отличные характеристики в конкретных научных областях указывают на ее широкие перспективы применения в будущих научных исследованиях. Сотрудничество между НАСА и IBM также устанавливает ориентир для будущего применения больших языковых моделей в научной сфере.