NASA는 Space Act 계약을 통해 IBM과 제휴하여 INDUS라는 LLM(대형 언어 모델)을 공동 개발했습니다. 이 모델은 지구과학, 생물과학, 물리과학, 태양물리학, 행성과학, 천체물리학을 포함한 여러 과학 분야에 서비스를 제공하도록 설계되었으며 다양한 데이터 소스에서 선별된 과학 문헌을 사용하여 훈련되었습니다. INDUS는 맞춤형 토크나이저와 도메인별 어휘의 대규모 라이브러리를 사용한다는 점에서 독특하며, 과학 문헌을 처리하고 과학적 질문에 답하는 데 뛰어난 기능을 제공합니다.
NASA의 기관 간 구현 및 고급 개념 팀(IMPACT)은 민간, 비연방 파트너와의 우주법 계약을 통해 지구 과학, 생물 및 물리 과학, 태양 물리학, 행성 과학 및 대규모 언어 모델을 위한 도구 모음인 INDUS를 개발하고 있습니다( LLM)은 천체 물리학과 같은 분야에서 활동하며 다양한 데이터 소스에서 선별된 과학 문헌을 사용하여 교육을 받았습니다.

INDUS에는 인코더와 문장 변환기라는 두 가지 유형의 모델이 포함되어 있습니다. 인코더는 자연어 텍스트를 LLM에서 처리할 수 있는 숫자 인코딩으로 변환합니다. INDUS 인코더는 천체 물리학, 행성 과학, 지구 과학, 태양 물리학, 생물 과학 및 물리 과학의 데이터가 포함된 60억 개의 토큰 코퍼스에 대해 훈련되었습니다. IMPACT-IBM 공동 작업으로 개발된 맞춤형 토크나이저는 바이오마커 및 인산화와 같은 과학 용어를 식별하여 일반 토크나이저를 개선합니다. INDUS의 50,000개 단어 중 절반 이상이 훈련된 특정 과학 분야에 고유한 단어입니다. INDUS 인코더 모델은 제목/요약 및 질문/답변을 포함하여 약 2억 6,800만 개의 텍스트 쌍을 미세 조정하는 데 사용되었습니다.
INDUS에 도메인별 어휘를 제공함으로써 IMPACT-IBM 팀은 생물 의학 작업 벤치마크, 과학 질문 응답 벤치마크 및 지구과학 개체 인식 테스트에서 개방형, 도메인별 LLM보다 더 나은 성능을 달성했습니다. 다양한 언어 작업과 검색 강화 생성을 설계함으로써 INDUS는 연구자의 질문을 처리하고, 관련 문서를 검색하고, 답변을 생성할 수 있습니다. 지연 시간에 민감한 애플리케이션을 위해 팀에서는 더 작고 빠른 버전의 인코더 및 문장 변환기 모델을 개발했습니다.
검증 테스트를 통해 INDUS는 약 400개의 질문으로 구성된 NASA 테스트 세트에 답할 때 과학 문헌에서 관련 구절을 검색할 수 있는 것으로 나타났습니다. 전반적인 접근 방식에 대해 IBM 연구원 Bishwaranjan Bhattacharjee는 "우리는 맞춤형 어휘뿐 아니라 전문적으로 훈련된 다수의 인코더 모델과 우수한 훈련 전략을 통해 우수한 성능을 달성했습니다. 더 작고 빠른 버전의 경우 모델 아키텍처를 얻고 훈련을 위한 지식 증류를 위해 더 나은 모델 감독을 사용하기 위한 신경 아키텍처 검색입니다.
하이라이트:
- NASA는 IBM과 협력하여 지구과학, 생물물리과학, 태양물리학, 행성과학, 천체물리학 등 분야에 적합한 INDUS 대규모 언어 모델을 개발합니다.
- INDUS에는 인코더와 문장 변환기라는 두 가지 유형의 모델이 포함되어 있으며, 맞춤형 토크나이저와 60억 개의 토큰 코퍼스를 사용하여 훈련되고 약 2억 6,800만 개의 텍스트 쌍에 대해 미세 조정되었습니다.
- INDUS는 도메인별 어휘를 통해 개방형, 비도메인별 LLM보다 더 나은 성능을 달성하고 연구자의 질문을 처리하고 관련 문서를 검색하고 답변을 생성하기 위한 다양한 언어 작업 및 검색 향상 기능을 설계했습니다.
간단히 말해서, INDUS 대규모 언어 모델은 과학 연구를 위한 강력하고 새로운 도구를 제공하며 특정 과학 분야에서의 뛰어난 성능은 미래 과학 연구에서 광범위한 응용 가능성을 나타냅니다. NASA와 IBM 간의 협력은 또한 과학 분야에서 향후 대규모 언어 모델 적용을 위한 벤치마크를 설정합니다.