NASA 與IBM 合作,利用太空法案協議,共同開發了一個名為INDUS 的大型語言模型(LLM)。該模型旨在服務地球科學、生物科學、物理科學、日球物理學、行星科學和天文物理學等多個科學領域,並利用多樣化資料來源的策劃科學文獻進行訓練。 INDUS 的獨特之處在於其採用了自訂分詞器和龐大的領域特定詞彙庫,使其在處理科學文獻和回答科學問題方面展現出卓越的能力。
NASA 的跨機構實施和先進概念團隊(IMPACT)透過與私營、非聯邦合作夥伴簽署太空法案協議,共同開發INDUS,這是一套面向地球科學、生物和物理科學、日球物理學、行星科學以及天文物理學等領域的大型語言模型(LLM),並使用來自多樣化資料來源的策劃科學文獻進行訓練。

INDUS 包含兩種類型的模型:編碼器和句子轉換器。編碼器將自然語言文字轉換為數位編碼,可以由LLM 處理。 INDUS 編碼器在包含天文物理學、行星科學、地球科學、日球物理學、生物科學和物理科學數據的60億令牌語料庫上進行了訓練。 IMPACT-IBM 合作團隊開發的自訂分詞器透過識別生物標記和磷酸化等科學術語,改進了通用分詞器。 INDUS 中超過一半的5萬個詞彙是針對其訓練所使用的特定科學領域而獨有的。 INDUS 編碼器模型被用於對約2.68億個文本對進行微調,其中包括標題/ 摘要和問題/ 答案。
透過為INDUS 提供領域特定的詞彙,IMPACT-IBM 團隊在生物醫學任務基準測試、科學問答基準測試和地球科學實體識別測試上,實現了比開放、非領域特定LLM 更出色的表現。透過設計多樣化的語言任務和檢索增強生成,INDUS 能夠處理研究人員的問題、檢索相關文件並產生答案。對於延遲敏感的應用,該團隊開發了更小、更快的編碼器和句子轉換器模型版本。
驗證測試表明,INDUS 在回答NASA 約400個問題的測試集時,能夠從科學文獻中檢索出相關段落。 IBM 研究員Bishwaranjan Bhattacharjee 評論了整體方法,「我們透過不僅擁有自訂詞彙,還擁有大量專門的訓練編碼器模型和良好的訓練策略來實現了卓越的表現。對於更小、更快的版本,我們使用神經架構搜尋來獲取模型架構,並使用更大的模型監督進行知識蒸餾進行訓練。
劃重點:
- NASA 與IBM 合作開發INDUS 大型語言模型,適用於地球科學、生物和物理科學、日球物理學、行星科學和天文物理學等領域。
- INDUS 包含編碼器和句子轉換器兩種類型的模型,使用自訂分詞器和60億令牌語料庫進行訓練,並在約2.68億個文字對上進行微調。
- INDUS 透過領域特定的詞彙和設計多樣化的語言任務和檢索增強生成,實現了比開放、非領域特定LLM 更出色的表現,能夠處理研究人員的問題、檢索相關文件並生成答案。
總之,INDUS 大型語言模型為科學研究提供了一種強大的新工具,其在特定科學領域的出色表現,預示著其在未來科學研究中的廣泛應用前景。 NASA 和IBM 的合作也為未來大型語言模式在科學領域的應用樹立了標竿。