NASA は、宇宙法協定を利用して IBM と提携し、INDUS と呼ばれる大規模言語モデル (LLM) を共同開発しました。このモデルは、地球科学、生物科学、物理科学、太陽物理学、惑星科学、天体物理学などの複数の科学分野に対応できるように設計されており、さまざまなデータ ソースから厳選された科学文献を使用してトレーニングされています。 INDUS は、カスタム トークナイザーとドメイン固有の語彙の大規模なライブラリを使用する点で独特であり、科学文献を処理し、科学的な質問に答える際に優れた機能を提供します。
NASA の機関間実装および先進概念チーム (IMPACT) は、民間の非連邦パートナーとの宇宙法協定を通じて、地球科学、生物科学、物理科学、太陽物理学、惑星科学、および大規模言語モデルのための一連のツールである INDUS を開発しています ( LLM) は、天体物理学などの分野で学び、さまざまなデータ ソースから厳選された科学文献を使用してトレーニングを受けました。

INDUS には、エンコーダーとセンテンス コンバーターという 2 種類のモデルが含まれています。エンコーダーは、自然言語テキストを、LLM で処理できる数値エンコーディングに変換します。 INDUS エンコーダーは、天体物理学、惑星科学、地球科学、太陽物理学、生物科学、物理科学のデータを含む 60 億のトークン コーパスでトレーニングされました。 IMPACT と IBM のコラボレーションによって開発されたカスタム トークナイザーは、バイオマーカーやリン酸化などの科学用語を識別することにより、一般的なトークナイザーを改良しています。 INDUS の 50,000 語のうち半分以上は、訓練される特定の科学分野に固有のものです。 INDUS エンコーダ モデルは、タイトル/概要、質問/回答を含む約 2 億 6,800 万のテキスト ペアを微調整するために使用されました。
IMPACT-IBM チームは、INDUS にドメイン固有の語彙を提供することで、生物医学タスクのベンチマーク、科学の質問応答ベンチマーク、および地球科学エンティティ認識テストにおいて、オープンな非ドメイン固有の LLM よりも優れたパフォーマンスを達成しました。多様な言語タスクと検索強化生成を設計することにより、INDUS は研究者の質問を処理し、関連する文書を検索し、回答を生成することができます。レイテンシーに敏感なアプリケーション向けに、チームはエンコーダーとセンテンスコンバーターモデルのより小型で高速なバージョンを開発しました。
検証テストでは、INDUS が約 400 の質問からなる NASA のテスト セットに回答する際に、科学文献から関連する文章を検索できることが示されました。 IBM 研究者の Bishwaranjan Bhattacharjee 氏は、全体的なアプローチについてコメントし、「カスタム語彙だけでなく、多数の特殊なトレーニング済みエンコーダー モデルと適切なトレーニング戦略によって、優れたパフォーマンスを実現しました。より小型で高速なバージョンについては、次のものを使用しました。」ニューラル アーキテクチャを検索してモデル アーキテクチャを取得し、トレーニングのための知識を抽出するためのより優れたモデル監視を使用します。
ハイライト:
- NASA は IBM と協力して、地球科学、生物科学、物理科学、太陽物理学、惑星科学、天体物理学などの分野に適した INDUS 大規模言語モデルを開発しています。
- INDUS には、エンコーダーと文コンバーターという 2 種類のモデルが含まれており、カスタム トークナイザーと 60 億のトークン コーパスを使用してトレーニングされ、約 2 億 6,800 万のテキスト ペアで微調整されています。
- INDUS は、ドメイン固有の語彙と、研究者の質問の処理、関連文書の検索、および回答の生成のための多様な言語タスクと検索の拡張機能を設計することにより、オープンな非ドメイン固有 LLM よりも優れたパフォーマンスを実現します。
つまり、INDUS 大規模言語モデルは科学研究のための強力な新しいツールを提供し、特定の科学分野におけるその優れたパフォーマンスは、将来の科学研究における幅広い応用の見通しを示しています。 NASA と IBM の協力は、科学分野における大規模言語モデルの将来の応用に対するベンチマークも設定します。