NASA bermitra dengan IBM, menggunakan perjanjian Space Act, untuk bersama-sama mengembangkan model bahasa besar (LLM) yang disebut INDUS. Model ini dirancang untuk melayani berbagai bidang ilmiah termasuk ilmu bumi, ilmu biologi, ilmu fisika, heliofisika, ilmu planet, dan astrofisika, dan dilatih menggunakan literatur ilmiah yang dikurasi dari beragam sumber data. INDUS unik dalam penggunaan tokenizer khusus dan perpustakaan besar kosakata khusus domain, memberikannya kemampuan luar biasa dalam memproses literatur ilmiah dan menjawab pertanyaan ilmiah.
Tim Implementasi Antarlembaga dan Konsep Lanjutan (IMPACT) NASA, melalui perjanjian Space Act dengan mitra swasta non-federal, sedang mengembangkan INDUS, seperangkat alat untuk ilmu kebumian, ilmu biologi dan fisika, heliofisika, ilmu keplanetan, dan model bahasa besar ( LLM) di bidang seperti astrofisika dan dilatih menggunakan literatur ilmiah yang dikurasi dari beragam sumber data.

INDUS berisi dua jenis model: encoder dan konverter kalimat. Encoder mengubah teks bahasa alami menjadi pengkodean numerik yang dapat diproses oleh LLM. Encoder INDUS dilatih pada 6 miliar token corpus yang berisi data dari astrofisika, ilmu planet, ilmu bumi, heliofisika, ilmu biologi, dan ilmu fisika. Tokenizer khusus yang dikembangkan oleh kolaborasi IMPACT-IBM meningkatkan tokenizer umum dengan mengidentifikasi istilah ilmiah seperti biomarker dan fosforilasi. Lebih dari setengah dari 50.000 kata di INDUS bersifat unik untuk bidang ilmiah spesifik tempat ia dilatih. Model encoder INDUS digunakan untuk menyempurnakan sekitar 268 juta pasangan teks, termasuk judul/ringkasan dan pertanyaan/jawaban.
Dengan memberikan INDUS kosakata khusus domain, tim IMPACT-IBM mencapai kinerja yang lebih baik daripada LLM terbuka dan non-domain spesifik pada tolok ukur tugas biomedis, tolok ukur menjawab pertanyaan sains, dan tes pengenalan entitas ilmu bumi. Dengan merancang beragam tugas bahasa dan generasi pengambilan yang ditingkatkan, INDUS mampu menangani pertanyaan peneliti, mengambil dokumen yang relevan, dan menghasilkan jawaban. Untuk aplikasi yang sensitif terhadap latensi, tim mengembangkan versi model encoder dan konverter kalimat yang lebih kecil dan lebih cepat.
Uji validasi menunjukkan bahwa INDUS mampu mengambil bagian yang relevan dari literatur ilmiah ketika menjawab rangkaian tes NASA yang berjumlah sekitar 400 pertanyaan. Mengomentari pendekatan keseluruhan, peneliti IBM Bishwaranjan Bhattacharjee mengatakan, "Kami mencapai kinerja yang unggul tidak hanya dengan memiliki kosakata khusus, namun juga sejumlah besar model encoder terlatih khusus dan strategi pelatihan yang baik. Untuk versi yang lebih kecil dan lebih cepat, kami menggunakan Pencarian arsitektur saraf untuk mendapatkan arsitektur model dan menggunakan pengawasan model yang lebih besar untuk penyulingan pengetahuan untuk pelatihan ”.
Highlight:
- NASA bekerja sama dengan IBM untuk mengembangkan model bahasa skala besar INDUS, yang cocok untuk bidang-bidang seperti ilmu bumi, ilmu biologi dan fisika, heliofisika, ilmu planet, dan astrofisika.
- INDUS berisi dua jenis model, pembuat enkode dan pengonversi kalimat, dilatih menggunakan tokenizer khusus dan korpus token 6 miliar, dan disesuaikan pada sekitar 268 juta pasangan teks.
- INDUS mencapai kinerja yang lebih baik daripada LLM terbuka dan non-domain spesifik melalui kosakata khusus domain dan merancang beragam tugas bahasa serta peningkatan pengambilan untuk menangani pertanyaan peneliti, mengambil dokumen yang relevan, dan menghasilkan jawaban.
Singkatnya, model bahasa skala besar INDUS menyediakan alat baru yang ampuh untuk penelitian ilmiah, dan kinerjanya yang luar biasa dalam bidang ilmiah tertentu menunjukkan prospek penerapannya yang luas dalam penelitian ilmiah di masa depan. Kerja sama antara NASA dan IBM juga menjadi tolok ukur bagi penerapan model bahasa besar di bidang ilmiah di masa depan.