NASA ร่วมมือกับ IBM โดยใช้ข้อตกลง Space Act เพื่อร่วมกันพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่เรียกว่า INDUS แบบจำลองนี้ได้รับการออกแบบเพื่อรองรับสาขาวิทยาศาสตร์หลายแห่ง รวมถึงวิทยาศาสตร์โลก วิทยาศาสตร์ชีวภาพ วิทยาศาสตร์กายภาพ เฮลิโอฟิสิกส์ วิทยาศาสตร์เกี่ยวกับดาวเคราะห์ และฟิสิกส์ดาราศาสตร์ และได้รับการฝึกอบรมโดยใช้วรรณกรรมทางวิทยาศาสตร์ที่ได้รับการดูแลจัดการจากแหล่งข้อมูลที่หลากหลาย INDUS มีเอกลักษณ์เฉพาะตัวในการใช้โทเค็นไนเซอร์แบบกำหนดเองและคลังคำศัพท์เฉพาะโดเมนขนาดใหญ่ ทำให้มีขีดความสามารถที่โดดเด่นในการประมวลผลวรรณกรรมทางวิทยาศาสตร์และการตอบคำถามทางวิทยาศาสตร์
ทีมการดำเนินงานระหว่างหน่วยงานและแนวคิดขั้นสูงของ NASA (IMPACT) กำลังพัฒนา INDUS ซึ่งเป็นชุดเครื่องมือสำหรับวิทยาศาสตร์โลก วิทยาศาสตร์ชีวภาพและกายภาพ เฮลิโอฟิสิกส์ วิทยาศาสตร์ดาวเคราะห์ และแบบจำลองภาษาขนาดใหญ่ผ่านข้อตกลง Space Act กับพันธมิตรเอกชนที่ไม่ใช่ของรัฐบาลกลาง (IMPACT) ของ NASA LLMs) ในสาขาต่างๆ เช่น ฟิสิกส์ดาราศาสตร์ และได้รับการฝึกอบรมโดยใช้วรรณกรรมทางวิทยาศาสตร์ที่คัดสรรมาจากแหล่งข้อมูลที่หลากหลาย

INDUS มีโมเดลสองประเภท: ตัวเข้ารหัสและตัวแปลงประโยค ตัวเข้ารหัสจะแปลงข้อความภาษาธรรมชาติเป็นการเข้ารหัสตัวเลขที่ LLM สามารถประมวลผลได้ เครื่องเข้ารหัส INDUS ได้รับการฝึกฝนบนคลังโทเค็นจำนวน 6 พันล้านคลังซึ่งประกอบด้วยข้อมูลจากฟิสิกส์ดาราศาสตร์ วิทยาศาสตร์ดาวเคราะห์ วิทยาศาสตร์โลก ฮีลิโอฟิสิกส์ วิทยาศาสตร์ชีวภาพ และวิทยาศาสตร์กายภาพ โทเค็นไนเซอร์แบบกำหนดเองที่พัฒนาโดยความร่วมมือของ IMPACT-IBM ปรับปรุงโทเคนไนเซอร์ทั่วไปโดยการระบุคำศัพท์ทางวิทยาศาสตร์ เช่น ตัวบ่งชี้ทางชีวภาพและฟอสโฟรีเลชั่น มากกว่าครึ่งหนึ่งของคำศัพท์ 50,000 คำใน INDUS เป็นคำเฉพาะสำหรับสาขาวิทยาศาสตร์เฉพาะที่ได้รับการฝึกฝน โมเดลตัวเข้ารหัส INDUS ใช้เพื่อปรับแต่งคู่ข้อความประมาณ 268 ล้านคู่ ซึ่งรวมถึงชื่อเรื่อง/บทสรุป และคำถาม/คำตอบ
ด้วยการจัดเตรียมคำศัพท์เฉพาะโดเมนให้กับ INDUS ทีมงาน IMPACT-IBM จึงได้รับประสิทธิภาพที่ดีกว่า LLM แบบเปิดที่ไม่เฉพาะโดเมนในเกณฑ์มาตรฐานงานด้านชีวการแพทย์ เกณฑ์มาตรฐานการตอบคำถามทางวิทยาศาสตร์ และการทดสอบการจดจำเอนทิตีวิทยาศาสตร์โลก ด้วยการออกแบบงานด้านภาษาที่หลากหลายและรุ่นที่ปรับปรุงการสืบค้น INDUS จึงสามารถจัดการกับคำถามของนักวิจัย ดึงเอกสารที่เกี่ยวข้อง และสร้างคำตอบได้ สำหรับแอปพลิเคชันที่ไวต่อความหน่วง ทีมงานได้พัฒนาโมเดลตัวเข้ารหัสและตัวแปลงประโยคในเวอร์ชันที่เล็กลงและเร็วขึ้น
การทดสอบเพื่อการตรวจสอบแสดงให้เห็นว่า INDUS สามารถดึงข้อความที่เกี่ยวข้องจากวรรณกรรมทางวิทยาศาสตร์ได้ เมื่อตอบคำถามชุดทดสอบประมาณ 400 ข้อของ NASA Bishwaranjan Bhattacharjee นักวิจัยของ IBM แสดงความคิดเห็นเกี่ยวกับแนวทางโดยรวมว่า "เราได้รับประสิทธิภาพที่เหนือกว่าโดยไม่เพียงแต่มีคำศัพท์ที่กำหนดเองเท่านั้น แต่ยังมีโมเดลตัวเข้ารหัสที่ได้รับการฝึกอบรมเฉพาะทางจำนวนมากและกลยุทธ์การฝึกอบรมที่ดี สำหรับเวอร์ชันที่เล็กกว่าและเร็วกว่านั้น เราใช้ ค้นหาสถาปัตยกรรมประสาทเพื่อรับสถาปัตยกรรมแบบจำลองและใช้การควบคุมแบบจำลองที่มากขึ้นเพื่อการกลั่นกรองความรู้เพื่อการฝึกอบรม”
ไฮไลท์:
- NASA ร่วมมือกับ IBM เพื่อพัฒนาแบบจำลองภาษาขนาดใหญ่ของ INDUS ซึ่งเหมาะสำหรับสาขาต่างๆ เช่น วิทยาศาสตร์โลก วิทยาศาสตร์ชีวภาพและกายภาพ เฮลิโอฟิสิกส์ วิทยาศาสตร์ดาวเคราะห์ และฟิสิกส์ดาราศาสตร์
- INDUS มีโมเดลสองประเภท ได้แก่ ตัวเข้ารหัสและตัวแปลงประโยค ซึ่งได้รับการฝึกฝนโดยใช้โทเค็นไนเซอร์ที่กำหนดเองและคลังข้อมูลโทเค็น 6 พันล้าน และปรับแต่งคู่ข้อความประมาณ 268 ล้านคู่
- INDUS บรรลุผลการดำเนินงานที่ดีกว่า LLM แบบเปิดและไม่เฉพาะเจาะจงโดเมน ผ่านคำศัพท์เฉพาะโดเมน และออกแบบงานภาษาที่หลากหลายและการปรับปรุงการดึงข้อมูลเพื่อจัดการกับคำถามของนักวิจัย ดึงเอกสารที่เกี่ยวข้อง และสร้างคำตอบ
กล่าวโดยสรุป แบบจำลองภาษาขนาดใหญ่ของ INDUS มอบเครื่องมือใหม่ที่ทรงพลังสำหรับการวิจัยทางวิทยาศาสตร์ และประสิทธิภาพที่ยอดเยี่ยมในสาขาวิทยาศาสตร์เฉพาะ บ่งชี้ถึงแนวโน้มการใช้งานในวงกว้างในการวิจัยทางวิทยาศาสตร์ในอนาคต ความร่วมมือระหว่าง NASA และ IBM ยังกำหนดเกณฑ์มาตรฐานสำหรับการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่ในสาขาวิทยาศาสตร์ในอนาคต