บทความนี้รายงานเกี่ยวกับรายงานความคืบหน้าของสถาบันวิจัย Zhiyuan ปี 2024 ที่เผยแพร่โดย Wang Zhongyuan ผู้อำนวยการสถาบันวิจัย Zhiyuan ในงานประชุม Beijing Zhiyuan ครั้งที่ 6 โดยเน้นไปที่ถังตระกูลโมเดลขนาดใหญ่ Zhiyuan รายงานดังกล่าวแสดงผลการวิจัยล่าสุดของสถาบันวิจัยแหล่งอัจฉริยะในสาขาภาษา ความหลากหลาย รูปแบบ และแบบจำลองขนาดใหญ่ของการคำนวณทางชีววิทยา ตลอดจนการอัพเกรดและเค้าโครงของฐานเทคโนโลยีโอเพ่นซอร์ส บรรณาธิการของ Downcodes จะตีความเนื้อหาของรายงานโดยละเอียด โดยเฉพาะองค์ประกอบของกลุ่มโมเดลขนาดใหญ่ Zhiyuan และเทคโนโลยีหลัก

เมื่อวันที่ 14 มิถุนายน "การประชุมภูมิปัญญาปักกิ่ง" ครั้งที่ 6 ซึ่งจัดโดยสถาบันวิจัยภูมิปัญญาได้จัดขึ้นที่ศูนย์นิทรรศการจงกวนชุน ในระหว่างการประชุมครั้งนี้ Wang Zhongyuan ประธานสถาบันวิจัย Zhiyuan ได้ทำรายงานความคืบหน้าของสถาบันวิจัย Zhiyuan ในปี 2024 และมุ่งเน้นไปที่ถังตระกูลโมเดลขนาดใหญ่ Zhiyuan
ในรายงานความคืบหน้าของสถาบันวิจัย Zhiyuan ประจำปี 2024 นั้น สถาบันวิจัย Zhiyuan ได้แบ่งปันการสำรวจและความคืบหน้าการวิจัยที่ล้ำสมัยในด้านภาษา ความหลากหลายทางรูปแบบ รูปแบบ และแบบจำลองขนาดใหญ่ของการประมวลผลทางชีววิทยา ตลอดจนการอัปเกรดและพัฒนาซ้ำของแบบจำลองขนาดใหญ่แบบ full-stack แบบเปิด ฐานเทคโนโลยีต้นทาง จากข้อมูลของสถาบันวิจัย Zhiyuan การพัฒนาแบบจำลองภาษาขนาดใหญ่ในขั้นตอนนี้มีความสามารถด้านความเข้าใจหลักและการให้เหตุผลของปัญญาประดิษฐ์ทั่วไปอยู่แล้ว และได้สร้างเส้นทางทางเทคนิคที่ใช้แบบจำลองภาษาขนาดใหญ่เป็นแกนหลักในการจัดตำแหน่งและจัดทำแผนผังรูปแบบอื่น ๆ โมเดลนี้มีความเข้าใจเบื้องต้นและความสามารถในการสร้างหลายรูปแบบ แต่นี่ไม่ใช่เส้นทางทางเทคนิคขั้นสูงสุดสำหรับปัญญาประดิษฐ์ในการรับรู้และเข้าใจโลกทางกายภาพ แต่ควรใช้กระบวนทัศน์โมเดลแบบครบวงจรเพื่อรับรู้อินพุตและเอาต์พุตหลายรูปแบบ เพื่อให้โมเดลมีความสามารถในการขยายหลายรูปแบบดั้งเดิมและวิวัฒนาการ สู่โมเดลโลก
“ในอนาคต โมเดลขนาดใหญ่จะถูกรวมเข้ากับฮาร์ดแวร์อัจฉริยะในรูปแบบของตัวแทนดิจิทัล และจะเข้าสู่โลกทางกายภาพจากโลกดิจิทัลในรูปแบบของหน่วยสืบราชการลับที่รวบรวมไว้ ขณะเดียวกัน วิธีการทางเทคนิคของโมเดลขนาดใหญ่ก็สามารถให้ได้ กระบวนทัศน์การแสดงออกความรู้ใหม่สำหรับการวิจัยทางวิทยาศาสตร์ และเร่งการสำรวจและการวิจัยของมนุษยชาติเกี่ยวกับกฎของโลกไมโครกายภาพ กำลังเข้าใกล้เป้าหมายสูงสุดของปัญญาประดิษฐ์ทั่วไปอย่างต่อเนื่อง" หวัง จงหยวน กล่าว
ถังโมเดลขนาดใหญ่ของ Zhiyuan ถือเป็นไฮไลต์ในรายงานความคืบหน้าของสถาบันวิจัย Zhiyuan ปี 2024 นี้ นักข่าวได้เรียนรู้ในที่ประชุมว่ากลุ่มโมเดลขนาดใหญ่ตระกูล Zhiyuan ประกอบด้วยทิศทางการวิจัยโมเดลขนาดใหญ่ 4 ทิศทาง ได้แก่ ซีรีส์โมเดลภาษาขนาดใหญ่ ซีรีส์โมเดลขนาดใหญ่หลายรูปแบบ แบบจำลองขนาดใหญ่ที่รวบรวมหน่วยสืบราชการลับ และแบบจำลองขนาดใหญ่ของคอมพิวเตอร์ทางชีววิทยา โดยมีงานวิจัยทั้งหมด 12 ชิ้น ยกตัวอย่างซีรีส์โมเดลขนาดใหญ่ภาษา Zhiyuan ทิศทางนี้ประกอบด้วยการศึกษาโมเดลขนาดใหญ่ 2 โมเดล โมเดลภาษาคาร์บอนต่ำตัวเดียวหนาแน่นล้านล้านตัวแรกของโลก Tele-FLM-1T และโมเดลเวกเตอร์ภาษาทั่วไป BGE (BAAI General Embedding) .
"เพื่อตอบสนองต่อปัญหาการใช้พลังงานการประมวลผลสูงในการฝึกโมเดลขนาดใหญ่ สถาบันวิจัย Zhiyuan และสถาบันวิจัยปัญญาประดิษฐ์โทรคมนาคมของประเทศจีน (TeleAI) ร่วมกันพัฒนาและเปิดตัวโมโนเมอร์ความหนาแน่นคาร์บอนต่ำตัวแรกของโลกที่ใช้เทคโนโลยีหลัก ๆ เช่น การเติบโตของโมเดล และการทำนายการสูญเสีย รุ่นภาษา Tele-FLM-1T รุ่นนี้ร่วมกับรุ่น 52B ระดับ 100 พันล้าน และรุ่น 100 พันล้านระดับ 102B ถือเป็นรุ่นซีรีส์ Tele-FLM” ผู้รับผิดชอบ ธุรกิจที่เกี่ยวข้องของรุ่น Tele-FLM ซีรีส์กล่าวกับผู้สื่อข่าว มีรายงานว่าซีรีส์ Tele-FLM มีอัตราการเติบโตแบบคาร์บอนต่ำ เพียง 9% ของทรัพยากรพลังงานการประมวลผลของแผนการฝึกอบรมทั่วไปของอุตสาหกรรม ซึ่งใช้เซิร์ฟเวอร์ A800 จำนวน 112 เครื่อง จึงใช้เวลา 4 เดือนในการฝึกอบรม 3 รุ่นให้เสร็จสิ้น รวมเป็น 2.3Ttoken และประสบความสำเร็จในการฝึก Tele-FLM-1T โมเดลหนาแน่น 10,000 พันล้านเครื่อง "กระบวนการฝึกอบรมโมเดลทั้งหมดเป็นการปรับเป็นศูนย์และการลองใหม่เป็นศูนย์ พร้อมประสิทธิภาพการใช้พลังงานในการประมวลผลสูง และการบรรจบกันและความเสถียรของโมเดลที่ดี ปัจจุบัน โมเดลซีรีส์ TeleFLM มีโอเพ่นซอร์สเต็มรูปแบบในเวอร์ชัน 52B พร้อมด้วยเทคโนโลยีหลัก (เทคโนโลยีการเติบโต ไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุด การทำนาย) รายละเอียดการฝึกอบรม (เส้นโค้งการสูญเสีย ไฮเปอร์พารามิเตอร์ที่เหมาะสม อัตราส่วนข้อมูล และ G radNorm ฯลฯ) ล้วนเป็นโอเพ่นซอร์ส หวังว่าเทคโนโลยีโอเพ่นซอร์สจะมีประโยชน์ต่อชุมชนโมเดลขนาดใหญ่ เวอร์ชัน Tele-FLM-1T จะเป็นโอเพนซอร์สในเร็วๆ นี้ พารามิเตอร์เริ่มต้นที่ดีเยี่ยมสำหรับชุมชนในการฝึกโมเดลที่มีความหนาแน่นนับล้านล้าน และหลีกเลี่ยงความยากลำบากในการบรรจบกันในการฝึกโมเดลล้านล้านและปัญหาอื่น ๆ” ผู้รับผิดชอบกล่าว
ซีรีส์ BGE ของโมเดลเวกเตอร์ความหมายสากลที่พัฒนาโดยสถาบันวิจัย Zhiyuan นั้นใช้เทคโนโลยี RAG ที่ปรับปรุงการดึงข้อมูล ซึ่งสามารถจับคู่ความหมายระหว่างข้อมูลได้อย่างแม่นยำ และสนับสนุนการเรียกใช้ความรู้ภายนอกในแบบจำลองขนาดใหญ่ "ตั้งแต่เดือนสิงหาคม 2023 เป็นต้นมา ซีรีส์โมเดล BGE ได้รับการทำซ้ำสามครั้ง ซึ่งบรรลุประสิทธิภาพที่ดีที่สุดในอุตสาหกรรมในงานสามงาน ได้แก่ การดึงข้อมูลภาษาจีนและภาษาอังกฤษ การเรียกค้นหลายภาษา และการเรียกค้นแบบปรับปรุง ความสามารถที่ครอบคลุมของมันดีกว่า OpenAI อย่างมาก ซึ่งมีลักษณะคล้ายกัน โมเดลจาก Google, Microsoft, Cohere และสถาบันอื่นๆ พร้อมให้ดาวน์โหลดแล้ว โดยครองอันดับหนึ่งในโมเดล AI ในประเทศ และได้รับการบูรณาการโดยเฟรมเวิร์กการพัฒนา AI กระแสหลักระดับสากล เช่น HuggingFace, Langchain และ LlamaIndex รวมถึงผู้ให้บริการคลาวด์รายใหญ่ เช่น Tencent, Huawei, Alibaba, Byte, Microsoft และ Amazon และให้บริการ บริการเชิงพาณิชย์สู่โลกภายนอก บุคคลที่รับผิดชอบธุรกิจที่เกี่ยวข้องของซีรีส์ semantic vector model BGE กล่าวกับผู้สื่อข่าว
โดยรวมแล้ว Zhiyuan Research Institute มีความก้าวหน้าอย่างมากในการส่งเสริมการพัฒนาเทคโนโลยีโมเดลขนาดใหญ่ "กลุ่มโมเดลขนาดใหญ่" และกลยุทธ์โอเพ่นซอร์ส จะช่วยส่งเสริมนวัตกรรมและการพัฒนาในด้าน AI และสมควรได้รับความสนใจอย่างต่อเนื่อง บรรณาธิการของ Downcodes หวังว่าจะได้รับผลลัพธ์ที่ก้าวหน้ามากขึ้นในอนาคต