Artikel ini melaporkan laporan kemajuan Institut Penelitian Zhiyuan tahun 2024 yang dirilis oleh Wang Zhongyuan, direktur Institut Penelitian Zhiyuan, pada Konferensi Zhiyuan Beijing ke-6, dengan fokus pada keranjang keluarga model besar Zhiyuan. Laporan tersebut menunjukkan hasil penelitian terbaru dari Intelligent Source Research Institute di bidang bahasa, multi-modalitas, perwujudan, dan komputasi biologis model besar, serta peningkatan dan tata letak basis teknologi sumber terbukanya. Editor Downcodes akan menafsirkan isi laporan secara detail, terutama komposisi bucket keluarga model besar Zhiyuan dan teknologi intinya.

Pada tanggal 14 Juni, "Konferensi Kebijaksanaan Beijing" ke-6 yang diselenggarakan oleh Institut Penelitian Kebijaksanaan diadakan di Pusat Pameran Zhongguancun. Selama pertemuan ini, Wang Zhongyuan, Presiden Institut Penelitian Zhiyuan, membuat laporan kemajuan Institut Penelitian Zhiyuan pada tahun 2024, dan berfokus pada kelompok keluarga model besar Zhiyuan.
Dalam laporan kemajuan Zhiyuan Research Institute tahun 2024, Zhiyuan Research Institute membagikan kemajuan eksplorasi dan penelitian mutakhir dalam bahasa, multimodalitas, perwujudan, dan komputasi biologis model besar, serta peningkatan berulang dan pengembangan model besar full-stack open basis teknologi sumber. Menurut Zhiyuan Research Institute, pengembangan model bahasa besar pada tahap ini telah memiliki pemahaman inti dan kemampuan penalaran kecerdasan buatan umum, dan telah membentuk jalur teknis yang menggunakan model bahasa besar sebagai inti untuk menyelaraskan dan memetakan modalitas lainnya. . Model ini memiliki pemahaman multi-modal awal dan kemampuan pembangkitan. Namun hal ini bukanlah jalur teknis utama bagi kecerdasan buatan untuk memahami dan memahami dunia fisik. Sebaliknya, kecerdasan buatan harus mengadopsi paradigma model terpadu untuk mewujudkan input dan output multimodal, sehingga model tersebut memiliki kemampuan ekspansi multimodal asli dan berkembang. menjadi model dunia.
“Di masa depan, model besar akan diintegrasikan dengan perangkat keras cerdas dalam bentuk agen digital, dan akan memasuki dunia fisik dari dunia digital dalam bentuk kecerdasan yang diwujudkan. Pada saat yang sama, sarana teknis dari model besar dapat menyediakan paradigma ekspresi pengetahuan baru untuk penelitian ilmiah dan percepatan Eksplorasi umat manusia dan penelitian hukum dunia mikrofisika terus-menerus mendekati tujuan akhir dari kecerdasan buatan umum,” kata Wang Zhongyuan.
Bucket keluarga model besar Zhiyuan menjadi sorotan dalam laporan kemajuan Institut Penelitian Zhiyuan tahun 2024 ini. Reporter mengetahui pada pertemuan tersebut bahwa kelompok keluarga model besar Zhiyuan terdiri dari empat arah penelitian model besar: seri model bahasa besar, seri model besar multimodal, model besar kecerdasan yang diwujudkan, dan model besar komputasi biologis, dengan total 12 studi. Mengambil rangkaian model besar bahasa Zhiyuan sebagai contoh, arah ini mencakup dua studi model besar, model bahasa triliun padat benda tunggal rendah karbon pertama di dunia Tele-FLM-1T dan seri model vektor bahasa umum BGE (BAAI General Embedding) .
"Menanggapi masalah konsumsi daya komputasi yang tinggi dalam pelatihan model besar, Zhiyuan Research Institute dan China Telecom Artificial Intelligence Research Institute (TeleAI) bersama-sama mengembangkan dan meluncurkan triliun monomer padat rendah karbon pertama di dunia berdasarkan teknologi utama seperti pertumbuhan model dan prediksi kerugian. Model bahasa Tele-FLM-1T. Model ini, bersama dengan versi 52B tingkat 10 miliar dan versi 102B tingkat 100 miliar, merupakan model seri Tele-FLM,” penanggung jawabnya. bisnis yang relevan dari model seri Tele-FLM kepada wartawan. Dilaporkan bahwa model seri Tele-FLM telah mencapai pertumbuhan rendah karbon. Dengan hanya 9% sumber daya komputasi dari skema pelatihan biasa di industri, berdasarkan 112 server A800, diperlukan waktu 4 bulan untuk menyelesaikan pelatihan 3 model. berjumlah 2,3Ttokens, dan berhasil melatih 10.000 Miliar model padat Tele-FLM-1T. "Seluruh proses pelatihan model adalah tanpa penyesuaian dan tanpa percobaan ulang, dengan efisiensi daya komputasi yang tinggi serta konvergensi dan stabilitas model yang baik. Saat ini, model seri TeleFLM telah sepenuhnya bersumber terbuka dalam versi 52B, dengan teknologi inti (teknologi pertumbuhan, hyperparameter optimal prediksi), Detail pelatihan (kurva kerugian, hyperparameter optimal, rasio data, dan G radNorm, dll.) semuanya open source. Diharapkan teknologi open source dapat memberikan dampak yang menguntungkan bagi komunitas model besar. Versi Tele-FLM-1T akan segera menjadi open source parameter awal yang sangat baik bagi komunitas untuk melatih triliun model padat dan menghindari kesulitan konvergensi dalam pelatihan triliun model dan masalah lainnya,” kata penanggung jawab.
Rangkaian model vektor semantik universal BGE yang dikembangkan secara independen oleh Zhiyuan Research Institute didasarkan pada teknologi RAG yang ditingkatkan pengambilan, yang dapat mencapai pencocokan semantik yang tepat antara data dan mendukung pemanggilan pengetahuan eksternal dalam model besar. “Sejak Agustus 2023, seri model BGE telah mengalami tiga iterasi, mencapai kinerja terbaik di industri dalam tiga tugas pengambilan dalam bahasa Mandarin dan Inggris, pengambilan multi-bahasa, dan pengambilan yang disempurnakan. Kemampuan komprehensifnya jauh lebih baik daripada OpenAI, Serupa model dari Google, Microsoft, Cohere dan institusi lain saat ini tersedia untuk diunduh. Ini menempati peringkat pertama dalam model AI domestik dan telah diintegrasikan dengan kerangka pengembangan AI arus utama internasional seperti HuggingFace, Langchain, dan LlamaIndex, serta penyedia layanan cloud besar seperti Tencent, Huawei, Alibaba, Byte, Microsoft, dan Amazon, dan menyediakan layanan komersial ke dunia luar. Orang yang bertanggung jawab atas bisnis terkait model vektor semantik seri BGE mengatakan kepada wartawan.
Secara keseluruhan, Zhiyuan Research Institute telah membuat kemajuan signifikan dalam mendorong pengembangan teknologi model besar. "Kelompok keluarga model besar" dan strategi sumber terbukanya akan semakin mendorong inovasi dan pengembangan di bidang AI dan patut mendapat perhatian terus-menerus. Editor Downcodes menantikan hasil terobosan lainnya di masa depan.