Situs web resmi www.binance.com/zh-cn :Masukkan situs web resmi ☜☜
Aplikasi: ☞☞ Unduh Aplikasi Resmi☜☜
Baru -baru ini, tim Ling dari Ant Group merilis makalah teknis yang menarik tentang platform pracetak Arxiv, berjudul "Every Flop Is Garre: Menskalakan 300 miliar parameter ahli hibrida Model Ling tanpa GPU canggih." Makalah ini merinci dua model bahasa besar baru yang mereka kembangkan: ling-lite dan ling-plus. Kedua model ini dirancang dengan beberapa teknologi inovatif yang dapat dilatih secara efisien pada perangkat keras berkinerja rendah, secara signifikan mengurangi biaya.
Skala parameter edisi ringan jaminan adalah 16,8 miliar, di mana parameter aktivasi adalah 2,75 miliar. Model Dock Enhanced memiliki parameter hingga 290 miliar dan 28,8 miliar parameter aktivasi. Kinerja kedua model mencapai tingkat industri terkemuka, terutama versi yang ditingkatkan. Model MOE parameter 300 miliarnya berkinerja sebanding dengan model chip NVIDIA kelas atas ketika dilatih pada perangkat berkinerja rendah menggunakan GPU domestik.

Biasanya, pelatihan model MOE membutuhkan ketergantungan pada GPU berkinerja tinggi yang mahal, seperti H100 dan H800 NVIDIA, yang tidak hanya mahal, tetapi juga dibatasi oleh kekurangan chip, yang mempengaruhi penerapannya di lingkungan terbatas sumber daya. Untuk tujuan ini, Tim Ling Grup Semut mengusulkan tujuan baru - "tidak menggunakan GPU canggih" untuk memperluas model, menerobos keterbatasan sumber daya dan anggaran. Strategi pelatihan inovatif mereka meliputi alokasi parameter dinamis, penjadwalan presisi campuran, dan mekanisme penanganan pengecualian pelatihan yang ditingkatkan. Strategi -strategi ini secara efektif mempersingkat waktu respons interupsi, mengoptimalkan proses evaluasi model, dan mengompres siklus validasi lebih dari 50%.
Selama percobaan, tim Ling melakukan pra-pelatihan Ling-plus pada 9 triliun token. Hasilnya menunjukkan bahwa biaya pelatihan token 1 triliun menggunakan konfigurasi perangkat keras berkinerja tinggi adalah sekitar 6,35 juta yuan, sementara setelah menggunakan metode optimasi ANT, biaya pelatihan perangkat keras spesifikasi rendah telah dikurangi menjadi sekitar 5,08 juta yuan, menghemat hampir 20%. Pada saat yang sama, kinerjanya sebanding dengan Alibaba tongyi qwen2.5-72b-instruct dan Deepseek-V2.5-1210-CHAT.
Jika pencapaian teknologi ini dapat banyak digunakan, ia akan memberikan solusi yang lebih hemat biaya untuk model besar domestik, mengurangi ketergantungan pada chip NVIDIA, dan membuka jalur baru untuk pengembangan kecerdasan buatan di masa depan.