Di bidang kecerdasan buatan, peluncuran Deepseek-R1 menandai terobosan besar dalam teknologi AI. Inovasi ini tidak hanya menunjukkan perkembangan yang cepat dari industri AI, tetapi juga membuka kemungkinan baru untuk aplikasi AI di masa depan melalui arsitektur Multi-Head Latent Attention (MLA) yang unik. Melalui teknologi kompresi peringkat rendah, arsitektur MLA secara signifikan mengurangi biaya pelatihan dan inferensi, menjadikannya hanya sepersepuluh dari model besar yang sama. Hasil ini diselesaikan bersama oleh Ji Tao, seorang rekan postdoctoral di Laboratorium NLP Universitas Fudan dan timnya. Tujuan mereka adalah untuk memungkinkan model bahasa besar yang telah dilatih secara sewenang-wenang untuk dengan cepat bermigrasi ke arsitektur MLA melalui kerangka kerja MHA2MLA tanpa perlu berlatih dari awal.
Saat ini, model besar utama umumnya didasarkan pada mekanisme perhatian multi-head standar (MHA) dan variannya, yang memiliki kelemahan yang signifikan dalam biaya inferensi dibandingkan dengan MLA. Untuk menyelesaikan masalah ini, tim peneliti mengusulkan kerangka kerja MHA2MLA, yang berhasil mencapai migrasi arsitektur MHA/GQA ke MLA melalui dua langkah utama-bagian dari retensi tali dan gabungan kunci untuk mewakili perkiraan peringkat rendah. Inovasi ini tidak hanya meningkatkan efisiensi model, tetapi juga memberikan lebih banyak kemungkinan untuk aplikasi AI di masa depan.

Selama implementasi MHA2MLA, tim pertama-tama memisahkan lokasi yang menyandikan dari dimensi besar melalui beberapa strategi penyempurnaan tali, mempertahankan sejumlah kecil dimensi yang terkait dengan lokasi, sehingga menyelesaikan konflik antara MLA dan tali. Selanjutnya, perkiraan peringkat rendah dari vektor nilai kunci dilakukan dengan teknik Dekomposisi Nilai Singular (SVD) untuk memaksimalkan pengetahuan pra-pelatihan sambil secara signifikan mengurangi ruang cache. Hasil eksperimen menunjukkan bahwa hanya penyesuaian yang diperlukan untuk menggunakan 0,3% hingga 0,6% dari data pretrained pada dasarnya mengembalikan kerugian kinerja selama migrasi. Prestasi ini tidak hanya menunjukkan efisiensi kerangka kerja MHA2MLA, tetapi juga memberikan arahan baru untuk penelitian AI di masa depan.
Setelah dikombinasikan dengan teknik inferensi efisien lainnya, seperti kuantisasi cache KV 4-bit, cache KV dari model LLAMA2-7B telah menurun sebesar 92,19% sementara kehilangan kinerja hanya 0,5%. Hasil ini menunjukkan kompatibilitas unggul dari kerangka kerja MHA2MLA dalam teknologi kompresi, sambil mempertahankan kemampuan inferensi model dan kemampuan pemrosesan konteks yang panjang, memberikan jalur yang layak baru untuk menggunakan model bahasa besar yang hemat sumber daya. Inovasi ini tidak hanya meningkatkan efisiensi model, tetapi juga memberikan lebih banyak kemungkinan untuk aplikasi AI di masa depan.
Namun, tim peneliti juga menunjukkan bahwa percobaan ini dibatasi oleh kondisi perangkat keras dan belum mencakup model seperti LLAMA3 yang membutuhkan penyempurnaan konteks panjang 128k. Penelitian di masa depan akan fokus pada memperluas ke lebih banyak arsitektur model, dan menggabungkan strategi penyempurnaan parameter yang efisien untuk lebih mengurangi skala pembaruan parameter selama proses migrasi. Penelitian ke arah ini akan memberikan lebih banyak kemungkinan untuk aplikasi AI di masa depan dan mempromosikan pengembangan lebih lanjut dari teknologi AI.