Editor Downcodes mengetahui bahwa Tencent Youtu Lab bekerja sama dengan tim peneliti Universitas Shanghai Jiao Tong untuk mengembangkan metode terobosan peningkatan pengetahuan, yang membawa perubahan revolusioner pada pengoptimalan model besar. Metode ini tidak memerlukan penyempurnaan model tradisional, langsung mengekstrak pengetahuan dari data sumber terbuka, menyederhanakan proses pengoptimalan secara signifikan, dan melampaui teknologi tercanggih (SOTA) dalam berbagai tugas. Teknologi inovatif ini secara efektif memecahkan masalah ketergantungan metode penyempurnaan model tradisional pada sejumlah besar data beranotasi dan sumber daya komputasi, dan memberikan kemungkinan baru untuk mempromosikan model besar dalam aplikasi praktis.
Tencent Youtu Lab dan tim peneliti dari Shanghai Jiao Tong University bersama-sama meluncurkan metode peningkatan pengetahuan yang revolusioner, membuka jalur baru untuk optimalisasi model besar. Teknologi inovatif ini mengabaikan keterbatasan penyempurnaan model tradisional, mengekstrak pengetahuan langsung dari data sumber terbuka, sangat menyederhanakan proses pengoptimalan model, dan mencapai kinerja luar biasa yang melampaui teknologi tercanggih (SOTA) dalam berbagai tugas.

Dalam beberapa tahun terakhir, meskipun model bahasa besar (LLM) telah mengalami kemajuan signifikan di berbagai bidang, model tersebut masih menghadapi banyak tantangan dalam penerapan praktisnya. Metode penyempurnaan model tradisional memerlukan sejumlah besar data beranotasi dan sumber daya komputasi, yang seringkali sulit dicapai oleh banyak bisnis praktis. Meskipun komunitas sumber terbuka menyediakan banyak model penyesuaian dan kumpulan data instruksi, cara memanfaatkan sumber daya ini secara efektif dan meningkatkan kemampuan tugas serta kinerja generalisasi model dengan sampel berlabel terbatas selalu menjadi masalah yang dihadapi oleh industri.
Menanggapi masalah ini, tim peneliti mengusulkan kerangka eksperimental baru yang berfokus pada penggunaan pengetahuan sumber terbuka untuk meningkatkan kemampuan model dalam kondisi data bisnis nyata berlabel K-shot. Kerangka kerja ini sepenuhnya memanfaatkan nilai sampel terbatas dan memberikan peningkatan kinerja untuk model bahasa besar pada tugas terarah.

Inovasi inti dari penelitian ini meliputi:
Pemilihan model yang efisien: Memaksimalkan potensi model yang ada dalam kondisi data terbatas dengan mengevaluasi secara komprehensif kebingungan inferensi, performa model, dan kekayaan pengetahuan.
Pengoptimalan ekstraksi pengetahuan: Merancang metode untuk mengekstrak pengetahuan yang relevan dari data sumber terbuka. Melalui strategi penyaringan data yang menyeimbangkan kesamaan dan keragaman, metode ini memberikan informasi tambahan pada model sekaligus mengurangi risiko overfitting.
Sistem model adaptif: Sistem adaptif berdasarkan struktur model pakar hibrid dibangun untuk mewujudkan saling melengkapi pengetahuan antara beberapa model yang efektif dan meningkatkan kinerja secara keseluruhan.
Selama tahap percobaan, tim peneliti melakukan evaluasi komprehensif menggunakan enam kumpulan data open source. Hasilnya menunjukkan bahwa metode baru ini mengungguli metode dasar dan metode canggih lainnya dalam berbagai tugas. Dengan memvisualisasikan pola aktivasi pakar, penelitian ini juga menemukan bahwa kontribusi setiap pakar terhadap model sangat diperlukan, sehingga semakin menegaskan efektivitas metode tersebut.
Penelitian ini tidak hanya menunjukkan potensi besar pengetahuan open source di bidang model besar, tetapi juga memberikan ide-ide baru untuk pengembangan teknologi kecerdasan buatan di masa depan. Ini menerobos keterbatasan optimasi model tradisional dan memberikan solusi yang layak bagi perusahaan dan lembaga penelitian untuk meningkatkan kinerja model dengan sumber daya yang terbatas.
Seiring dengan kemajuan dan promosi teknologi ini, kami memiliki alasan untuk percaya bahwa teknologi ini akan memainkan peran penting dalam peningkatan kecerdasan di berbagai industri. Kerja sama antara Tencent Youtu dan Shanghai Jiao Tong University ini tidak hanya menjadi model kerja sama antara akademisi dan industri, tetapi juga merupakan langkah penting dalam memajukan teknologi kecerdasan buatan ke tingkat yang lebih tinggi.
Alamat makalah: https://www.arxiv.org/pdf/2408.15915
Hasil penelitian ini memberikan ide baru dan solusi yang layak untuk optimasi model besar. Ini memiliki potensi besar dalam aplikasi praktis dan layak untuk dinantikan untuk penerapan dan pengembangan lebih lanjut di masa depan. Editor Downcodes akan terus memperhatikan perkembangan terkini di bidang ini dan memberikan laporan yang lebih menarik kepada pembaca.