AI generatif mengalami pertumbuhan pesat, dan repositori ini berfungsi sebagai pusat komprehensif untuk pembaruan penelitian AI generatif, materi wawancara, buku catatan, dan banyak lagi!
Jelajahi sumber daya berikut:
Kami akan memperbarui repositori ini secara berkala, jadi pantau terus untuk penambahan terbaru!
Selamat Belajar!
*Diperbarui setiap akhir bulan
| Tanggal | Judul | Abstrak |
|---|---|---|
| 30 September 2024 | MM1.5: Metode, Analisis & Wawasan dari Penyempurnaan LLM Multimodal | Kami menghadirkan MM1.5, rangkaian baru model bahasa besar multimodal (MLLM) yang dirancang untuk meningkatkan kemampuan dalam pemahaman gambar kaya teks, rujukan dan landasan visual, serta penalaran multi-gambar. Berdasarkan arsitektur MM1, MM1.5 mengadopsi pendekatan data-sentris untuk pelatihan model, yang secara sistematis mengeksplorasi dampak campuran data yang beragam di seluruh siklus pelatihan model. Hal ini mencakup data OCR berkualitas tinggi dan teks sintetis untuk pra-pelatihan berkelanjutan, serta campuran data penyesuaian instruksi visual yang dioptimalkan untuk penyesuaian yang diawasi. Model kami berkisar dari parameter 1B hingga 30B, yang mencakup varian padat dan campuran ahli (MoE), dan menunjukkan bahwa kurasi data yang cermat dan strategi pelatihan dapat menghasilkan kinerja yang kuat bahkan pada skala kecil (1B dan 3B). Selain itu, kami memperkenalkan dua varian khusus: MM1.5-Video, yang dirancang untuk pemahaman video, dan MM1.5-UI, yang dirancang untuk pemahaman UI seluler. Melalui studi empiris dan ablasi yang ekstensif, kami memberikan wawasan terperinci mengenai proses pelatihan dan keputusan yang menginformasikan desain akhir kami, menawarkan panduan berharga untuk penelitian masa depan dalam pengembangan MLLM. |
| 26 September 2024 | MIO: Model Fondasi pada Token Multimodal | Dalam makalah ini, kami memperkenalkan MIO, model fondasi baru yang dibangun di atas token multimodal, yang mampu memahami dan menghasilkan ucapan, teks, gambar, dan video dengan cara autoregresif ujung ke ujung. Meskipun munculnya model bahasa besar (LLM) dan model bahasa besar multimodal (MM-LLM) mendorong kemajuan dalam kecerdasan umum buatan melalui kemampuannya yang serbaguna, keduanya masih kekurangan pemahaman dan generasi yang benar-benar ada. Baru-baru ini, peluncuran GPT-4o telah menunjukkan potensi luar biasa dari LLM apa pun untuk tugas-tugas dunia nyata yang kompleks, memungkinkan masukan dan keluaran segala arah di seluruh gambar, ucapan, dan teks. Namun, ini adalah sumber tertutup dan tidak mendukung pembuatan rangkaian interleave multimodal. Untuk mengatasi kesenjangan ini, kami menghadirkan MIO, yang dilatih tentang campuran token diskrit di empat modalitas menggunakan pemodelan multimodal kausal. MIO menjalani proses pelatihan empat tahap: (1) pra-pelatihan penyelarasan, (2) pra-pelatihan disisipkan, (3) pra-pelatihan peningkatan ucapan, dan (4) penyesuaian yang diawasi secara komprehensif pada beragam tekstual, visual, dan tugas pidato. Hasil eksperimen kami menunjukkan bahwa MIO menunjukkan kinerja yang kompetitif, dan dalam beberapa kasus lebih unggul, dibandingkan dengan garis dasar modal ganda sebelumnya, garis dasar model apa pun, dan bahkan garis dasar khusus modalitas. Selain itu, MIO menunjukkan kemampuan canggih yang melekat pada fitur apa pun, seperti pembuatan teks video yang disisipkan, penalaran rantai pemikiran visual, pembuatan pedoman visual, pengeditan gambar instruksional, dll. |
| 26 September 2024 | MaskLLM: Ketersebaran Semi-Terstruktur yang Dapat Dipelajari untuk Model Bahasa Besar | Model Bahasa Besar (LLM) dibedakan berdasarkan jumlah parameternya yang sangat besar, yang biasanya menghasilkan redundansi yang signifikan. Karya ini memperkenalkan MaskLLM, metode pemangkasan yang dapat dipelajari yang menetapkan Ketersebaran Semi-terstruktur (atau ``N:M'') di LLM, yang bertujuan untuk mengurangi overhead komputasi selama inferensi. Alih-alih mengembangkan kriteria kepentingan baru, MaskLLM secara eksplisit memodelkan pola N:M sebagai distribusi yang dapat dipelajari melalui pengambilan sampel Gumbel Softmax. Pendekatan ini memfasilitasi pelatihan end-to-end pada kumpulan data berskala besar dan menawarkan dua keuntungan penting: 1) Masker Berkualitas Tinggi - metode kami secara efektif menskalakan kumpulan data besar dan mempelajari masker yang akurat; 2) Transferabilitas - pemodelan probabilistik dari distribusi mask memungkinkan pembelajaran transfer ketersebaran antar domain atau tugas. Kami menilai MaskLLM menggunakan ketersebaran 2:4 pada berbagai LLM, termasuk LLaMA-2, Nemotron-4, dan GPT-3, dengan ukuran mulai dari parameter 843M hingga 15B, dan hasil empiris kami menunjukkan peningkatan substansial dibandingkan parameter canggih metode. Misalnya, pendekatan terdepan mencapai tingkat kebingungan (PPL) sebesar 10 atau lebih di Wikitext dibandingkan dengan model padat yang 5,12 PPL, namun MaskLLM mencapai 6,72 PPL yang jauh lebih rendah hanya dengan mempelajari topeng dengan beban beku. Selain itu, sifat MaskLLM yang dapat dipelajari memungkinkan masker yang disesuaikan untuk penerapan ketersebaran 2:4 tanpa kehilangan ke tugas atau domain hilir. Kode tersedia di url{https://github.com/NVlabs/MaskLLM}. |
| 25 September 2024 | Molmo dan PixMo: Bobot Terbuka dan Data Terbuka untuk Model Multimodal Tercanggih | Model multimoda tercanggih saat ini tetap menjadi hak milik. Model open-weight terkuat sangat bergantung pada data sintetik dari VLM berpemilik untuk mencapai performa yang baik, yang secara efektif menyaring model tertutup ini menjadi model terbuka. Akibatnya, komunitas masih kekurangan pengetahuan dasar tentang cara membangun VLM yang berkinerja baik dari awal. Kami menghadirkan Molmo, keluarga VLM baru yang canggih di kelas keterbukaannya. Inovasi utama kami adalah kumpulan data keterangan gambar baru dan sangat detail yang dikumpulkan seluruhnya dari anotator manusia menggunakan deskripsi berbasis ucapan. Untuk memungkinkan beragam interaksi pengguna, kami juga memperkenalkan beragam kumpulan data untuk penyempurnaan yang mencakup tanya jawab langsung dan data penunjuk 2D yang inovatif. Keberhasilan pendekatan kami bergantung pada pilihan yang cermat untuk detail arsitektur model, alur pelatihan yang disesuaikan dengan baik, dan, yang paling penting, kualitas kumpulan data yang baru kami kumpulkan, yang semuanya akan dirilis. Model 72B yang terbaik di kelasnya dalam keluarga Molmo tidak hanya mengungguli model lain di kelas bobot terbuka dan model data, tetapi juga lebih unggul dibandingkan sistem berpemilik seperti GPT-4o, Claude 3.5, dan Gemini 1.5 baik dalam tolok ukur akademis maupun evaluasi manusia. . Kami akan merilis semua bobot model, data teks dan penyesuaian, serta kode sumber dalam waktu dekat. Bobot model tertentu, kode inferensi, dan demo tersedia di https://molmo.allenai.org. |
| 25 September 2024 | VPTQ: Kuantisasi Pasca Pelatihan Vektor Bit Rendah Ekstrim untuk Model Bahasa Besar | Ukuran model penskalaan secara signifikan menantang penerapan dan inferensi Model Bahasa Besar (LLM). Karena redundansi dalam bobot LLM, penelitian terbaru berfokus pada mendorong kuantisasi bobot saja ke bit yang sangat rendah (bahkan hingga 2 bit). Ini mengurangi kebutuhan memori, mengoptimalkan biaya penyimpanan, dan mengurangi kebutuhan bandwidth memori selama inferensi. Namun, karena keterbatasan representasi numerik, kuantisasi bobot berbasis skalar tradisional kesulitan mencapai bit yang sangat rendah. Penelitian terbaru tentang Kuantisasi Vektor (VQ) untuk LLM telah menunjukkan potensi kuantisasi model bit sangat rendah dengan mengompresi vektor menjadi indeks menggunakan tabel pencarian. Dalam makalah ini, kami memperkenalkan Vector Post-Training Quantization (VPTQ) untuk kuantisasi LLM dengan bit yang sangat rendah. Kami menggunakan Optimasi Orde Kedua untuk merumuskan masalah LLM VQ dan memandu desain algoritma kuantisasi kami dengan menyelesaikan optimasi. Kami menyempurnakan bobot lebih lanjut menggunakan Pengoptimalan Orde Kedua Independen Saluran untuk VQ granular. Selain itu, dengan menguraikan masalah optimasi, kami mengusulkan algoritma inisialisasi buku kode yang singkat dan efektif. Kami juga memperluas VPTQ untuk mendukung kuantisasi sisa dan outlier, yang meningkatkan akurasi model dan semakin mengompresi model. Hasil eksperimen kami menunjukkan bahwa VPTQ mengurangi kebingungan kuantisasi model sebesar |
| 24 September 2024 | Time-MoE: Model Fondasi Rangkaian Waktu Berskala Miliar dengan Campuran Ahli | Pembelajaran mendalam untuk peramalan deret waktu telah mengalami kemajuan yang signifikan selama beberapa dekade terakhir. Namun, meskipun pra-pelatihan skala besar dalam bidang bahasa dan visi telah berhasil, model deret waktu yang telah dilatih sebelumnya masih terbatas skalanya dan beroperasi dengan biaya tinggi, sehingga menghambat pengembangan model peramalan yang lebih mampu dalam aplikasi dunia nyata. Sebagai tanggapan, kami memperkenalkan Time-MoE, arsitektur terpadu dan terukur yang dirancang untuk melakukan pra-pelatihan model dasar peramalan yang lebih besar dan lebih mumpuni sekaligus mengurangi biaya inferensi. Dengan memanfaatkan desain campuran ahli (MoE) yang jarang, Time-MoE meningkatkan efisiensi komputasi dengan mengaktifkan hanya sebagian jaringan untuk setiap prediksi, mengurangi beban komputasi sekaligus mempertahankan kapasitas model yang tinggi. Hal ini memungkinkan Time-MoE untuk melakukan penskalaan secara efektif tanpa peningkatan biaya inferensi yang terkait. Time-MoE terdiri dari rangkaian model transformator khusus dekoder yang beroperasi secara auto-regresif dan mendukung cakrawala perkiraan yang fleksibel dengan panjang konteks masukan yang bervariasi. Kami melatih model ini terlebih dahulu pada data skala besar Time-300B yang baru kami perkenalkan, yang mencakup lebih dari 9 domain dan mencakup lebih dari 300 miliar titik waktu. Untuk pertama kalinya, kami menskalakan model dasar deret waktu hingga 2,4 miliar parameter, sehingga mencapai peningkatan presisi perkiraan secara signifikan. Hasil kami memvalidasi penerapan undang-undang penskalaan untuk token pelatihan dan ukuran model dalam konteks perkiraan rangkaian waktu. Dibandingkan dengan model padat dengan jumlah parameter aktif yang sama atau anggaran komputasi yang setara, model kami secara konsisten mengungguli model tersebut dengan selisih yang besar. Kemajuan ini memposisikan Time-MoE sebagai solusi canggih untuk mengatasi tantangan peramalan rangkaian waktu di dunia nyata dengan kemampuan, efisiensi, dan fleksibilitas yang unggul. |
| 23 September 2024 | Studi Awal tentang o1 dalam Kedokteran: Apakah Kita Lebih Dekat dengan Dokter AI? | Model bahasa besar (LLM) telah menunjukkan kemampuan luar biasa di berbagai domain dan tugas, mendorong batas-batas pengetahuan kita dalam pembelajaran dan kognisi. Model terbaru, o1 OpenAI, menonjol sebagai LLM pertama dengan teknik rantai pemikiran yang diinternalisasi menggunakan strategi pembelajaran penguatan. Meskipun ia telah menunjukkan kemampuan yang sangat kuat dalam berbagai tugas bahasa umum, kinerjanya dalam bidang khusus seperti kedokteran masih belum diketahui. Untuk mencapai tujuan tersebut, laporan ini memberikan eksplorasi komprehensif tentang o1 pada berbagai skenario medis, dengan mengkaji 3 aspek utama: pemahaman, penalaran, dan multibahasa. Secara khusus, evaluasi kami mencakup 6 tugas menggunakan data dari 37 kumpulan data medis, termasuk dua tugas tanya jawab (QA) yang baru dibuat dan lebih menantang berdasarkan kuis medis profesional dari New England Journal of Medicine (NEJM) dan The Lancet. Kumpulan data ini menawarkan relevansi klinis yang lebih besar dibandingkan dengan tolok ukur QA medis standar seperti MedQA, sehingga dapat diterjemahkan secara lebih efektif ke dalam utilitas klinis dunia nyata. Analisis kami terhadap o1 menunjukkan bahwa peningkatan kemampuan penalaran LLM mungkin (secara signifikan) bermanfaat bagi kemampuan mereka untuk memahami berbagai instruksi dan alasan medis melalui skenario klinis yang kompleks. Khususnya, o1 melampaui akurasi GPT-4 sebelumnya dengan rata-rata 6,2% dan 6,6% di 19 kumpulan data dan dua skenario QA kompleks yang baru dibuat. Namun sementara itu, kami mengidentifikasi beberapa kelemahan dalam kemampuan model dan protokol evaluasi yang ada, termasuk halusinasi, kemampuan multibahasa yang tidak konsisten, dan metrik evaluasi yang tidak sesuai. Kami merilis data mentah dan keluaran model di https://ucsc-vlaa.github.io/o1_medicine/ untuk penelitian di masa mendatang. |
| 21 September 2024 | Mengikuti Instruksi tanpa Penyetelan Instruksi | Penyetelan instruksi umumnya berarti menyempurnakan model bahasa pada pasangan instruksi-respons. Kami menemukan dua bentuk adaptasi (penyetelan) yang kurang dibandingkan dengan penyetelan instruksi, namun masih menghasilkan instruksi berikut; kami menyebutnya penyetelan instruksi implisit. Pertama-tama kami menemukan bahwa pasangan instruksi-respon tidak diperlukan: pelatihan hanya berdasarkan respons, tanpa instruksi yang sesuai, menghasilkan instruksi berikut. Hal ini menunjukkan bahwa model yang telah dilatih sebelumnya memiliki pemetaan instruksi-respons yang terungkap dengan mengajarkan model tersebut distribusi respons yang diinginkan. Namun, kami kemudian merasa tidak perlu mengajarkan distribusi respons yang diinginkan: pelatihan instruksi-respons pada data domain sempit seperti puisi masih mengarah pada perilaku mengikuti instruksi yang luas seperti pembuatan resep. Khususnya, ketika instruksi sangat berbeda dengan instruksi dalam domain finetuning sempit, respons model tidak mengikuti gaya domain finetuning. Untuk mulai menjelaskan penyetelan instruksi implisit, kami berhipotesis bahwa perubahan yang sangat sederhana pada distribusi model bahasa menghasilkan instruksi berikut. Kami mendukung hal ini dengan menulis model bahasa berbasis aturan yang menghasilkan instruksi yang diikuti oleh produk pakar dengan model yang telah dilatih sebelumnya. Aturannya adalah meningkatkan kemungkinan mengakhiri urutan secara perlahan, menghukum pengulangan, dan mengubah probabilitas 15 kata secara seragam. Singkatnya, adaptasi yang dilakukan tanpa dirancang untuk menghasilkan instruksi yang diikuti dapat dilakukan secara implisit. |
| 20 September 2024 | Bayangkan diri Anda: Pembuatan Gambar Personalisasi Tanpa Penyetelan | Model difusi telah menunjukkan kemanjuran yang luar biasa dalam berbagai tugas gambar-ke-gambar. Dalam penelitian ini, kami memperkenalkan Bayangkan diri Anda sendiri, model canggih yang dirancang untuk menghasilkan gambar yang dipersonalisasi. Tidak seperti teknik personalisasi berbasis penyetelan konvensional, Bayangkan diri Anda beroperasi sebagai model bebas penyetelan, memungkinkan semua pengguna memanfaatkan kerangka kerja bersama tanpa penyesuaian individual. Selain itu, pekerjaan sebelumnya menghadapi tantangan dalam menyeimbangkan pelestarian identitas, mengikuti petunjuk kompleks dan menjaga kualitas visual yang baik, sehingga menghasilkan model yang memiliki efek salin-tempel yang kuat dari gambar referensi. Oleh karena itu, mereka sulit menghasilkan gambar dengan mengikuti perintah yang memerlukan perubahan signifikan pada gambar referensi, misalnya mengubah ekspresi wajah, pose kepala dan tubuh, dan keragaman gambar yang dihasilkan rendah. Untuk mengatasi keterbatasan ini, metode yang kami usulkan memperkenalkan 1) mekanisme pembuatan data berpasangan sintetik baru untuk mendorong keragaman gambar, 2) arsitektur perhatian paralel sepenuhnya dengan tiga encoder teks dan encoder visi yang sepenuhnya dapat dilatih untuk meningkatkan kesetiaan teks, dan 3) a metodologi penyempurnaan multi-tahap kasar hingga halus baru yang secara bertahap mendorong batas kualitas visual. Studi kami menunjukkan bahwa Bayangkan diri Anda melampaui model personalisasi canggih, menunjukkan kemampuan unggul dalam pelestarian identitas, kualitas visual, dan penyelarasan teks. Model ini memberikan landasan yang kuat untuk berbagai aplikasi personalisasi. Hasil evaluasi manusia memvalidasi keunggulan SOTA model di semua aspek (pelestarian identitas, kesetiaan teks, dan daya tarik visual) dibandingkan model personalisasi sebelumnya. |
| 19 September 2024 | Melatih Model Bahasa untuk Mengoreksi Diri melalui Pembelajaran Penguatan | Koreksi diri adalah kemampuan yang sangat diinginkan dalam model bahasa besar (LLM), namun secara konsisten ditemukan tidak efektif dalam LLM modern. Metode pelatihan koreksi diri saat ini biasanya bergantung pada beberapa model, model yang lebih maju, atau bentuk pengawasan tambahan. Untuk mengatasi kekurangan ini, kami mengembangkan pendekatan pembelajaran penguatan online (RL) multi-turn, SCoRe, yang secara signifikan meningkatkan kemampuan koreksi diri LLM dengan menggunakan data yang sepenuhnya dihasilkan sendiri. Untuk membangun SCoRe, pertama-tama kami menunjukkan bahwa varian penyetelan terawasi (SFT) pada jejak koreksi yang dihasilkan model offline sering kali tidak cukup untuk menanamkan perilaku koreksi mandiri. Secara khusus, kami mengamati bahwa pelatihan melalui SFT menjadi korban dari ketidaksesuaian distribusi antara kesalahan yang dibuat oleh kebijakan pengumpulan data dan tanggapan model itu sendiri, atau keruntuhan perilaku, di mana pembelajaran secara implisit hanya memilih mode perilaku koreksi tertentu yang sering kali tidak sesuai. tidak efektif dalam mengoreksi diri pada soal ujian. SCoRe mengatasi tantangan-tantangan ini dengan melatih distribusi jejak koreksi yang dihasilkan sendiri oleh model tersebut dan menggunakan regularisasi yang tepat untuk mengarahkan proses pembelajaran agar mempelajari perilaku koreksi diri yang efektif pada saat ujian dibandingkan dengan menyesuaikan respons dengan imbalan tinggi pada waktu tertentu. mengingatkan. Proses regularisasi ini mencakup fase awal RL multi-turn pada model dasar untuk menghasilkan inisialisasi kebijakan yang tidak terlalu rentan terhadap kegagalan, diikuti dengan penggunaan bonus reward untuk memperkuat koreksi mandiri. Dengan model Gemini 1.0 Pro dan 1.5 Flash, kami menemukan bahwa SCoRe mencapai kinerja koreksi mandiri yang canggih, meningkatkan koreksi mandiri model dasar masing-masing sebesar 15,6% dan 9,1% pada MATH dan HumanEval. |
| 19 September 2024 | Scaling Smart: Mempercepat Pra-pelatihan Model Bahasa Besar dengan Inisialisasi Model Kecil | Fase pra-pelatihan model bahasa sering kali dimulai dengan parameter yang diinisialisasi secara acak. Dengan tren model penskalaan saat ini, melatih sejumlah besar parameter bisa menjadi sangat lambat dan mahal. Sebaliknya, model bahasa kecil lebih murah untuk dilatih, namun seringkali tidak dapat mencapai keakuratan model besar. Dalam makalah ini, kami mengeksplorasi ide menarik untuk menghubungkan dua rezim yang berbeda ini: Dapatkah kita mengembangkan metode untuk menginisialisasi model bahasa besar menggunakan model kecil yang telah dilatih sebelumnya? Akankah inisialisasi seperti itu memberikan manfaat dalam hal waktu pelatihan dan akurasi akhir? Dalam makalah ini, kami memperkenalkan HyperCloning, sebuah metode yang dapat memperluas parameter model bahasa yang telah dilatih sebelumnya menjadi parameter model yang lebih besar dengan peningkatan dimensi tersembunyi. Metode kami memastikan bahwa model yang lebih besar tetap mempertahankan fungsionalitas model yang lebih kecil. Akibatnya, model yang lebih besar sudah mewarisi kekuatan prediksi dan akurasi model yang lebih kecil sebelum pelatihan dimulai. Kami menunjukkan bahwa pelatihan model yang diinisialisasi seperti itu menghasilkan penghematan yang signifikan dalam hal jam GPU yang diperlukan untuk pra-pelatihan model bahasa besar. |
| 18 September 2024 | Laporan Teknis Qwen2.5-Coder | Dalam laporan ini, kami memperkenalkan seri Qwen2.5-Coder, peningkatan yang signifikan dari pendahulunya, CodeQwen1.5. Seri ini mencakup dua model: Qwen2.5-Coder-1.5B dan Qwen2.5-Coder-7B. Sebagai model khusus kode, Qwen2.5-Coder dibangun di atas arsitektur Qwen2.5 dan terus dilatih sebelumnya pada kumpulan besar lebih dari 5,5 triliun token. Melalui pembersihan data yang cermat, pembuatan data sintetis yang dapat diskalakan, dan pencampuran data yang seimbang, Qwen2.5-Coder menunjukkan kemampuan pembuatan kode yang mengesankan sambil mempertahankan keserbagunaan secara umum. Model ini telah dievaluasi pada berbagai tugas terkait kode, mencapai kinerja tercanggih (SOTA) di lebih dari 10 tolok ukur, termasuk pembuatan kode, penyelesaian, penalaran, dan perbaikan, secara konsisten mengungguli model kode yang lebih besar. ukuran model yang sama. Kami percaya bahwa peluncuran seri Qwen2.5-Coder tidak hanya akan mendorong batas-batas penelitian dalam kecerdasan kode tetapi juga, melalui lisensi permisifnya, mendorong adopsi yang lebih luas oleh pengembang dalam aplikasi dunia nyata. |
| 18 September 2024 | Sebuah Studi Terkendali tentang Ekstensi dan Generalisasi Konteks Panjang di LLM | Pemahaman tekstual yang luas dan pembelajaran dalam konteks memerlukan model bahasa yang memanfaatkan konteks dokumen lengkap. Karena tantangan implementasi yang terkait dengan pelatihan langsung model konteks panjang, banyak metode telah diusulkan untuk memperluas model guna menangani konteks panjang. Namun, karena perbedaan dalam data dan kelas model, sulit untuk membandingkan pendekatan-pendekatan ini, sehingga menimbulkan ketidakpastian mengenai cara mengevaluasi kinerja konteks panjang dan apakah kinerja tersebut berbeda dari evaluasi standar. Kami menerapkan protokol terkontrol untuk metode penyuluhan dengan evaluasi terstandar, menggunakan model dasar dan data penyuluhan yang konsisten. Studi kami menghasilkan beberapa wawasan tentang perilaku konteks panjang. Pertama, kami menegaskan kembali peran penting dari kebingungan sebagai indikator kinerja tujuan umum bahkan dalam tugas-tugas konteks yang lebih panjang. Kedua, kami menemukan bahwa metode perkiraan perhatian saat ini secara sistematis berkinerja buruk pada tugas-tugas konteks panjang. Terakhir, kami memastikan bahwa metode berbasis penyesuaian yang tepat umumnya efektif dalam jangkauan perluasannya, sedangkan ekstrapolasi masih merupakan tantangan. Semua basis kode, model, dan pos pemeriksaan akan tersedia secara open source, sehingga mendorong transparansi dan memfasilitasi penelitian lebih lanjut di bidang penting pengembangan AI ini. |
| 18 September 2024 | LLM + Persona-Plug = LLM yang Dipersonalisasi | Personalisasi memainkan peran penting dalam berbagai tugas dan aplikasi bahasa, karena pengguna dengan persyaratan yang sama mungkin lebih memilih keluaran yang beragam berdasarkan minat masing-masing. Hal ini mengarah pada pengembangan berbagai pendekatan yang dipersonalisasi yang bertujuan untuk mengadaptasi model bahasa besar (LLM) untuk menghasilkan keluaran yang disesuaikan dengan preferensi pengguna. Beberapa di antaranya melibatkan penyempurnaan LLM unik yang dipersonalisasi untuk setiap pengguna, yang terlalu mahal untuk penerapan secara luas. Pendekatan alternatif memperkenalkan informasi personalisasi dengan cara plug-and-play dengan mengambil teks sejarah yang relevan dari pengguna sebagai demonstrasi. Namun, strategi berbasis pengambilan ini dapat merusak kesinambungan riwayat pengguna dan gagal menangkap keseluruhan gaya dan pola pengguna, sehingga menyebabkan kinerja kurang optimal. Untuk mengatasi tantangan ini, kami mengusulkan model LLM baru yang dipersonalisasi, milik kami{}. Ini membangun penyematan khusus pengguna untuk setiap individu dengan memodelkan semua konteks historisnya melalui modul penyematan pengguna plug-in yang ringan. Dengan melampirkan penyematan ini ke masukan tugas, LLM dapat lebih memahami dan menangkap kebiasaan dan preferensi pengguna, sehingga menghasilkan keluaran yang lebih dipersonalisasi tanpa menyesuaikan parameternya sendiri. Eksperimen ekstensif pada berbagai tugas dalam tolok ukur personalisasi model bahasa (LaMP) menunjukkan bahwa model yang diusulkan secara signifikan mengungguli pendekatan LLM terpersonalisasi yang ada. |
| 17 September 2024 | NVLM: LLM Multimodal Kelas Perbatasan Terbuka | Kami memperkenalkan NVLM 1.0, rangkaian model bahasa besar (LLM) multimodal kelas terdepan yang mencapai hasil tercanggih dalam tugas-tugas bahasa visi, menyaingi model kepemilikan terkemuka (misalnya, GPT-4o) dan akses terbuka model (misalnya, Llama 3-V 405B dan InternVL 2). Hebatnya, NVLM 1.0 menunjukkan peningkatan kinerja hanya teks pada tulang punggung LLM setelah pelatihan multimodal. Dalam hal desain model, kami melakukan perbandingan komprehensif antara LLM multimodal khusus decoder (misalnya, LLaVA) dan model berbasis perhatian silang (misalnya, Flamingo). Berdasarkan kekuatan dan kelemahan kedua pendekatan, kami mengusulkan arsitektur baru yang meningkatkan efisiensi pelatihan dan kemampuan penalaran multimodal. Selain itu, kami memperkenalkan desain penandaan petak 1-D untuk gambar resolusi tinggi dinamis berbasis petak, yang secara signifikan meningkatkan kinerja pada penalaran multimodal dan tugas terkait OCR. Mengenai data pelatihan, kami dengan cermat menyusun dan memberikan informasi terperinci tentang pra-pelatihan multimodal dan kumpulan data penyesuaian yang diawasi. Temuan kami menunjukkan bahwa kualitas kumpulan data dan keragaman tugas lebih penting daripada skala, bahkan selama fase pra-pelatihan, di semua arsitektur. Khususnya, kami mengembangkan multimodalitas tingkat produksi untuk model NVLM-1.0, memungkinkan mereka unggul dalam tugas-tugas bahasa visi sambil mempertahankan dan bahkan meningkatkan kinerja hanya teks dibandingkan dengan tulang punggung LLM mereka. Untuk mencapai hal ini, kami menyusun dan mengintegrasikan kumpulan data hanya teks berkualitas tinggi ke dalam pelatihan multimodal, bersama dengan sejumlah besar data matematika dan penalaran multimodal, yang mengarah pada peningkatan kemampuan matematika dan pengkodean di seluruh modalitas. Untuk memajukan penelitian di lapangan, kami merilis bobot model dan akan membuka kode sumber terbuka untuk komunitas: https://nvlm-project.github.io/. |
| 17 September 2024 | Promptriever: Retriever yang Terlatih Instruksi Dapat Diminta Seperti Model Bahasa | Model bahasa yang disesuaikan dengan instruksi (LM) mampu merespons perintah penting, menyediakan antarmuka pengguna yang lebih alami dibandingkan dengan model dasarnya. Dalam karya ini, kami menghadirkan Promptriever, model pengambilan pertama yang dapat dijalankan seperti LM. Untuk melatih Promptriever, kami menyusun dan merilis set pelatihan instruksi tingkat instans baru dari MS MARCO, yang mencakup hampir 500 ribu instans. Promptriever tidak hanya mencapai kinerja yang kuat pada tugas pengambilan standar, namun juga mengikuti instruksi. Kami mengamati: (1) keuntungan besar (mencapai SoTA) dengan mengikuti instruksi relevansi terperinci (+14,3 p-MRR / +3,1 nDCG pada FollowIR), (2) secara signifikan meningkatkan ketahanan terhadap pilihan/frasa leksikal dalam kueri+instruksi (+12,9 Robustness@10 pada InstructIR), dan (3) kemampuan untuk melakukan pencarian hyperparameter melalui prompt untuk meningkatkan kinerja pengambilan secara andal (+1,4 peningkatan rata-rata pada BEIR). Promptriever mendemonstrasikan bahwa model pengambilan dapat dikontrol dengan perintah berdasarkan per kueri, menetapkan tahapan untuk pekerjaan di masa depan yang menyelaraskan teknik dorongan LM dengan pengambilan informasi. |
| 17 September 2024 | Evaluasi Komprehensif Model Bahasa Besar yang Disetel dengan Instruksi Terkuantisasi: Analisis Eksperimental hingga 405B | Penelitian sebelumnya telah mengevaluasi LLM terkuantisasi menggunakan metrik terbatas seperti kebingungan atau beberapa tugas pengetahuan dasar dan kumpulan data lama. Selain itu, model skala besar terkini seperti Llama 3.1 hingga 405B belum diperiksa secara menyeluruh. Makalah ini mengevaluasi kinerja LLM yang disesuaikan dengan instruksi di berbagai metode kuantisasi (GPTQ, AWQ, SmoothQuant, dan FP8) pada model mulai dari 7B hingga 405B. Dengan menggunakan 13 tolok ukur, kami menilai kinerja dalam enam jenis tugas: Tanya Jawab yang masuk akal, pengetahuan dan pemahaman bahasa, mengikuti instruksi, deteksi halusinasi, matematika, dan dialog. Temuan utama kami mengungkapkan bahwa (1) mengkuantisasi LLM yang lebih besar ke ukuran yang sama dengan LLM FP16 yang lebih kecil umumnya berkinerja lebih baik di sebagian besar tolok ukur, kecuali untuk deteksi halusinasi dan mengikuti instruksi; (2) kinerja bervariasi secara signifikan dengan metode kuantisasi, ukuran model, dan lebar bit yang berbeda, dengan metode hanya bobot sering kali memberikan hasil yang lebih baik pada model yang lebih besar; (3) kesulitan tugas tidak berdampak signifikan terhadap penurunan akurasi akibat kuantisasi; dan (4) metode evaluasi MT-Bench memiliki kekuatan diskriminatif yang terbatas di antara LLM yang berkinerja tinggi saat ini. |
| 16 September 2024 | RetrievalAttention: Mempercepat Inferensi LLM Konteks Panjang melalui Pengambilan Vektor | Model Bahasa Besar (LLM) berbasis transformator menjadi semakin penting. Namun, karena kompleksitas waktu komputasi perhatian yang kuadrat, penskalaan LLM ke konteks yang lebih panjang menimbulkan latensi inferensi yang sangat lambat dan konsumsi memori GPU yang tinggi untuk menyimpan vektor nilai kunci (KV). Makalah ini mengusulkan RetrievalAttention, sebuah pendekatan tanpa pelatihan untuk mempercepat komputasi perhatian dan mengurangi konsumsi memori GPU. Dengan memanfaatkan mekanisme ketersebaran perhatian yang dinamis, RetrievalAttention mengusulkan untuk menggunakan indeks perkiraan pencarian tetangga terdekat (ANNS) untuk vektor KV dalam memori CPU dan mengambil yang paling relevan dengan pencarian vektor selama pembuatan. Sayangnya, kami mengamati bahwa indeks ANNS yang tersedia sering kali tidak efektif untuk tugas pengambilan tersebut karena out-of-distribution (OOD) antara vektor kueri dan vektor kunci dalam mekanisme perhatian. RetrievalAttention mengatasi tantangan OOD dengan merancang algoritma pencarian vektor yang memperhatikan perhatian yang dapat beradaptasi dengan distribusi vektor kueri. Evaluasi kami menunjukkan bahwa RetrievalAttention hanya perlu mengakses 1--3% data dengan tetap menjaga akurasi model yang tinggi. Hal ini menyebabkan pengurangan yang signifikan dalam biaya inferensi LLM konteks panjang dengan jejak memori GPU yang jauh lebih rendah. Secara khusus, RetrievalAttention hanya memerlukan satu NVIDIA RTX4090 (24 GB) untuk menyajikan 128 ribu token di LLM dengan parameter 8 miliar, yang mampu menghasilkan satu token dalam 0,188 detik. |
| 16 September 2024 | Transformator Kolmogorov-Arnold | Transformers berdiri sebagai landasan pembelajaran mendalam yang modern. Secara tradisional, model ini mengandalkan lapisan multi-layer perceptron (MLP) untuk mencampur informasi antar saluran. Dalam makalah ini, kami memperkenalkan Kolmogorov-Arnold Transformer (KAT), sebuah arsitektur baru yang menggantikan lapisan MLP dengan lapisan Kolmogorov-Arnold Network (KAN) untuk meningkatkan ekspresi dan performa model. Namun, mengintegrasikan KAN ke dalam transformator bukanlah hal yang mudah, terutama jika skalanya ditingkatkan. Secara khusus, kami mengidentifikasi tiga tantangan utama: (C1) Fungsi dasar. Fungsi B-spline standar yang digunakan di KAN tidak dioptimalkan untuk komputasi paralel pada perangkat keras modern, sehingga menghasilkan kecepatan inferensi yang lebih lambat. (C2) Parameter dan Inefisiensi Komputasi. KAN memerlukan fungsi unik untuk setiap pasangan input-output, sehingga komputasinya menjadi sangat besar. (C3) Inisialisasi bobot. Inisialisasi bobot di KAN sangat menantang karena fungsi aktivasinya yang dapat dipelajari, yang sangat penting untuk mencapai konvergensi dalam jaringan neural dalam. Untuk mengatasi tantangan tersebut di atas, kami mengusulkan tiga solusi utama: (S1) Dasar Rasional. Kami mengganti fungsi B-spline dengan fungsi rasional untuk meningkatkan kompatibilitas dengan GPU modern. Dengan menerapkan ini di CUDA, kami mencapai komputasi yang lebih cepat. (S2) Kelompok KAN. Kami membagikan bobot aktivasi melalui sekelompok neuron, untuk mengurangi beban komputasi tanpa mengorbankan kinerja. (S3) Inisialisasi pelestarian varians. Kami dengan hati -hati menginisialisasi bobot aktivasi untuk memastikan bahwa varian aktivasi dipertahankan di seluruh lapisan. Dengan desain ini, skala KAT secara efektif dan mudah mengungguli transformer berbasis MLP tradisional. |
| 16 September 2024 | Pada diagram pemikiran | Kami memperkenalkan diagram pemikiran (DOT), sebuah kerangka kerja yang memodelkan penalaran iteratif dalam model bahasa besar (LLM) sebagai konstruksi grafik asiklik terarah (DAG) dalam model tunggal. Tidak seperti pendekatan tradisional yang mewakili penalaran sebagai rantai atau pohon linier, DOT mengatur proposisi, kritik, penyempurnaan, dan verifikasi ke dalam struktur DAG yang kohesif, yang memungkinkan model untuk mengeksplorasi jalur penalaran yang kompleks sambil mempertahankan konsistensi logis. Setiap node dalam diagram sesuai dengan proposisi yang telah diusulkan, dikritik, disempurnakan, atau diverifikasi, memungkinkan LLM untuk secara iteratif meningkatkan alasannya melalui umpan balik bahasa alami. Dengan memanfaatkan prediksi regregresikan otomatis berikutnya dengan token spesifik peran, DOT memfasilitasi transisi tanpa batas antara mengusulkan ide-ide dan mengevaluasi secara kritis, memberikan umpan balik yang lebih kaya daripada sinyal biner. Selain itu, kami memformalkan kerangka kerja titik menggunakan teori Topos, memberikan fondasi matematika yang memastikan konsistensi dan kesehatan logis dalam proses penalaran. Pendekatan ini meningkatkan proses pelatihan dan inferensi dalam satu LLM tunggal, menghilangkan kebutuhan untuk beberapa model atau mekanisme kontrol eksternal. DOT menawarkan kerangka kerja konseptual untuk merancang model penalaran khusus generasi berikutnya, menekankan efisiensi pelatihan, kemampuan penalaran yang kuat, dan landasan teoritis. Kode ini tersedia di https://github.com/diagram-of-thought/diagram-of-thought. |
| 12 September 2024 | DSBENCH: Seberapa jauh agen sains data menjadi ahli ilmu data? | Model Bahasa Besar (LLM) dan Model Bahasa Visi Besar (LVLM) telah menunjukkan kemampuan penalaran bahasa/visi yang mengesankan, memicu tren agen bangunan baru-baru ini untuk aplikasi yang ditargetkan seperti asisten belanja atau insinyur perangkat lunak AI. Baru -baru ini, banyak tolok ukur ilmu data telah diusulkan untuk menyelidiki kinerja mereka dalam domain ilmu data. Namun, tolok ukur ilmu data yang ada masih gagal jika dibandingkan dengan aplikasi ilmu data dunia nyata karena pengaturan yang disederhanakan. Untuk menjembatani kesenjangan ini, kami memperkenalkan DSBench, tolok ukur komprehensif yang dirancang untuk mengevaluasi agen sains data dengan tugas yang realistis. Benchmark ini mencakup 466 tugas analisis data dan 74 tugas pemodelan data, bersumber dari kompetisi kefasihan dan kaggle. DSBench menawarkan pengaturan yang realistis dengan mencakup konteks panjang, latar belakang tugas multimodal, penalaran dengan file data besar dan struktur multi-tabel, dan melakukan tugas pemodelan data ujung ke ujung. Evaluasi kami terhadap LLMS, LVLM, dan agen kami menunjukkan bahwa mereka berjuang dengan sebagian besar tugas, dengan agen terbaik memecahkan hanya 34,12% dari tugas analisis data dan mencapai 34,74% Relative Performance Gap (RPG). Temuan ini menggarisbawahi perlunya kemajuan lebih lanjut dalam mengembangkan agen ilmu data yang lebih praktis, cerdas, dan otonom. |
| 10 September 2024 | Pingpong: Benchmark untuk model bahasa bermain peran dengan emulasi pengguna dan evaluasi multi-model | Kami memperkenalkan tolok ukur baru untuk mengevaluasi kemampuan bermain peran model bahasa. Pendekatan kami memanfaatkan model bahasa sendiri untuk meniru pengguna dalam percakapan yang dinamis dan multi-giliran dan untuk menilai dialog yang dihasilkan. Kerangka kerja ini terdiri dari tiga komponen utama: model pemain dengan asumsi peran karakter tertentu, model interogator yang mensimulasikan perilaku pengguna, dan model juri yang mengevaluasi kualitas percakapan. Kami melakukan percobaan yang membandingkan evaluasi otomatis dengan anotasi manusia untuk memvalidasi pendekatan kami, menunjukkan korelasi yang kuat di berbagai kriteria. Karya ini memberikan dasar untuk evaluasi kemampuan model yang kuat dan dinamis dalam skenario interaktif. |
| 10 September 2024 | Llama-omni: interaksi ucapan yang mulus dengan model bahasa besar | Model seperti GPT-4O memungkinkan interaksi real-time dengan model bahasa besar (LLM) melalui pidato, secara signifikan meningkatkan pengalaman pengguna dibandingkan dengan interaksi berbasis teks tradisional. Namun, masih ada kurangnya eksplorasi tentang cara membangun model interaksi bicara berdasarkan LLMS open-source. Untuk mengatasi hal ini, kami mengusulkan Llama-Omni, sebuah arsitektur model baru yang dirancang untuk interaksi wicara latensi rendah dan berkualitas tinggi dengan LLMS. Llama-Omni mengintegrasikan encoder pidato pretrained, adaptor pidato, LLM, dan dekoder ucapan streaming. Ini menghilangkan kebutuhan akan transkripsi bicara, dan secara bersamaan dapat menghasilkan respons teks dan bicara langsung dari instruksi bicara dengan latensi yang sangat rendah. Kami membangun model kami berdasarkan model LLAMA-3.1-8B-instruct terbaru. Untuk menyelaraskan model dengan skenario interaksi ucapan, kami membangun dataset bernama Instructs2s-200k, yang mencakup instruksi ucapan 200k dan respons ucapan yang sesuai. Hasil eksperimen menunjukkan bahwa dibandingkan dengan model bahasa-bahasa sebelumnya, Llama-OMNI memberikan respons yang lebih baik dalam konten dan gaya, dengan latensi respons serendah 226ms. Selain itu, pelatihan Llama-Omni membutuhkan waktu kurang dari 3 hari hanya dengan 4 GPU, membuka jalan bagi pengembangan yang efisien dari model bahasa bicara di masa depan. |
| 10 September 2024 | Bisakah model bahasa besar membuka kunci ide penelitian ilmiah baru? | "Sebuah ide tidak lebih dari kombinasi baru dari elemen lama" (Young, JW). Adopsi luas model bahasa besar (LLM) dan chatgpt yang tersedia untuk umum telah menandai titik balik yang signifikan dalam integrasi kecerdasan buatan (AI) ke dalam kehidupan sehari -hari masyarakat. Studi ini mengeksplorasi kemampuan LLM dalam menghasilkan ide -ide penelitian baru berdasarkan informasi dari makalah penelitian. Kami melakukan pemeriksaan menyeluruh terhadap 4 LLM di lima domain (misalnya, kimia, komputer, ekonomi, medis, dan fisika). Kami menemukan bahwa ide-ide penelitian di masa depan yang dihasilkan oleh Claude-2 dan GPT-4 lebih selaras dengan perspektif penulis daripada GPT-3.5 dan Gemini. Kami juga menemukan bahwa Claude-2 menghasilkan ide penelitian yang lebih beragam di masa depan daripada GPT-4, GPT-3.5, dan Gemini 1.0. Kami selanjutnya melakukan evaluasi manusia terhadap kebaruan, relevansi, dan kelayakan ide -ide penelitian di masa depan yang dihasilkan. Investigasi ini menawarkan wawasan tentang peran LLM yang berkembang dalam pembuatan ide, menyoroti kemampuan dan keterbatasannya. Pekerjaan kami berkontribusi pada upaya berkelanjutan dalam mengevaluasi dan memanfaatkan model bahasa untuk menghasilkan ide -ide penelitian di masa depan. Kami membuat set data dan kode kami tersedia untuk umum. |
| 9 September 2024 | SongCreator: Generasi Lagu Universal Berbasis Lirik | Musik adalah bagian integral dari budaya manusia, mewujudkan kecerdasan dan kreativitas manusia, di mana lagu -lagu itu menyusun bagian penting. Sementara berbagai aspek generasi lagu telah dieksplorasi oleh karya -karya sebelumnya, seperti suara bernyanyi, komposisi vokal dan pengaturan instrumental, dll., Menghasilkan lagu dengan vokal dan lirik yang diberikan tetap menjadi tantangan yang signifikan, menghambat penerapan model generasi musik di dalam dunia nyata. Dalam hal ini, kami mengusulkan SongCreator, sistem generasi lagu yang dirancang untuk mengatasi tantangan ini. Model ini menampilkan dua desain novel: model bahasa dual-sequence (DSLM) yang dirancang dengan cermat untuk menangkap informasi vokal dan iringan untuk pembuatan lagu, dan strategi topeng perhatian tambahan untuk DSLM, yang memungkinkan model kami untuk memahami, menghasilkan dan mengedit lagu kami , membuatnya cocok untuk berbagai tugas generasi terkait lagu. Eksperimen ekstensif menunjukkan efektivitas SongCreator dengan mencapai kinerja canggih atau kompetitif pada kedelapan tugas. Khususnya, ini melampaui karya-karya sebelumnya dengan margin besar dalam lirik-ke-lagu dan lirik-ke-vokal. Selain itu, ia mampu mengontrol kondisi akustik vokal dan iringan dalam lagu yang dihasilkan melalui petunjuk yang berbeda, menunjukkan potensi penerapannya. Sampel kami tersedia di https://songcreator.github.io/. |
| 9 September 2024 | Hyperagent: Agen rekayasa perangkat lunak generalis untuk menyelesaikan tugas pengkodean pada skala | Model Bahasa Besar (LLM) telah merevolusi rekayasa perangkat lunak (SE), menunjukkan kemampuan luar biasa dalam berbagai tugas pengkodean. Sementara upaya baru-baru ini telah menghasilkan agen perangkat lunak otonom berdasarkan LLM untuk tugas pengembangan end-to-end, sistem ini biasanya dirancang untuk tugas SE tertentu. Kami memperkenalkan Hyperagent, sistem multi-agen generalis baru yang dirancang untuk mengatasi spektrum luas tugas SE di berbagai bahasa pemrograman dengan meniru alur kerja pengembang manusia. Terdiri dari empat agen khusus - perencana, navigator, editor kode, dan pelaksana. Hyperagent mengelola siklus hidup penuh dari tugas SE, dari konsepsi awal hingga verifikasi akhir. Melalui evaluasi yang luas, Hyperagent mencapai kinerja canggih di berbagai tugas SE: ia mencapai tingkat keberhasilan 25,01% pada SWE-Bench-Lite dan 31,40% pada SWE-Bench-Offifikasi untuk resolusi masalah GitHub, melampaui metode yang ada. Selain itu, Hyperagent menunjukkan kinerja SOTA dalam pembuatan kode tingkat repositori (REPOEXEC), dan dalam pelokalan kesalahan dan perbaikan program (cacat4J), seringkali mengungguli sistem khusus. Karya ini merupakan kemajuan yang signifikan terhadap agen-agen otonom yang serba guna yang mampu menangani tugas-tugas multi-langkah yang kompleks di berbagai domain dan bahasa, berpotensi mengubah praktik pengembangan perangkat lunak yang dibantu AI. |
| 9 September 2024 | Memorag: Bergerak menuju kain gen berikutnya melalui penemuan pengetahuan yang terinspirasi memori | Retrieval-Augmented Generation (RAG) memanfaatkan alat pengambilan untuk mengakses basis data eksternal, sehingga meningkatkan kualitas generasi model bahasa besar (LLM) melalui konteks yang dioptimalkan. Namun, metode pengambilan yang ada dibatasi secara inheren, karena mereka hanya dapat melakukan pencocokan relevansi antara pertanyaan yang dinyatakan secara eksplisit dan pengetahuan yang dibentuk dengan baik, tetapi tidak dapat menangani tugas yang melibatkan kebutuhan informasi yang ambigu atau pengetahuan yang tidak terstruktur. Akibatnya, sistem kain yang ada terutama efektif untuk tugas-tugas yang dijawab secara langsung. Dalam karya ini, kami mengusulkan Memorag, sebuah paradigma generasi pengambilan baru yang diberdayakan oleh ingatan jangka panjang. Memorag mengadopsi arsitektur sistem ganda. Di satu sisi, ia menggunakan LLM yang ringan tetapi jangka panjang untuk membentuk memori global database. Setelah tugas disajikan, ia menghasilkan draft jawaban, petunjuk alat pengambilan untuk menemukan informasi yang berguna dalam database. Di sisi lain, ia memanfaatkan LLM yang mahal namun ekspresif, yang menghasilkan jawaban utama berdasarkan informasi yang diambil. Membangun kerangka kerja umum ini, kami lebih jauh mengoptimalkan kinerja memorag dengan meningkatkan mekanisme penglu dan kapasitas menghafal. Dalam percobaan kami, Memorag mencapai kinerja yang unggul di berbagai tugas evaluasi, termasuk kedua yang kompleks di mana kain konvensional gagal dan yang mudah di mana kain umumnya diterapkan. |
| 8 September 2024 | OneGen: Generasi dan Pengambilan Terpadu One-Pass yang Efisien untuk LLMS | Terlepas dari kemajuan baru -baru ini dalam model bahasa besar (LLM), yang secara signifikan meningkatkan kemampuan generatif untuk berbagai tugas NLP, LLM masih menghadapi keterbatasan dalam menangani tugas pengambilan secara langsung. Namun, banyak aplikasi praktis menuntut integrasi yang mulus dari pengambilan dan generasi. Makalah ini memperkenalkan kerangka kerja satu-pass dan pengambilan yang baru dan efisien (OneGen), yang dirancang untuk meningkatkan kinerja LLMS pada tugas-tugas yang membutuhkan generasi dan pengambilan. Kerangka kerja yang diusulkan menjembatani pendekatan pelatihan yang terpisah secara tradisional untuk pembangkitan dan pengambilan dengan memasukkan token pengambilan yang dihasilkan secara autoregresikan. Ini memungkinkan satu LLM untuk menangani kedua tugas secara bersamaan dalam umpan maju yang terpadu. Kami melakukan percobaan pada dua jenis tugas komposit yang berbeda, RAG dan Entity Linking, untuk memvalidasi pluggability, efektivitas, dan efisiensi OneGen dalam pelatihan dan inferensi. Selain itu, hasil kami menunjukkan bahwa mengintegrasikan generasi dan pengambilan dalam konteks yang sama menjaga kemampuan generatif LLM sambil meningkatkan kinerja pengambilan. Sepengetahuan kami, OneGen adalah yang pertama memungkinkan LLM untuk melakukan pengambilan vektor selama generasi. |
| 6 September 2024 | Kertas Copilot: Sistem LLM yang berkembang sendiri dan efisien untuk bantuan akademik yang dipersonalisasi | Ketika penelitian ilmiah berkembang biak, para peneliti menghadapi tugas yang menakutkan untuk menavigasi dan membaca literatur dalam jumlah besar. Solusi yang ada, seperti Dokumen QA, gagal memberikan informasi yang dipersonalisasi dan terkini secara efisien. Kami menyajikan kopilot makalah, sistem LLM yang berkembang sendiri dan efisien yang dirancang untuk membantu para peneliti, berdasarkan pemikiran pemikiran, profil pengguna, dan optimasi kinerja tinggi. Secara khusus, kertas kopilot dapat menawarkan layanan penelitian yang dipersonalisasi, memelihara database yang diperbarui secara real-time. Evaluasi kuantitatif menunjukkan bahwa kertas kopilot menghemat 69,92% waktu setelah penyebaran yang efisien. Makalah ini merinci desain dan implementasi kertas kopilot, menyoroti kontribusinya pada dukungan akademik yang dipersonalisasi dan potensinya untuk merampingkan proses penelitian. |
| 5 September 2024 | Perhatian Kepala Model Bahasa Besar: Survei | Sejak munculnya chatgpt, model bahasa besar (LLM) telah unggul dalam berbagai tugas tetapi tetap sebagai sistem kotak hitam. Akibatnya, kemungkinan kemacetan LLMS terutama dipengaruhi oleh arsitektur internal mereka. Akibatnya, banyak peneliti mulai mengeksplorasi potensi mekanisme internal LLM, dengan sebagian besar penelitian yang berfokus pada perhatian kepala. Survei kami bertujuan untuk menjelaskan proses penalaran internal LLM dengan berkonsentrasi pada mekanisme yang mendasari kepala perhatian. Kami pertama-tama menyaring proses pemikiran manusia menjadi kerangka kerja empat tahap: pengingat pengetahuan, identifikasi dalam konteks, penalaran laten, dan persiapan ekspresi. Dengan menggunakan kerangka kerja ini, kami secara sistematis meninjau penelitian yang ada untuk mengidentifikasi dan mengkategorikan fungsi kepala perhatian spesifik. Selain itu, kami merangkum metodologi eksperimental yang digunakan untuk menemukan kepala khusus ini, membaginya menjadi dua kategori: metode pemodelan bebas dan metode yang diminta pemodelan. Juga, kami menguraikan metode evaluasi dan tolok ukur yang relevan. Akhirnya, kami membahas keterbatasan penelitian saat ini dan mengusulkan beberapa arah masa depan yang potensial. |
| 5 September 2024 | Bagaimana kinerja kode LLMS Anda? Tuning Instruksi Kode Memberdayakan dengan Data Berkualitas Tinggi | Baru -baru ini, ada minat yang semakin besar dalam mempelajari cara membangun data penyetelan instruksi kode yang lebih baik. Namun, kami mengamati model kode yang dilatih dengan kumpulan data ini menunjukkan kinerja tinggi pada humaneval tetapi berkinerja lebih buruk pada tolok ukur lain seperti LiveCodebench. Setelah diselidiki lebih lanjut, kami menemukan bahwa banyak set data menderita kebocoran data yang parah. Setelah membersihkan sebagian besar data yang bocor, beberapa kumpulan data berkualitas tinggi berkinerja buruk. Penemuan ini mengungkapkan tantangan baru: mengidentifikasi dataset mana yang benar-benar memenuhi syarat sebagai data instruksi kode berkualitas tinggi. Untuk mengatasi hal ini, kami mengusulkan strategi pemangkasan data kode yang efisien untuk memilih sampel yang baik. Pendekatan kami didasarkan pada tiga dimensi: kompleksitas instruksi, kualitas respons, dan keragaman instruksi. Berdasarkan data yang kami pilih, kami menyajikan Xcoder, keluarga model yang lebih tinggi dari LLAMA3. Eksperimen kami menunjukkan Xcoder mencapai kinerja canggih baru menggunakan lebih sedikit data pelatihan, yang memverifikasi efektivitas strategi data kami. Selain itu, kami melakukan analisis komprehensif pada komposisi data dan menemukan kumpulan data kode yang ada memiliki karakteristik yang berbeda sesuai dengan metode konstruksi mereka, yang memberikan wawasan baru untuk LLM kode masa depan. Model dan dataset kami dirilis di https://github.com/banksy23/xcoder |
| 5 September 2024 | Dari MOOC ke MAIC: Membentuk kembali pengajaran dan pembelajaran online melalui agen yang digerakkan LLM | Sejak contoh pertama pendidikan online, di mana kursus diunggah ke platform online yang dapat diakses dan dibagikan, bentuk penskalaan penyebaran pengetahuan manusia ini untuk menjangkau audiens yang lebih luas telah memicu diskusi yang luas dan adopsi yang meluas. Menyadari bahwa pembelajaran yang dipersonalisasi masih memiliki potensi yang signifikan untuk perbaikan, teknologi AI baru telah terus diintegrasikan ke dalam format pembelajaran ini, menghasilkan berbagai aplikasi AI pendidikan seperti rekomendasi pendidikan dan bimbingan belajar yang cerdas. Munculnya kecerdasan dalam model bahasa besar (LLM) telah memungkinkan peningkatan pendidikan ini dibangun di atas model dasar terpadu, memungkinkan integrasi yang lebih dalam. Dalam konteks ini, kami mengusulkan MAIC (kursus AI-diberlakukan masif), bentuk baru pendidikan online yang memanfaatkan sistem multi-agen yang digerakkan LLM untuk membangun ruang kelas AI-Agusted, menyeimbangkan skalabilitas dengan adaptivitas. Di luar menjelajahi kerangka kerja konseptual dan inovasi teknis, kami melakukan eksperimen awal di Universitas Tsinghua, salah satu universitas terkemuka di Tiongkok. Menggambar dari lebih dari 100.000 catatan pembelajaran lebih dari 500 siswa, kami memperoleh serangkaian pengamatan berharga dan analisis awal. Proyek ini akan terus berkembang, pada akhirnya bertujuan untuk membangun platform terbuka yang komprehensif yang mendukung dan menyatukan penelitian, teknologi, dan aplikasi dalam mengeksplorasi kemungkinan pendidikan online di era AI model besar. Kami membayangkan platform ini sebagai pusat kolaboratif, menyatukan para pendidik, peneliti, dan inovator untuk secara kolektif menjelajahi masa depan pendidikan online yang digerakkan oleh AI. |
| 4 September 2024 | Longcite: Mengaktifkan LLM untuk menghasilkan kutipan berbutir halus di QA konteks panjang | Meskipun model bahasa besar konteks panjang saat ini (LLM) telah menunjukkan kapasitas yang mengesankan dalam menjawab pertanyaan pengguna berdasarkan teks yang luas, kurangnya kutipan dalam tanggapan mereka membuat verifikasi pengguna sulit, yang mengarah pada kekhawatiran tentang kepercayaan mereka karena potensi halusinasi mereka. Dalam karya ini, kami bertujuan untuk memungkinkan LLMS konteks panjang untuk menghasilkan tanggapan dengan kutipan tingkat kalimat berbutir halus, meningkatkan kesetiaan dan verifikasi mereka. Kami pertama kali memperkenalkan Longbench-Cite, tolok ukur otomatis untuk menilai kinerja LLMS saat ini dalam pertanyaan konteks panjang yang menjawab dengan kutipan (LQAC), mengungkapkan ruang yang cukup besar untuk perbaikan. Untuk tujuan ini, kami mengusulkan COF (kasar ke halus), pipa baru yang menggunakan LLMS di luar rak untuk secara otomatis menghasilkan instance QA konteks panjang dengan kutipan tingkat kalimat yang tepat, dan memanfaatkan pipa ini untuk membangun longcite-45k, a Dataset SFT skala besar untuk LQAC. Akhirnya, kami melatih LongCite-8B dan LongCite-9B menggunakan dataset LongCite-45K, berhasil memungkinkan generasi respons akurat dan kutipan tingkat kalimat yang halus dalam satu output. Hasil evaluasi pada Longbench-Cite menunjukkan bahwa model terlatih kami mencapai kualitas kutipan canggih, melampaui model kepemilikan canggih termasuk GPT-4O. |
| 4 September 2024 | Longllava: Mens, LLM multi-modal ke 1000 gambar secara efisien melalui arsitektur hybrid | Memperluas kemampuan konteks panjang dari model bahasa besar multi-modal ~ (MLLMS) sangat penting untuk pemahaman video, pemahaman gambar resolusi tinggi, dan agen multi-modal. Ini melibatkan serangkaian optimasi sistematis, termasuk arsitektur model, konstruksi data dan strategi pelatihan, khususnya mengatasi tantangan seperti textit {kinerja yang terdegradasi dengan lebih banyak gambar} dan textit {biaya komputasi tinggi}. Dalam makalah ini, kami menyesuaikan arsitektur model dengan hibrida mamba dan blok transformator, mendekati konstruksi data dengan ketergantungan temporal dan spasial di antara banyak gambar dan menggunakan strategi pelatihan progresif. Model yang dirilis textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd MLLM hibrida pertama, yang mencapai keseimbangan yang lebih baik antara efisiensi dan efektivitas. Longllava tidak hanya mencapai hasil kompetitif di berbagai tolok ukur, tetapi juga mempertahankan throughput tinggi dan konsumsi memori yang rendah. Terutama, itu dapat memproses hampir seribu gambar pada GPU A100 80GB tunggal, menunjukkan prospek aplikasi yang menjanjikan untuk berbagai tugas. |
| 4 September 2024 | Menuju pandangan terpadu tentang pembelajaran preferensi untuk model bahasa besar: survei | Model Bahasa Besar (LLM) menunjukkan kemampuan yang sangat kuat. Salah satu faktor penting untuk mencapai kesuksesan adalah menyelaraskan output LLM dengan preferensi manusia. Proses penyelarasan ini seringkali hanya membutuhkan sedikit data untuk meningkatkan kinerja LLM secara efisien. Sementara efektif, penelitian di bidang ini mencakup banyak domain, dan metode yang terlibat relatif kompleks untuk dipahami. Hubungan antara berbagai metode telah dieksplorasi, membatasi pengembangan penyelarasan preferensi. Mengingat hal ini, kami memecah strategi penyelarasan populer yang ada menjadi komponen yang berbeda dan memberikan kerangka kerja terpadu untuk mempelajari strategi penyelarasan saat ini, sehingga membangun koneksi di antara mereka. Dalam survei ini, kami menguraikan semua strategi dalam pembelajaran preferensi menjadi empat komponen: model, data, umpan balik, dan algoritma. Pandangan terpadu ini menawarkan pemahaman mendalam tentang algoritma penyelarasan yang ada dan juga membuka kemungkinan untuk mensinergikan kekuatan strategi yang berbeda. Selain itu, kami menyajikan contoh kerja terperinci dari algoritma yang ada untuk memfasilitasi pemahaman yang komprehensif bagi para pembaca. Akhirnya, berdasarkan perspektif terpadu kami, kami mengeksplorasi tantangan dan arahan penelitian di masa depan untuk menyelaraskan model bahasa besar dengan preferensi manusia. |
| 4 September 2024 | Membangun agen matematika dengan pembelajaran preferensi berulang multi-giliran | Studi terbaru telah menunjukkan bahwa kemampuan pemecahan masalah matematika model (LLMS) (LLMS) dapat ditingkatkan dengan mengintegrasikan alat-alat eksternal, seperti penerjemah kode, dan menggunakan penalaran rantai (COT) multi-turn. Sementara metode saat ini fokus pada pembuatan data sintetis dan diawasi fine-tuning (SFT), makalah ini mempelajari pendekatan pembelajaran preferensi langsung komplementer untuk lebih meningkatkan kinerja model. Namun, algoritma pembelajaran preferensi langsung yang ada pada awalnya dirancang untuk tugas obrolan satu putaran, dan tidak sepenuhnya membahas kompleksitas penalaran multi-turn dan integrasi alat eksternal yang diperlukan untuk tugas penalaran matematika yang terintegrasi dengan alat. Untuk mengisi celah ini, kami memperkenalkan kerangka pembelajaran preferensi langsung multi-t-belok, dirancang untuk konteks ini, yang memanfaatkan umpan balik dari penerjemah kode dan mengoptimalkan preferensi tingkat lintasan. Kerangka kerja ini mencakup DPO multi-giliran dan multi-turn KTO sebagai implementasi spesifik. Efektivitas kerangka kerja kami divalidasi melalui pelatihan berbagai model bahasa menggunakan set prompt augmented dari dataset GSM8K dan matematika. Hasil kami menunjukkan peningkatan substansial: kinerja model GEMMA-1-IT-7B yang diawasi yang diawasi meningkat dari 77,5% menjadi 83,9% pada GSM8K dan dari 46,1% menjadi 51,2% pada matematika. Demikian pula, model GEMMA-2-IT-9B meningkat dari 84,1% menjadi 86,3% pada GSM8K dan dari 51,0% menjadi 54,5% pada matematika. |
| 3 September 2024 | OLMOE: Model Bahasa Campuran Terbuka Ekspertion | Kami memperkenalkan Olmoe, model bahasa yang sepenuhnya terbuka, yang memanfaatkan campuran-of-Experts (MOE). OLMOE-1B-7B memiliki 7 miliar (b) parameter tetapi hanya menggunakan 1b per input token. Kami pretrain pada 5 triliun token dan selanjutnya menyesuaikannya untuk membuat olmoe-1b-7b-instruct. Model kami mengungguli semua model yang tersedia dengan parameter aktif yang sama, bahkan melampaui yang lebih besar seperti llama2-13b-cat dan deepseekmoe-16b. Kami menyajikan berbagai percobaan pada pelatihan MOE, menganalisis perutean dalam model kami yang menunjukkan spesialisasi tinggi, dan open-source semua aspek pekerjaan kami: bobot model, data pelatihan, kode, dan log. |
| 2 September 2024 | GenAgent: Bangun sistem AI kolaboratif dengan generasi alur kerja otomatis - studi kasus di comfyui | Banyak penelitian AI sebelumnya telah berfokus pada pengembangan model monolitik untuk memaksimalkan kecerdasan dan kemampuan mereka, dengan tujuan utama meningkatkan kinerja pada tugas -tugas tertentu. Sebaliknya, makalah ini mengeksplorasi pendekatan alternatif: sistem AI kolaboratif yang menggunakan alur kerja untuk mengintegrasikan model, sumber data, dan pipa untuk menyelesaikan tugas yang kompleks dan beragam. Kami memperkenalkan GenAgent, kerangka kerja berbasis LLM yang secara otomatis menghasilkan alur kerja yang kompleks, menawarkan fleksibilitas dan skalabilitas yang lebih besar dibandingkan dengan model monolitik. Inovasi inti GenAgent terletak pada mewakili alur kerja dengan kode, di samping membangun alur kerja dengan agen kolaboratif secara langkah demi langkah. Kami mengimplementasikan GenAgent pada platform Comfyui dan mengusulkan tolok ukur baru, OpenComfy. Hasilnya menunjukkan bahwa GenAgent mengungguli pendekatan dasar dalam evaluasi level dan tingkat tugas, menunjukkan kemampuannya untuk menghasilkan alur kerja yang kompleks dengan efektivitas dan stabilitas yang unggul. |
| 2 September 2024 | Videollamb: Pemahaman video konteks panjang dengan jembatan memori berulang | Kemajuan terbaru dalam model bahasa video skala besar telah menunjukkan potensi signifikan untuk perencanaan real-time dan interaksi terperinci. Namun, tuntutan komputasi yang tinggi dan kelangkaan dataset beranotasi membatasi kepraktisan mereka bagi peneliti akademik. Dalam karya ini, kami memperkenalkan Videollamb, kerangka kerja baru yang memanfaatkan token memori temporal dalam lapisan jembatan untuk memungkinkan pengkodean seluruh urutan video di samping data visual historis, secara efektif menjaga kontinuitas semantik dan meningkatkan kinerja model di berbagai tugas. Pendekatan ini mencakup token memori berulang dan algoritma pemandangan, yang segmen video menjadi unit semantik independen untuk mempertahankan integritas semantik. Secara empiris, Videollamb secara signifikan melampaui model bahasa video yang ada, menunjukkan peningkatan 5,5 poin atas para pesaingnya di tiga tolok ukur VideoQA, dan 2,06 poin pada perencanaan egosentris. Hasil komprehensif pada MVBench menunjukkan bahwa Videollamb-7b mencapai hasil yang jauh lebih baik daripada model 7B sebelumnya dari LLM yang sama. Hebatnya, ia mempertahankan kinerja yang kuat sebagai pllava bahkan ketika panjang video meningkat hingga 8 kali. Selain itu, hasil pengambilan bingkai pada jarum khusus kami dalam tolok ukur video haystack (NIAVH), lebih lanjut memvalidasi kehebatan Videollamb dalam mengidentifikasi frame spesifik secara akurat dalam video yang panjang. Algoritma pemandangan kami juga memungkinkan generasi streaming teks video secara langsung, tanpa memerlukan pelatihan tambahan. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language model dalam aplikasi akademik dan praktis. |
| 1 September 2024 | ContextCite: Mengaitkan generasi model dengan konteks | Bagaimana model bahasa menggunakan informasi yang disediakan sebagai konteks saat menghasilkan respons? Bisakah kita menyimpulkan apakah pernyataan yang dihasilkan tertentu sebenarnya didasarkan pada konteks, salah tafsir, atau dibuat -buat? Untuk membantu menjawab pertanyaan -pertanyaan ini, kami memperkenalkan masalah atribusi konteks: menunjukkan bagian -bagian konteks (jika ada) yang memimpin model untuk menghasilkan pernyataan tertentu. Kami kemudian menyajikan ContextCite, metode yang sederhana dan dapat diskalakan untuk atribusi konteks yang dapat diterapkan di atas model bahasa yang ada. Akhirnya, kami memamerkan kegunaan ContextCite melalui tiga aplikasi: (1) membantu memverifikasi pernyataan yang dihasilkan (2) meningkatkan kualitas respons dengan memangkas konteks dan (3) mendeteksi serangan keracunan. Kami menyediakan kode untuk ContextCite di https://github.com/madrylab/context-cite. |
| 31 Agustus 2024 | LongRecipe: Resep untuk generalisasi konteks panjang yang efisien dalam model bahasa besar | Model Bahasa Besar (LLM) menghadapi tantangan yang signifikan dalam menangani tugas konteks panjang karena ukuran jendela konteks efektifnya yang terbatas selama pretraining, yang membatasi kemampuan mereka untuk menggeneralisasi lebih dari sekuens yang diperluas. Sementara itu, memperluas jendela konteks di LLMS melalui pasca-pretraining sangat padat sumber daya. Untuk mengatasi hal ini, kami memperkenalkan LongRecipe, strategi pelatihan yang efisien untuk memperluas jendela konteks LLM, termasuk analisis token yang berdampak, transformasi indeks posisi, dan strategi optimasi pelatihan. Ini mensimulasikan input urutan panjang sambil mempertahankan efisiensi pelatihan dan secara signifikan meningkatkan pemahaman model tentang ketergantungan jangka panjang. Eksperimen pada tiga jenis LLMs menunjukkan bahwa LongRecipe dapat memanfaatkan urutan panjang sambil membutuhkan hanya 30% dari ukuran jendela konteks target, dan mengurangi sumber daya pelatihan komputasi lebih dari 85% dibandingkan dengan pelatihan urutan penuh. Selain itu, LongRecipe juga mempertahankan kemampuan LLM asli dalam tugas -tugas umum. Pada akhirnya, kita dapat memperluas jendela konteks efektif LLMS sumber terbuka dari 8k ke 128k, mencapai kinerja yang dekat dengan GPT-4 hanya dengan satu hari pelatihan khusus menggunakan GPU tunggal dengan memori 80G. Kode kami dirilis di https://github.com/zhiyuanhubj/longrecipe. |
| 29 Agustus 2024 | Mini-Omni: Model bahasa dapat mendengar, berbicara sambil berpikir dalam streaming | Kemajuan terbaru dalam model bahasa telah mencapai kemajuan yang signifikan. GPT-4O, sebagai tonggak baru, telah memungkinkan percakapan real-time dengan manusia, menunjukkan kefasihan alami yang hampir manusia. Interaksi manusia-komputer tersebut memerlukan model dengan kemampuan untuk melakukan penalaran secara langsung dengan modalitas audio dan menghasilkan output dalam streaming. Namun, ini tetap di luar jangkauan model akademik saat ini, karena mereka biasanya bergantung pada sistem TTS tambahan untuk sintesis bicara, yang menghasilkan latensi yang tidak diinginkan. Makalah ini memperkenalkan Mini-OMNI, model percakapan end-to-end berbasis audio, yang mampu melakukan interaksi bicara real-time. Untuk mencapai kemampuan ini, kami mengusulkan metode pembuatan wicara yang diinstruksikan teks, bersama dengan strategi paralel batch selama inferensi untuk lebih meningkatkan kinerja. Metode kami juga membantu mempertahankan kemampuan bahasa model asli dengan degradasi minimal, memungkinkan pekerjaan lain untuk membangun kemampuan interaksi real-time. Kami menyebut metode pelatihan ini "model apa pun yang bisa t
Memperluas
Informasi Tambahan
Aplikasi Terkait
Direkomendasikan untuk Anda
Informasi Terkait
Semua
|