Unduh data selection survey - Unduh Kode Sumber data selection survey

data selection survey

Kode Sumber AI

1.0.0

Unduh

Survei Pilihan Data untuk Model Bahasa

Repo ini adalah daftar makalah yang nyaman yang relevan dengan pemilihan data untuk model bahasa, selama semua tahap pelatihan. Ini dimaksudkan untuk menjadi sumber daya bagi masyarakat, jadi silakan berkontribusi jika Anda melihat sesuatu yang hilang!

Untuk detail lebih lanjut tentang karya -karya ini, dan banyak lagi, lihat makalah survei kami: survei tentang pemilihan data untuk model bahasa. Oleh tim yang luar biasa ini: Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert, Xinyi Wang, Niklas Muennighoff, Bairu Hou, Pan Liangming, Haewon Jeong, Rafel Colin, Shiyu Chang, Tatsunori Hashimoto Hashimot, Colin Yang Wank, Shiyu, Tatsunori Hashimoto Hashimot, Colin Lahan, Shiyu, Tatsunori Hashimoto Hashimot, Colin Lahan, Tatsunu Hashimot, Tatsunu Hashimot, Tatsunu Hashimoto,

Demonstrasi konseptual pipa data untuk pelatihan model bahasa

Daftar isi

Pemilihan data untuk pretraining
- Penyaringan bahasa
- Pendekatan heuristik
- Kualitas Data
- Seleksi khusus domain
- Deduplikasi data
- Memfilter konten beracun dan eksplisit
- Seleksi khusus untuk model multibahasa
- Pencampuran data
Pemilihan data untuk pelatihan penyetelan instruksi dan multitask
Pemilihan data untuk penyelarasan penyempurnaan preferensi
Pemilihan data untuk pembelajaran dalam konteks
Pemilihan data untuk fine-tuning khusus tugas

Pemilihan data untuk pretraining

Konseptualisasi tujuan dan kendala pada pemilihan data untuk pretraining

Penyaringan bahasa

Kembali ke Daftar Isi

FastText.zip: Model Klasifikasi Teks Mengompres: 2016
Armand Joulin dan Edouard Grave dan Piotr Bojanowski dan Matthijs Douze dan Hérve Jégou dan Tomas Mikolov
Belajar kata vektor untuk 157 bahasa: 2018
Grave, Edouard dan Bojanowski, Piotr dan Gupta, Prakhar dan Joulin, Armand dan Mikolov, Tomas
Model bahasa lintas-bahasa pretraining: 2019
Conneau, Alexis and Lample, Guillaume
Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu: 2020
Raffel, Colin dan Shazeer, Noam dan Roberts, Adam ... 3 Tersembunyi ... Zhou, Yanqi dan Li, Wei dan Liu, Peter J.
ID Bahasa di alam liar: Tantangan tak terduga di jalan menuju seribu teks web Corpus: 2020
Caswell, Isaac dan Breiner, Theresa dan Van Esch, Daan dan Bapna, Ankur
Pembelajaran representasi lintas-bahasa tanpa pengawasan pada skala: 2020
Conneau, Alexis dan Khandelwal, Kartikay dan Goyal, Naman ... 4 Tersembunyi ... Ott, Myle dan Zettlemoyer, Luke dan Stoyanov, Veselin
CCNET: Mengekstraksi Dataset Monolingual Berkualitas Tinggi dari Web Crawl Data: 2020
Wenzek, Guillaume dan Lachaux, Marie-Anne dan Conneau, Alexis ... 1 Tersembunyi ... Guzm'an, Francisco dan Joulin, Armand dan Grave, Edouard
Reproduksi model LSTM bi-directional Apple untuk identifikasi bahasa dalam string pendek: 2021
Toftrup, Mads dan Asger Sorensen, Soren dan Ciosici, Manuel R. dan Assent, IRA
Mengevaluasi model bahasa besar yang dilatih pada kode: 2021
Mark Chen dan Jerry Tworek dan Heewoo Jun ... 52 Tersembunyi ... Sam McCandlish dan Ilya Sutskever dan Wojciech Zaremba
MT5: Transformator Teks-ke-Teks Pra-Latih Multilingual: 2021
Xue, berjarak dan konstan, Nuh dan Roberts, Adam ... 2 Tersembunyi ... Siddhant, Aditya dan Barua, Aditya dan Rafel, Colin
Pembuatan kode tingkat kompetisi dengan alphacode: 2022
Li, Yujia dan Choi, David dan Chung, Junyoung ... 20 Tersembunyi ... De Freitas, Nando dan Kavukcuoglu, Koray dan Vinyal, Oriol
Palm: Pemodelan Bahasa Penskalaan dengan Jalur: 2022
Aakanksha Chowdhery dan Sharan Narang dan Jacob Devlin ... 61 Tersembunyi ... Jeff Dean dan Slave Petrov dan Noah Fiedel
The BigScience Roots Corpus: Dataset Multilingual Komposit 1.6TB: 2022
Laurenccon, Hugo dan Saulnier, Lucile dan Wang, Thomas ... 48 Tersembunyi ... Mitchell, Margaret dan Luccioni, Sasha Alexandra dan Jernite, Yacine
Sistem Penulisan dan Metadata Pembicara untuk 2.800+ Varietas Bahasa: 2022
Van Esch, Daan dan Lucassen, Tamar dan Ruder, Sebastian dan Caswell, Isaac dan Rivera, Clara
Fingpt: Model generatif besar untuk bahasa kecil: 2023
Luukkonen, Risto dan Komulainen, Ville dan Luoma, Jouni ... 5 Tersembunyi ... Muennighoff, Niklas dan Piktus, Aleksandra dan lainnya
MC^ 2: Korpus multibahasa bahasa minoritas di Cina: 2023
Zhang, Chen dan Tao, Mingxu dan Huang, Quzhe dan Lin, Jiuheng dan Chen, Zhibin dan Feng, Yansong
Madlad-400: Dataset Besar Multilingual dan Level Dokumen: 2023
Kudugunta, Sneha dan Caswell, Isaac dan Zhang, Biao ... 5 Tersembunyi ... Stella, Romi dan Bapna, Ankur dan lainnya
Dataset RefinedWeb untuk Falcon LLM: Mengungguli Korpor Kurator dengan Data Web, dan Data Web saja: 2023
Guilherme Penedo dan Quentin Malartic dan Daniel Hesslow ... 3 Tersembunyi ... Baptiste Pannier dan Ebtesam Almazrouei dan Julien Launay
Dolma: Sebuah korpus terbuka dengan tiga triliun token untuk Model Bahasa Pretraining Research: 2024
Luca Soldaini dan Rodney Kinney dan Akshita Bhagia ... 30 Tersembunyi ... Dirk Groeneveld dan Jesse Dodge dan Kyle Lo

Pendekatan heuristik

Kembali ke Daftar Isi

Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu: 2020
Raffel, Colin dan Shazeer, Noam dan Roberts, Adam ... 3 Tersembunyi ... Zhou, Yanqi dan Li, Wei dan Liu, Peter J.
Model bahasa adalah beberapa pelajar: 2020
Brown, Tom dan Mann, Benjamin dan Ryder, Nick ... 25 Tersembunyi ... Radford, Alec dan Sutskever, Ilya dan Amodei, Dario
Tumpukan: Dataset 800GB dari beragam teks untuk Pemodelan Bahasa: 2020
Leo Gao dan Stella Biderman dan Sid Black ... 6 Tersembunyi ... Noa Nabeshima dan Shawn Presser dan Connor Leahy
Mengevaluasi model bahasa besar yang dilatih pada kode: 2021
Mark Chen dan Jerry Tworek dan Heewoo Jun ... 52 Tersembunyi ... Sam McCandlish dan Ilya Sutskever dan Wojciech Zaremba
MT5: Transformator Teks-ke-Teks Pra-Latih Multilingual: 2021
Xue, berjarak dan konstan, Nuh dan Roberts, Adam ... 2 Tersembunyi ... Siddhant, Aditya dan Barua, Aditya dan Rafel, Colin
Model Bahasa Skala: Metode, Analisis & Wawasan dari Pelatihan Gopher: 2022
Jack W. Rae dan Sebastian Borgeaud dan Trevor Cai ... 74 Tersembunyi ... Demis Hassabis dan Koray Kavukcuoglu dan Geoffrey Irving
The BigScience Roots Corpus: Dataset Multilingual Komposit 1.6TB: 2022
Laurenccon, Hugo dan Saulnier, Lucile dan Wang, Thomas ... 48 Tersembunyi ... Mitchell, Margaret dan Luccioni, Sasha Alexandra dan Jernite, Yacine
HTLM: Pra-pelatihan Hyper-Text dan dorongan Model Bahasa: 2022
Armen Aghajanyan dan Dmytro Okhonko dan Mike Lewis ... 1 Tersembunyi ... Hu Xu dan Gargi Ghosh dan Luke Zettlemoyer
Llama: Model Bahasa Yayasan Terbuka dan Efisien: 2023
Hugo Touvron dan Thibaut Lavril dan Gautier Izacard ... 8 Tersembunyi ... Armand Joulin dan Edouard Grave dan Guillaume Lample
Dataset RefinedWeb untuk Falcon LLM: Mengungguli Korpor Kurator dengan Data Web, dan Data Web saja: 2023
Guilherme Penedo dan Quentin Malartic dan Daniel Hesslow ... 3 Tersembunyi ... Baptiste Pannier dan Ebtesam Almazrouei dan Julien Launay
Indeks Transparansi Model Yayasan: 2023
Bommasani, Rishi dan Klyman, Kevin dan Longpre, Shayne ... 2 Tersembunyi ... Xiong, Betty dan Zhang, Daniel dan Liang, Percy
Dolma: Sebuah korpus terbuka dengan tiga triliun token untuk Model Bahasa Pretraining Research: 2024
Luca Soldaini dan Rodney Kinney dan Akshita Bhagia ... 30 Tersembunyi ... Dirk Groeneveld dan Jesse Dodge dan Kyle Lo

Kualitas Data

Kembali ke Daftar Isi

Kenlm: Model bahasa yang lebih cepat dan lebih kecil pertanyaan: 2011
HEAFELY, KENNETH
FastText.zip: Model Klasifikasi Teks Mengompres: 2016
Armand Joulin dan Edouard Grave dan Piotr Bojanowski dan Matthijs Douze dan Hérve Jégou dan Tomas Mikolov
Belajar kata vektor untuk 157 bahasa: 2018
Grave, Edouard dan Bojanowski, Piotr dan Gupta, Prakhar dan Joulin, Armand dan Mikolov, Tomas
Model bahasa adalah pelajar multitask tanpa pengawasan: 2019
Alec Radford dan Jeff Wu dan Rewon Child dan David Luan dan Dario Amodei dan Ilya Sutskever
Model bahasa adalah beberapa pelajar: 2020
Brown, Tom dan Mann, Benjamin dan Ryder, Nick ... 25 Tersembunyi ... Radford, Alec dan Sutskever, Ilya dan Amodei, Dario
Tumpukan: Dataset 800GB dari beragam teks untuk Pemodelan Bahasa: 2020
Leo Gao dan Stella Biderman dan Sid Black ... 6 Tersembunyi ... Noa Nabeshima dan Shawn Presser dan Connor Leahy
CCNET: Mengekstraksi Dataset Monolingual Berkualitas Tinggi dari Web Crawl Data: 2020
Wenzek, Guillaume dan Lachaux, Marie-Anne dan Conneau, Alexis ... 1 Tersembunyi ... Guzm'an, Francisco dan Joulin, Armand dan Grave, Edouard
Detoksifikasi Model Bahasa berisiko meminggirkan suara minoritas: 2021
Xu, Albert dan Pathak, Eshaan dan Wallace, Eric dan Gururangan, Suchin dan Sap, Maarten dan Klein, Dan
Palm: Pemodelan Bahasa Penskalaan dengan Jalur: 2022
Aakanksha Chowdhery dan Sharan Narang dan Jacob Devlin ... 61 Tersembunyi ... Jeff Dean dan Slave Petrov dan Noah Fiedel
Model Bahasa Skala: Metode, Analisis & Wawasan dari Pelatihan Gopher: 2022
Jack W. Rae dan Sebastian Borgeaud dan Trevor Cai ... 74 Tersembunyi ... Demis Hassabis dan Koray Kavukcuoglu dan Geoffrey Irving
Bahasa siapa berkualitas tinggi? Mengukur ideologi bahasa dalam pemilihan data teks: 2022
Gururangan, Suchin and Card, Dallas dan Dreier, Sarah ... 2 Tersembunyi ... Wang, Zeyu dan Zettlemoyer, Luke dan Smith, Noah A.
Glam: Penskalaan Efisien Model Bahasa dengan Campuran-Eksperti: 2022
Du, Nan dan Huang, Yanping dan Dai, Andrew M ... 21 Tersembunyi ... Wu, Yonghui dan Chen, Zhifeng dan Cui, Claire
Panduan Pretrainer untuk Data Pelatihan: Mengukur Efek Usia Data, Cakupan Domain, Kualitas, & Toksisitas: 2023
Shayne Longpre dan Gregory Yauney dan Emily Reif ... 5 Tersembunyi ... Kevin Robinson dan David Mimno dan Daphne Ippolito
Pemilihan Data untuk Model Bahasa melalui Pentingnya Resampling: 2023
Sang Michael Xie dan Shibani Santurkar dan Tengyu Ma dan Percy Liang
Dataset RefinedWeb untuk Falcon LLM: Mengungguli Korpor Kurator dengan Data Web, dan Data Web saja: 2023
Guilherme Penedo dan Quentin Malartic dan Daniel Hesslow ... 3 Tersembunyi ... Baptiste Pannier dan Ebtesam Almazrouei dan Julien Launay
Dolma: Sebuah korpus terbuka dengan tiga triliun token untuk Model Bahasa Pretraining Research: 2024
Luca Soldaini dan Rodney Kinney dan Akshita Bhagia ... 30 Tersembunyi ... Dirk Groeneveld dan Jesse Dodge dan Kyle Lo
Pemrograman Setiap contoh: Mengangkat kualitas data pra-pelatihan seperti para ahli pada skala: 2024
Fan Zhou dan Zengzhi Wang dan Qian Liu dan Junlong Li dan Pengfei Liu

Seleksi khusus domain

Kembali ke Daftar Isi

Akuisisi Data Teks untuk Model Bahasa Spesifik Domain: 2006
Sethy, Abhinav dan Georgiou, Panayiotis G. dan Narayanan, Shrikanth
Pilihan Cerdas Data Pelatihan Model Bahasa: 2010
Moore, Robert C. dan Lewis, William
Pemilihan sinis dari data pelatihan model bahasa: 2017
Amittai Axelrod
Pemilihan dokumen otomatis untuk pretraining enkoder yang efisien: 2022
Feng, Yukun dan Xia, Patrick dan Van Durme, Benjamin dan Sedoc, Jo ~ AO
Pemilihan Data untuk Model Bahasa melalui Pentingnya Resampling: 2023
Sang Michael Xie dan Shibani Santurkar dan Tengyu Ma dan Percy Liang
DSDM: Model-Ware Dataset Seleksi dengan Datamodels: 2024
Logan Engstrom dan Axel Feldmann dan Aleksander Madry

Deduplikasi data

Kembali ke Daftar Isi

Pertukaran luar angkasa/waktu dalam pengkodean hash dengan kesalahan yang diijinkan: 1970
Bloom, Burton H.
Array Suffix: Metode baru untuk pencarian string on-line: 1993
Manber, Udi dan Myers, Gene
Tentang kemiripan dan penahanan dokumen: 1997
Broder, AZ
Teknik Estimasi Kesamaan dari Algoritma Pembulatan: 2002
Charisikar, Moses S.
Normalisasi URL untuk de-duplikasi halaman web: 2009
Agarwal, Amit dan Koppula, Hema Swetha dan Leela, Krishna P .... 3 Tersembunyi ... Haty, Chittaranjan dan Roy, Anirban dan Sasturkar, Amit
Pipa -saluran asinkron untuk memproses korpora besar pada infrastruktur sumber daya menengah ke rendah: 2019
Pedro Javier Ortiz Su'arez dan Beno^It Sagot dan Laurent Romary
Model bahasa adalah beberapa pelajar: 2020
Brown, Tom dan Mann, Benjamin dan Ryder, Nick ... 25 Tersembunyi ... Radford, Alec dan Sutskever, Ilya dan Amodei, Dario
Tumpukan: Dataset 800GB dari beragam teks untuk Pemodelan Bahasa: 2020
Leo Gao dan Stella Biderman dan Sid Black ... 6 Tersembunyi ... Noa Nabeshima dan Shawn Presser dan Connor Leahy
CCNET: Mengekstraksi Dataset Monolingual Berkualitas Tinggi dari Web Crawl Data: 2020
Wenzek, Guillaume dan Lachaux, Marie-Anne dan Conneau, Alexis ... 1 Tersembunyi ... Guzm'an, Francisco dan Joulin, Armand dan Grave, Edouard
Di luar hukum penskalaan saraf: mengalahkan penskalaan hukum kekuasaan melalui pemangkasan data: 2022
Ben Sorscher dan Robert Geirhos dan Shashank Shekhar dan Surya Ganguli dan Ari S. Morcos
Deduplicating Training Data Membuat Model Bahasa Lebih Baik: 2022
Lee, Katherine dan Ippolito, Daphne dan Nystrom, Andrew ... 1 Tersembunyi ... Eck, Douglas dan Callison-Burch, Chris dan Carlini, Nicholas
MTEB: Benchmark Embedding Teks Masif: 2022
Muennighoff, Niklas dan Tazi, Nouamane dan Magne, lo "ic dan reimers, nils
Palm: Pemodelan Bahasa Penskalaan dengan Jalur: 2022
Aakanksha Chowdhery dan Sharan Narang dan Jacob Devlin ... 61 Tersembunyi ... Jeff Dean dan Slave Petrov dan Noah Fiedel
Model Bahasa Skala: Metode, Analisis & Wawasan dari Pelatihan Gopher: 2022
Jack W. Rae dan Sebastian Borgeaud dan Trevor Cai ... 74 Tersembunyi ... Demis Hassabis dan Koray Kavukcuoglu dan Geoffrey Irving
SGPT: GPT Kalimat Embeddings Untuk Pencarian Semantic: 2022
Muennighoff, Niklas
The BigScience Roots Corpus: Dataset Multilingual Komposit 1.6TB: 2022
Laurenccon, Hugo dan Saulnier, Lucile dan Wang, Thomas ... 48 Tersembunyi ... Mitchell, Margaret dan Luccioni, Sasha Alexandra dan Jernite, Yacine
C-PACK: Sumber Daya untuk Memajukan Embedding Tiongkok Umum: 2023
Xiao, Shitao dan Liu, Zheng dan Zhang, Peitian dan Muennighoff, Niklas
D4: Meningkatkan pretraining LLM melalui de-duplikasi dan diversifikasi Dokumen: 2023
Kushal Tirumala dan Daniel Simig dan Armen Aghajanyan dan Ari S. Morcos
Deduplikasi mendekati skala besar di belakang Bigcode: 2023
Mou, Chenghao
Paloma: Benchmark untuk Mengevaluasi Model Bahasa Fit: 2023
Ian Magnusson dan Akshita Bhagia dan Valentin Hofmann ... 10 Tersembunyi ... Nuh A. Smith dan Kyle Richardson dan Jesse Dodge
Mengukur menghafal di seluruh model bahasa saraf: 2023
Nicholas Carlini dan Daphne Ippolito dan Matthew Jagielski dan Katherine Lee dan Florian Tramer dan Chiyuan Zhang
Semdedup: Pembelajaran Data-Efisien di Web-Scale Melalui Deduplikasi Semantik: 2023
Abbas, Amro dan Tirumala, Kushal dan Simig, D'Aliel dan Ganguli, Surya dan Morcos, Ari S
Dataset RefinedWeb untuk Falcon LLM: Mengungguli Korpor Kurator dengan Data Web, dan Data Web saja: 2023
Guilherme Penedo dan Quentin Malartic dan Daniel Hesslow ... 3 Tersembunyi ... Baptiste Pannier dan Ebtesam Almazrouei dan Julien Launay
Apa yang ada di data besar saya?: 2023
Elazar, Yanai dan Bhagia, Akshita dan Magnusson, Ian ... 5 Tersembunyi ... Soldaini, Luca dan Singh, Sameer dan lainnya
Dolma: Sebuah korpus terbuka dengan tiga triliun token untuk Model Bahasa Pretraining Research: 2024
Luca Soldaini dan Rodney Kinney dan Akshita Bhagia ... 30 Tersembunyi ... Dirk Groeneveld dan Jesse Dodge dan Kyle Lo
Tuning Instruksi Representasi Generatif: 2024
Muennighoff, Niklas dan Su, Hongjin dan Wang, Liang ... 2 Tersembunyi ... Yu, Tao dan Singh, Amanpreet dan Kiela, Douwe

Memfilter konten beracun dan eksplisit

Kembali ke Daftar Isi

Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu: 2020
Raffel, Colin dan Shazeer, Noam dan Roberts, Adam ... 3 Tersembunyi ... Zhou, Yanqi dan Li, Wei dan Liu, Peter J.
MT5: Transformator Teks-ke-Teks Pra-Latih Multilingual: 2021
Xue, berjarak dan konstan, Nuh dan Roberts, Adam ... 2 Tersembunyi ... Siddhant, Aditya dan Barua, Aditya dan Rafel, Colin
Bingung dengan kualitas: metode berbasis kebingungan untuk deteksi konten dewasa dan berbahaya dalam data web heterogen multibahasa: 2022
Tim Jansen dan Yangling Tong dan Victoria Zevallos dan Pedro Ortiz Suarez
Model Bahasa Skala: Metode, Analisis & Wawasan dari Pelatihan Gopher: 2022
Jack W. Rae dan Sebastian Borgeaud dan Trevor Cai ... 74 Tersembunyi ... Demis Hassabis dan Koray Kavukcuoglu dan Geoffrey Irving
The BigScience Roots Corpus: Dataset Multilingual Komposit 1.6TB: 2022
Laurenccon, Hugo dan Saulnier, Lucile dan Wang, Thomas ... 48 Tersembunyi ... Mitchell, Margaret dan Luccioni, Sasha Alexandra dan Jernite, Yacine
Bahasa siapa berkualitas tinggi? Mengukur ideologi bahasa dalam pemilihan data teks: 2022
Gururangan, Suchin and Card, Dallas dan Dreier, Sarah ... 2 Tersembunyi ... Wang, Zeyu dan Zettlemoyer, Luke dan Smith, Noah A.
Panduan Pretrainer untuk Data Pelatihan: Mengukur Efek Usia Data, Cakupan Domain, Kualitas, & Toksisitas: 2023
Shayne Longpre dan Gregory Yauney dan Emily Reif ... 5 Tersembunyi ... Kevin Robinson dan David Mimno dan Daphne Ippolito
Dataset pelatihan gambar AI ditemukan termasuk citra pelecehan seksual anak: 2023
David, Emilia
Mendeteksi Informasi Pribadi dalam Pelatihan Korpora: An Analisis: 2023
Subramani, Nishant dan Luccioni, Sasha dan Dodge, Jesse dan Mitchell, Margaret
GPT-4 Laporan Teknis: 2023
Openai dan: Dan Josh Achiam ... 276 Tersembunyi ... Juntang Zhuang dan William Zhuk dan Barret Zoph
Santacoder: Jangan Raih Bintang!: 2023
Allal, Loubna Ben dan Li, Raymond dan Kocetkov, Denis ... 5 Tersembunyi ... Gu, Alex dan Dey, Manan dan Lainnya
Dataset RefinedWeb untuk Falcon LLM: Mengungguli Korpor Kurator dengan Data Web, dan Data Web saja: 2023
Guilherme Penedo dan Quentin Malartic dan Daniel Hesslow ... 3 Tersembunyi ... Baptiste Pannier dan Ebtesam Almazrouei dan Julien Launay
Indeks Transparansi Model Yayasan: 2023
Bommasani, Rishi dan Klyman, Kevin dan Longpre, Shayne ... 2 Tersembunyi ... Xiong, Betty dan Zhang, Daniel dan Liang, Percy
Apa yang ada di data besar saya?: 2023
Elazar, Yanai dan Bhagia, Akshita dan Magnusson, Ian ... 5 Tersembunyi ... Soldaini, Luca dan Singh, Sameer dan lainnya
Dolma: Sebuah korpus terbuka dengan tiga triliun token untuk Model Bahasa Pretraining Research: 2024
Luca Soldaini dan Rodney Kinney dan Akshita Bhagia ... 30 Tersembunyi ... Dirk Groeneveld dan Jesse Dodge dan Kyle Lo
Olmo: Mempercepat Sains Model Bahasa: 2024
Groeneveld, Dirk and Beltagy, Iz dan Walsh, Pete ... 5 Tersembunyi ... Magnusson, Ian dan Wang, Yizhong dan Lainnya

Seleksi khusus untuk model multibahasa

Kembali ke Daftar Isi

BLOOM: Model bahasa multibahasa akses-parameter 176b-parameter: 2022
Workshop, BigScience and Scao, Teven Le and Fan, Angela ... 5 Tersembunyi ... Luccioni, Alexandra Sasha dan Yvon, Franccois dan lainnya
Kualitas sekilas: Audit dataset multibahasa yang sedang dirangkak web: 2022
Kreutzer, Julia dan Caswell, Isaac dan Wang, Lisa ... 46 Tersembunyi ... Ahia, Oghenefego dan Agrawal, Sweta dan Adeyemi, Mofetoluwa
The BigScience Roots Corpus: Dataset Multilingual Komposit 1.6TB: 2022
Laurenccon, Hugo dan Saulnier, Lucile dan Wang, Thomas ... 48 Tersembunyi ... Mitchell, Margaret dan Luccioni, Sasha Alexandra dan Jernite, Yacine
Model bahasa apa yang akan dilatih jika Anda memiliki satu juta jam GPU?: 2022
Scao, Teven Le dan Wang, Thomas dan Hesslow, Daniel ... 5 Tersembunyi ... Muennighoff, Niklas dan Phang, Jason dan lainnya
Madlad-400: Dataset Besar Multilingual dan Level Dokumen: 2023
Kudugunta, Sneha dan Caswell, Isaac dan Zhang, Biao ... 5 Tersembunyi ... Stella, Romi dan Bapna, Ankur dan lainnya
SCALING Model Bahasa Multilingual Di Bawah Data Terkendala: 2023
Scao, Teven Le
Dataset Aya: Koleksi akses terbuka untuk penyetelan instruksi multibahasa: 2024
Shivalika Singh dan Freddie Vargus dan Daniel Dsouza ... 27 Tersembunyi ... Ahmet üstün dan Marzieh Fadaee dan Sara Hooker

Pencampuran data

Kembali ke Daftar Isi

Masalah Bandit multiarmed nonstokastik: 2002
Auer, Peter dan Cesa-Bianchi, Nicol`o dan Freund, Yoav dan Schapire, Robert E.
Pemodelan bahasa yang kuat secara distribusi: 2019
Oren, Yonatan dan Sagawa, Shiori dan Hashimoto, Tatsunori B. dan Liang, Percy
Jaringan saraf yang kuat secara distribusi: 2020
Shiori Sagawa dan Pang Wei Koh dan Tatsunori B. Hashimoto dan Percy Liang
Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu: 2020
Raffel, Colin dan Shazeer, Noam dan Roberts, Adam ... 3 Tersembunyi ... Zhou, Yanqi dan Li, Wei dan Liu, Peter J.
Tumpukan: Dataset 800GB dari beragam teks untuk Pemodelan Bahasa: 2020
Leo Gao dan Stella Biderman dan Sid Black ... 6 Tersembunyi ... Noa Nabeshima dan Shawn Presser dan Connor Leahy
Model Bahasa Skala: Metode, Analisis & Wawasan dari Pelatihan Gopher: 2022
Jack W. Rae dan Sebastian Borgeaud dan Trevor Cai ... 74 Tersembunyi ... Demis Hassabis dan Koray Kavukcuoglu dan Geoffrey Irving
Glam: Penskalaan Efisien Model Bahasa dengan Campuran-Eksperti: 2022
Du, Nan dan Huang, Yanping dan Dai, Andrew M ... 21 Tersembunyi ... Wu, Yonghui dan Chen, Zhifeng dan Cui, Claire
Pengawasan lintas-bahasa meningkatkan model bahasa besar pra-pelatihan: 2023
Andrea Schioppa dan Xavier Garcia dan Orhan Firat
[DOGE: Domain Reobegning dengan Estimasi Generalisasi] (https://arxiv.org/abs/arxiv preprint): 2023
Simin Fan dan Matteo Pagliardini dan Martin Jaggi
Doremi: Mengoptimalkan campuran data mempercepat model bahasa pretraining: 2023
Sang Michael Xie dan Hieu Pham dan Xuanyi Dong ... 4 Tersembunyi ... Quoc v Le dan Tengyu Ma dan Adams Wei Yu
Pencampuran data online yang efisien untuk model bahasa pra-pelatihan: 2023
Alon Albalak dan Liangming Pan dan Colin Raffel dan William Yang Wang
Llama: Model Bahasa Yayasan Terbuka dan Efisien: 2023
Hugo Touvron dan Thibaut Lavril dan Gautier Izacard ... 8 Tersembunyi ... Armand Joulin dan Edouard Grave dan Guillaume Lample
Pythia: Suite untuk menganalisis model bahasa besar di seluruh pelatihan dan penskalaan: 2023
Biderman, Stella dan Schoelkopf, Hailey dan Anthony, Quentin Gregory ... 7 Tersembunyi ... Skowron, Aviya dan Sutawika, Lintang dan Van der Wal, Oskar
Model Bahasa yang Terkendala Data: 2023
Niklas Muennighoff dan Alexander M Rush dan Boaz Barak ... 3 Tersembunyi ... Sampo Pyysalo dan Thomas Wolf dan Colin Raffel
Llama Sheared: Model Bahasa yang Mempercepat Pra-Pelatihan Melalui Pemangkasan Struktur: 2023
Mengzhou Xia dan Tianyu Gao dan Zhiyuan Zeng dan Danqi Chen
Keterampilan-itu! Kerangka Kerja Keterampilan Berbasis Data untuk Model Pemahaman dan Pelatihan Bahasa: 2023
Mayee F. Chen dan Nicholas Roberts dan Kush Bhatia ... 1 Tersembunyi ... Ce Zhang dan Frederic Sala dan Christopher Ré

Pemilihan data untuk pelatihan penyetelan instruksi dan multitask

Konseptualisasi tujuan dan kendala pada pemilihan data untuk penyetelan instruksi

Kembali ke Daftar Isi

The Natural Language Decathlon: Multitask Learning sebagai Penjawab pertanyaan: 2018
McCann, Bryan dan Keskar, Nitish Shirish dan Xiong, Caiming and Socher, Richard
PERTANYAAN PERTANYAAN PERTANYAAN, KLASIFIKASI TEKS, DAN Regresi Melalui Ekstraksi Bentang: 2019
Keskar, Nitish Shirish dan McCann, Bryan dan Xiong, Caiming and Socher, Richard
Jaringan saraf dalam multi-tugas untuk pemahaman bahasa alami: 2019
Liu, Xiaodong dan dia, Pengcheng dan Chen, Weizhu dan Gao, Jianfeng
UnifiedQA: Batas format persimpangan dengan sistem QA tunggal: 2020
Khashabi, Daniel dan Min, Sewon dan Khot, Tushar ... 1 Tersembunyi ... Tafjord, Oyvind dan Clark, Peter dan Hajishirzi, Hannaneh
Menjelajahi Batas Pembelajaran Transfer dengan Transformator Teks ke Teks Terpadu: 2020
Raffel, Colin dan Shazeer, Noam dan Roberts, Adam ... 3 Tersembunyi ... Zhou, Yanqi dan Li, Wei dan Liu, Peter J.
Muppet: Representasi multi-tugas besar-besaran dengan pra-finetuning: 2021
Aghajanyan, Armen dan Gupta, Anchit dan Shrivastava, Akshat dan Chen, Xilun dan Zettlemoyer, Luke dan Gupta, Sonal
Model Bahasa Finetuned Adalah Peserta didik Zero-shot: 2021
Wei, Jason dan Bosma, Maarten dan Zhao, Vincent Y .... 3 Tersembunyi ... Du, Nan dan Dai, Andrew M. dan Le, Quoc V.
Generalisasi silang melalui instruksi crowdsourcing bahasa alami: 2021
Mishra, Swaroop dan Khashabi, Daniel dan Baral, Chitta dan Hajishirzi, Hannaneh
NL-Augmenter: Kerangka kerja untuk augmentasi bahasa alami yang peka terhadap tugas: 2021
Dhole, Kaustubh D dan Gangal, Varun dan Gehrmann, Sebastian ... 5 Tersembunyi ... Shrivastava, Ashish dan Tan, Samson dan lainnya
Ext5: Menuju penskalaan multi-tugas yang ekstrem untuk pembelajaran transfer: 2021
Aribandi, Vamsi dan Tay, Yi dan Schuster, Tal ... 5 Tersembunyi ... Bahri, Dara dan Ni, Jianmo dan lainnya
Super-natural Instruksi: Generalisasi melalui instruksi deklaratif pada 1600+ tugas NLP: 2022
Wang, Yizhong dan Mishra, Swaroop dan Alipoormolabashi, Pegah ... 29 Tersembunyi ... Patro, Sumanta dan Dixit, Tanay dan Shen, Xudong
Model Bahasa yang Di-Instruksi Penskalaan: 2022
Chung, Hyung Won dan Hou, Le and Longpre, Shayne ... 5 Tersembunyi ... Dehghani, Mostafa dan Brahma, Siddhartha dan lainnya
Bloom+ 1: Menambahkan dukungan bahasa ke mekar untuk diminta nol-shot: 2022
Yong, Zheng-Xin dan Schoelkopf, Hailey dan Muennighoff, Niklas ... 5 tersembunyi ... Kasai, Jungo dan Baruwa, Ahmed dan lainnya
OPT-IML: Instruksi Model Bahasa Skala Pembelajaran Meta melalui Lensa Generalisasi: 2022
Srinivasan Iyer dan Xi Victoria Lin dan Ramakanth Pasunuru ... 12 Tersembunyi ... Asli Celikyilmaz dan Luke Zettlemoyer dan Ves Stoyanov
Metaicl: Belajar Belajar dalam Konteks: 2022
Min, Sewon dan Lewis, Mike dan Zettlemoyer, Luke dan Hajishirzi, Hannaneh
Instruksi yang tidak wajar: Model bahasa tuning dengan (hampir) tidak ada tenaga manusia: 2022
Honovich, atau dan Scialom, Thomas and Levy, Omer dan Schick, Timo
Generalisasi crosslingual melalui finetuning multitask: 2022
Muennighoff, Niklas dan Wang, Thomas dan Sutawika, Lintang ... 5 Tersembunyi ... Yong, Zheng-Xin dan Schoelkopf, Hailey dan lainnya
Pelatihan Multitask yang Diminta Mengaktifkan Generalisasi Tugas Zero-Shot: 2022
Victor Sanh dan Albert Webson dan Colin Raffel ... 34 Tersembunyi ... Leo Gao dan Thomas Wolf dan Alexander M Rush
Prometheus: menginduksi kemampuan evaluasi berbutir halus dalam model bahasa: 2023
Kim, Seungone dan Shin, Jamin dan Cho, Yejin ... 5 Tersembunyi ... Kim, Sungdong dan Thorne, James dan lainnya
Slimorca: Dataset Terbuka GPT-4 Augmented Flan Reasoning Traces, dengan Verifikasi: 2023
Wing Lian dan Guan Wang dan Bleys Goodson ... 1 Tersembunyi ... Austin Cook dan Chanvichet Vong dan "Teknium"
Apakah AI Art mencuri dari seniman?: 2023
Chayka, Kyle
Paul Tremblay, Mona Awad vs Openai, Inc., dkk.: 2023
Saveri, Joseph R. dan Zirpoli, Cadio dan Young, Christopher KL dan McMahon, Kathleen J.
Membuat model bahasa besar pencipta data yang lebih baik: 2023
Lee, Dong-ho dan Pujara, Jay dan Sewak, Mohit dan White, Ryen dan Jauhar, Sujay
Koleksi Flan: Merancang Data dan Metode untuk Penyetelan Instruksi yang Efektif: 2023
Shayne Longpre dan Le Hou dan Tu Vu ... 5 Tersembunyi ... Barret Zoph dan Jason Wei dan Adam Roberts
Wizardlm: Memberdayakan Model Bahasa Besar Untuk Mengikuti Instruksi Kompleks: 2023
Xu, Can and Sun, Qingfeng dan Zheng, Kai ... 2 Tersembunyi ... Feng, Jiazhan dan Tao, Chongyang dan Jiang, Daxin
Lima: Less lebih banyak untuk penyelarasan: 2023
Chunting Zhou dan Pengfei Liu dan Puxin Xu ... 9 Tersembunyi ... Mike Lewis dan Luke Zettlemoyer dan Omer Levy
Unta dalam iklim yang berubah: Meningkatkan adaptasi LM dengan Tulu 2: 2023
Hamish Ivison dan Yizhong Wang dan Valentina Pyatkin ... 5 Tersembunyi ... Nuh A. Smith dan Iz Beltagy dan Hananeh Hajishirzi
Mandiri Self-Instruksi: Menyelaraskan Model Bahasa dengan Instruksi yang Dihasilkan Diri: 2023
Wang, Yizhong dan Kordi, Yeganeh dan Mishra, Swaroop ... 1 Tersembunyi ... Smith, Nuh A. dan Khashabi, Daniel dan Hajishirzi, Hannaneh
Apa yang membuat data yang baik untuk penyelarasan? Studi komprehensif pemilihan data otomatis dalam penyetelan instruksi: 2023
Liu, Wei dan Zeng, Weihao dan dia, Keqing dan Jiang, Yong dan dia, Junxian
Tuning Instruksi untuk Model Bahasa Besar: Survei: 2023
Shengyu Zhang dan Linfeng Dong dan Xiaooya Li ... 5 Tersembunyi ... Tianwei Zhang dan Fei Wu dan Guoyin Wang
Stanford Alpaca: Model Llama yang mengikuti instruksi: 2023
Rohan Taori dan Ishaan Gulrajani dan Tianyi Zhang ... 2 Tersembunyi ... Carlos Guestrin dan Percy Liang dan Tatsunori B. Hashimoto
Seberapa jauh unta bisa? Menjelajahi keadaan penyetelan instruksi tentang sumber daya terbuka: 2023
Yizhong Wang dan Hamish Ivison dan Pradeep Dasigi ... 5 Tersembunyi ... Nuh A. Smith dan Iz Beltagy dan Hananeh Hajishirzi
Percakapan OpenAssistant-Demokratisasi Penyelarasan Model Bahasa Besar: 2023
K "OPF, Andreas dan Kilcher, Yannic dan Von R" Utte, Dimitri ... 5 Tersembunyi ... Stanley, Oliver dan Nagyfi, Rich'ard dan lainnya
Octopack: Kode Tuning Instruksi Model Bahasa Besar: 2023
Niklas Muennighoff dan Qian Liu dan Armel Zebaze ... 4 Tersembunyi ... Xiangru Tang dan Leandro von Werra dan Shayne Longpre
Self: Evolusi diri yang didorong oleh bahasa untuk Model Bahasa Besar: 2023
Lu, Jianqiao dan Zhong, Wanjun dan Huang, Wenyong ... 3 Tersembunyi ... Wang, Weichao dan Shang, Lifeng dan Liu, Qun
Koleksi Flan: Merancang Data dan Metode untuk Penyetelan Instruksi yang Efektif: 2023
Longpre, Shayne dan Hou, Le and Vu, Tu ... 5 Tersembunyi ... Zoph, Barret dan Wei, Jason dan Roberts, Adam
#Instag: Tags instruksi untuk menganalisis fine-tuning yang diawasi dari model bahasa besar: 2023
Keming Lu dan Hongyi Yuan dan Zheng Yuan ... 2 Tersembunyi ... Chuanqi Tan dan Chang Zhou dan Jingren Zhou
Penambangan Instruksi: Ketika Data Mining Bertemu Model Bahasa Besar Finetuning: 2023
Yihan Cao dan Yanbin Kang dan Chi Wang dan Lichao Sun
Tuning Instruksi Aktif: Meningkatkan Generalisasi Cross-Task dengan Pelatihan tentang Tugas Sensitif yang Segera: 2023
Po-Nien Kung dan Fan Yin dan Di Wu dan Kai-Wei Chang dan Nanyun Peng
Inisiatif Provenance Data: Audit skala besar dari lisensi & atribusi dataset di AI: 2023
Longpre, Shayne dan Mahari, Robert dan Chen, Anthony ... 5 Tersembunyi ... Kabbara, Jad dan Perisetla, Kartik dan Lainnya
Dataset Aya: Koleksi akses terbuka untuk penyetelan instruksi multibahasa: 2024
Shivalika Singh dan Freddie Vargus dan Daniel Dsouza ... 27 Tersembunyi ... Ahmet üstün dan Marzieh Fadaee dan Sara Hooker
Astraios: Parameter-Efisien Kode Tuning Model Bahasa Besar: 2024
Zhuo, Terry Yue dan Zebaze, Armel dan Sepattarachai, Nitchakarn ... 1 Tersembunyi ... De Vries, Harm and Liu, Qian dan Muennighoff, Niklas
Model Aya: Instruksi Finetuned Open-Access Multilingual Bahasa Model: 2024
"UST" UN, Ahmet dan Aryabumi, Viraat dan Yong, Zheng-Xin ... 5 Tersembunyi ... Ooi, Hui-Lee dan Kayid, AMR dan Lainnya
Model bahasa yang lebih kecil mampu memilih data pelatihan penyetelan instruksi untuk model bahasa yang lebih besar: 2024
Dheeraj Mekala dan Alex Nguyen dan Jingbo Shang
Kurasi Data Otomatis untuk Fine Tuning Model Bahasa yang Kuat: 2024
Jihai Chen dan Jonas Mueller

Pemilihan data untuk penyempurnaan preferensi: Alignment

Konseptualisasi tujuan dan kendala pada pemilihan data untuk penyelarasan

Kembali ke Daftar Isi

WebGPT: Permintaan yang dibantu oleh browser dengan umpan balik manusia: 2021
Nakano, Reiichiro dan Hilton, Jacob dan Balaji, Suchir ... 5 Tersembunyi ... Kosaraju, Vineet dan Saunders, William dan Lainnya
Melatih asisten yang membantu dan tidak berbahaya dengan pembelajaran penguatan dari umpan balik manusia: 2022
Bai, Yuntao dan Jones, Andy dan Ndousse, Kamal ... 5 Tersembunyi ... Ganguli, Deep dan Henighan, Tom dan Lainnya
Memahami Kesulitan Dataset Dengan $ MathCalv $ -Seable Information: 2022
Ethayarajh, Kawin dan Choi, Yejin dan Swayamdipta, Swabha
AI Konstitusi: tidak berbahaya dari umpan balik AI: 2022
Bai, Yuntao dan Kadavath, Saurav dan Kundu, Sandipan ... 5 Tersembunyi ... Mirhoseini, Azalia dan McKinnon, Cameron dan lainnya
Prometheus: menginduksi kemampuan evaluasi berbutir halus dalam model bahasa: 2023
Kim, Seungone dan Shin, Jamin dan Cho, Yejin ... 5 Tersembunyi ... Kim, Sungdong dan Thorne, James dan lainnya
Notus: 2023
Alvaro Bartolome dan Gabriel Martin dan Daniel Vila
Ultrafeedback: Meningkatkan model bahasa dengan umpan balik berkualitas tinggi: 2023
Ganqu Cui and Lifan Yuan and Ning Ding... 3 hidden ... Guotong Xie and Zhiyuan Liu and Maosong Sun
Exploration with Principles for Diverse AI Supervision: 2023
Liu, Hao and Zaharia, Matei and Abbeel, Pieter
Wizardlm: Empowering large language models to follow complex instructions: 2023
Xu, Can and Sun, Qingfeng and Zheng, Kai... 2 hidden ... Feng, Jiazhan and Tao, Chongyang and Jiang, Daxin
LIMA: Less Is More for Alignment: 2023
Chunting Zhou and Pengfei Liu and Puxin Xu... 9 hidden ... Mike Lewis and Luke Zettlemoyer and Omer Levy
Shepherd: A Critic for Language Model Generation: 2023
Tianlu Wang and Ping Yu and Xiaoqing Ellen Tan... 4 hidden ... Luke Zettlemoyer and Maryam Fazel-Zarandi and Asli Celikyilmaz
No Robots: 2023
Nazneen Rajani and Lewis Tunstall and Edward Beeching and Nathan Lambert and Alexander M. Rush and Thomas Wolf
Starling-7B: Improving LLM Helpfulness & Harmlessness with RLAIF: 2023
Zhu, Banghua and Frick, Evan and Wu, Tianhao and Zhu, Hanlin and Jiao, Jiantao
Scaling laws for reward model overoptimization: 2023
Gao, Leo and Schulman, John and Hilton, Jacob
SALMON: Self-Alignment with Principle-Following Reward Models: 2023
Zhiqing Sun and Yikang Shen and Hongxin Zhang... 2 hidden ... David Cox and Yiming Yang and Chuang Gan
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback: 2023
Stephen Casper and Xander Davies and Claudia Shi... 26 hidden ... David Krueger and Dorsa Sadigh and Dylan Hadfield-Menell
Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2: 2023
Hamish Ivison and Yizhong Wang and Valentina Pyatkin... 5 hidden ... Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi
Llama 2: Open Foundation and Fine-Tuned Chat Models: 2023
Hugo Touvron and Louis Martin and Kevin Stone... 62 hidden ... Robert Stojnic and Sergey Edunov and Thomas Scialom
What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning: 2023
Liu, Wei and Zeng, Weihao and He, Keqing and Jiang, Yong and He, Junxian
HuggingFace H4 Stack Exchange Preference Dataset: 2023
Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan
Textbooks Are All You Need: 2023
Gunasekar, Suriya and Zhang, Yi and Aneja, Jyoti... 5 hidden ... de Rosa, Gustavo and Saarikivi, Olli and others
Quality-Diversity through AI Feedback: 2023
Herbie Bradley and Andrew Dai and Hannah Teufel... 4 hidden ... Kenneth Stanley and Grégory Schott and Joel Lehman
Direct preference optimization: Your language model is secretly a reward model: 2023
Rafailov, Rafael and Sharma, Archit and Mitchell, Eric and Ermon, Stefano and Manning, Christopher D and Finn, Chelsea
Scaling relationship on learning mathematical reasoning with large language models: 2023
Yuan, Zheng and Yuan, Hongyi and Li, Chengpeng and Dong, Guanting and Tan, Chuanqi and Zhou, Chang
The History and Risks of Reinforcement Learning and Human Feedback: 2023
Lambert, Nathan and Gilbert, Thomas Krendl and Zick, Tom
Zephyr: Direct distillation of lm alignment: 2023
Tunstall, Lewis and Beeching, Edward and Lambert, Nathan... 5 hidden ... Fourrier, Cl'ementine and Habib, Nathan and others
Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models: 2024
Wenda Xu and Guanglei Zhu and Xuandong Zhao and Liangming Pan and Lei Li and William Yang Wang
Suppressing Pink Elephants with Direct Principle Feedback: 2024
Louis Castricato and Nathan Lile and Suraj Anand and Hailey Schoelkopf and Siddharth Verma and Stella Biderman
West-of-N: Synthetic Preference Generation for Improved Reward Modeling: 2024
Alizée Pace and Jonathan Mallinson and Eric Malmi and Sebastian Krause and Aliaksei Severyn
Statistical Rejection Sampling Improves Preference Optimization: 2024
Liu, Tianqi and Zhao, Yao and Joshi, Rishabh... 1 hidden ... Saleh, Mohammad and Liu, Peter J and Liu, Jialu
Self-play fine-tuning converts weak language models to strong language models: 2024
Chen, Zixiang and Deng, Yihe and Yuan, Huizhuo and Ji, Kaixuan and Gu, Quanquan
Self-Rewarding Language Models: 2024
Weizhe Yuan and Richard Yuanzhe Pang and Kyunghyun Cho and Sainbayar Sukhbaatar and Jing Xu and Jason Weston
Theoretical guarantees on the best-of-n alignment policy: 2024
Beirami, Ahmad and Agarwal, Alekh and Berant, Jonathan... 1 hidden ... Eisenstein, Jacob and Nagpal, Chirag and Suresh, Ananda Theertha
KTO: Model Alignment as Prospect Theoretic Optimization: 2024
Ethayarajh, Kawin and Xu, Winnie and Muennighoff, Niklas and Jurafsky, Dan and Kiela, Douwe

Data Selection for In-Context Learning

Conceptualization of objectives and constraints on data selection for in-context learning

Back to Table of Contents

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks: 2019
Reimers, Nils and Gurevych, Iryna
Language Models are Few-Shot Learners: 2020
Brown, Tom and Mann, Benjamin and Ryder, Nick... 25 hidden ... Radford, Alec and Sutskever, Ilya and Amodei, Dario
True Few-Shot Learning with Language Models: 2021
Ethan Perez and Douwe Kiela and Kyunghyun Cho
Active Example Selection for In-Context Learning: 2022
Zhang, Yiming and Feng, Shi and Tan, Chenhao
Careful Data Curation Stabilizes In-context Learning: 2022
Chang, Ting-Yun and Jia, Robin
Learning To Retrieve Prompts for In-Context Learning: 2022
Rubin, Ohad and Herzig, Jonathan and Berant, Jonathan
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity: 2022
Lu, Yao and Bartolo, Max and Moore, Alastair and Riedel, Sebastian and Stenetorp, Pontus
What Makes Good In-Context Examples for GPT-3?: 2022
Liu, Jiachang and Shen, Dinghan and Zhang, Yizhe and Dolan, Bill and Carin, Lawrence and Chen, Weizhu
MetaICL: Learning to Learn In Context: 2022
Min, Sewon and Lewis, Mike and Zettlemoyer, Luke and Hajishirzi, Hannaneh
Unified Demonstration Retriever for In-Context Learning: 2023
Li, Xiaonan and Lv, Kai and Yan, Hang... 3 hidden ... Xie, Guotong and Wang, Xiaoling and Qiu, Xipeng
Which Examples to Annotate for In-Context Learning? Towards Effective and Efficient Selection: 2023
Mavromatis, Costas and Srinivasan, Balasubramaniam and Shen, Zhengyuan... 1 hidden ... Rangwala, Huzefa and Faloutsos, Christos and Karypis, George
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning: 2023
Xinyi Wang and Wanrong Zhu and Michael Saxon and Mark Steyvers and William Yang Wang
Selective Annotation Makes Language Models Better Few-Shot Learners: 2023
Hongjin SU and Jungo Kasai and Chen Henry Wu... 5 hidden ... Luke Zettlemoyer and Noah A. Smith and Tao Yu
In-context Example Selection with Influences: 2023
Nguyen, Tai and Wong, Eric
Coverage-based Example Selection for In-Context Learning: 2023
Gupta, Shivanshu and Singh, Sameer and Gardner, Matt
Compositional exemplars for in-context learning: 2023
Ye, Jiacheng and Wu, Zhiyong and Feng, Jiangtao and Yu, Tao and Kong, Lingpeng
Take one step at a time to know incremental utility of demonstration: An analysis on reranking for few-shot in-context learning: 2023
Hashimoto, Kazuma and Raman, Karthik and Bendersky, Michael
Ambiguity-aware in-context learning with large language models: 2023
Gao, Lingyu and Chaudhary, Aditi and Srinivasan, Krishna and Hashimoto, Kazuma and Raman, Karthik and Bendersky, Michael
IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models: 2023
Zhang, Shaokun and Xia, Xiaobo and Wang, Zhaoqing... 1 hidden ... Liu, Jiale and Wu, Qingyun and Liu, Tongliang
ScatterShot: Interactive In-context Example Curation for Text Transformation: 2023
Wu, Sherry and Shen, Hua and Weld, Daniel S and Heer, Jeffrey and Ribeiro, Marco Tulio
Diverse Demonstrations Improve In-context Compositional Generalization: 2023
Levy, Itay and Bogin, Ben and Berant, Jonathan
Finding supporting examples for in-context learning: 2023
Li, Xiaonan and Qiu, Xipeng
Misconfidence-based Demonstration Selection for LLM In-Context Learning: 2024
Xu, Shangqing and Zhang, Chao
In-context Learning with Retrieved Demonstrations for Language Models: A Survey: 2024
Xu, Xin and Liu, Yue and Pasupat, Panupong and Kazemi, Mehran and others

Data Selection for Task-specific Fine-tuning

Conceptualization of objectives and constraints on data selection for task-specific fine-tuning

Back to Table of Contents

A large annotated corpus for learning natural language inference: 2015
Bowman, Samuel R. and Angeli, Gabor and Potts, Christopher and Manning, Christopher D.
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding: 2018
Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference: 2018
Williams, Adina and Nangia, Nikita and Bowman, Samuel
Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks: 2019
Jason Phang and Thibault Févry and Samuel R. Bowman
Distributionally Robust Neural Networks: 2020
Shiori Sagawa and Pang Wei Koh and Tatsunori B. Hashimoto and Percy Liang
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics: 2020
Swayamdipta, Swabha and Schwartz, Roy and Lourie, Nicholas... 1 hidden ... Hajishirzi, Hannaneh and Smith, Noah A. and Choi, Yejin
Intermediate-Task Transfer Learning with Pretrained Language Models: When and Why Does It Work?: 2020
Pruksachatkun, Yada and Phang, Jason and Liu, Haokun... 3 hidden ... Vania, Clara and Kann, Katharina and Bowman, Samuel R.
On the Complementarity of Data Selection and Fine Tuning for Domain Adaptation: 2021
Dan Iter and David Grangier
FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue: 2022
Albalak, Alon and Tuan, Yi-Lin and Jandaghi, Pegah... 3 hidden ... Getoor, Lise and Pujara, Jay and Wang, William Yang
LoRA: Low-Rank Adaptation of Large Language Models: 2022
Edward J Hu and yelong shen and Phillip Wallis... 2 hidden ... Shean Wang and Lu Wang and Weizhu Chen
Training Subset Selection for Weak Supervision: 2022
Lang, Hunter and Vijayaraghavan, Aravindan and Sontag, David
On-Demand Sampling: Learning Optimally from Multiple Distributions: 2022
Haghtalab, Nika and Jordan, Michael and Zhao, Eric
The Trade-offs of Domain Adaptation for Neural Language Models: 2022
Grangier, David and Iter, Dan
Data Pruning for Efficient Model Pruning in Neural Machine Translation: 2023
Azeemi, Abdul and Qazi, Ihsan and Raza, Agha
Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models: 2023
Mayee F. Chen and Nicholas Roberts and Kush Bhatia... 1 hidden ... Ce Zhang and Frederic Sala and Christopher Ré
D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning: 2023
Adyasha Maharana and Prateek Yadav and Mohit Bansal
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data: 2023
Alon Albalak and Colin Raffel and William Yang Wang
Efficient Online Data Mixing For Language Model Pre-Training: 2023
Alon Albalak and Liangming Pan and Colin Raffel and William Yang Wang
Data-Efficient Finetuning Using Cross-Task Nearest Neighbors: 2023
Ivison, Hamish and Smith, Noah A. and Hajishirzi, Hannaneh and Dasigi, Pradeep
Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets: 2023
Bejan, Irina and Sokolov, Artem and Filippova, Katja
LESS: Selecting Influential Data for Targeted Instruction Tuning: 2024
Mengzhou Xia and Sadhika Malladi and Suchin Gururangan and Sanjeev Arora and Danqi Chen

Kontribusi

There are likely some amazing works in the field that we missed, so please contribute to the repo.

Feel free to open a pull request with new papers or create an issue and we can add them for you. Thank you in advance for your efforts!

Kutipan

We hope this work serves as inspiration for many impactful future works. If you found our work useful, please cite this paper as:

 @article{albalak2024survey,
      title={A Survey on Data Selection for Language Models}, 
      author={Alon Albalak and Yanai Elazar and Sang Michael Xie and Shayne Longpre and Nathan Lambert and Xinyi Wang and Niklas Muennighoff and Bairu Hou and Liangming Pan and Haewon Jeong and Colin Raffel and Shiyu Chang and Tatsunori Hashimoto and William Yang Wang},
      year={2024},
      journal={arXiv preprint arXiv:2402.16827},
      note={url{https://arxiv.org/abs/2402.16827}}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-09
ukuran 938.07KB
Berasal dari Github

Aplikasi Terkait

MMEarth data

2024-11-12
EMIT Data Resources

2024-11-09
data pump log analyzer

2024-11-06
Aplikasi kumpulan data kosmik

2024-03-15
Penambangan Data Biologis

2010-03-22
Pemulihan Data Cerdas

2009-06-18

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua