nlp-library
Ini adalah daftar makalah yang dikuratori yang telah saya temui dalam beberapa kapasitas dan nilai dianggap termasuk dalam perpustakaan praktisi NLP. Beberapa makalah mungkin muncul di beberapa sub-kategori, jika tidak mudah masuk ke salah satu kotak.
PRS benar -benar diterima! Mengarahkan korespondensi/pertanyaan apa pun ke @mihail_eric.
Beberapa penunjukan khusus untuk makalah tertentu:
Legenda: Ini adalah game-changer dalam literatur NLP dan layak dibaca.
? Sumber Daya: Makalah ini memperkenalkan beberapa dataset/sumber daya dan karenanya mungkin berguna untuk tujuan aplikasi.
Tagging bagian-of-speech
- (2000) Tagger bagian-of-speech statistik
- TLDR : Kertas mani menunjukkan tagger POS berbasis HMM yang kuat. Banyak tips dan trik untuk membangun sistem klasik seperti itu.
- (2003) Tagging bagian-dari-speech kaya fitur dengan jaringan ketergantungan siklik
- TLDR : mengusulkan sejumlah fitur linguistik yang kuat untuk membangun sistem penandaan pos (kemudian) sota
- (2015) Model LSTM-CRF dua arah untuk penandaan urutan
- TLDR : Mengusulkan model penandaan urutan elemen yang menggabungkan jaringan saraf dengan bidang acak bersyarat, mencapai SOTA dalam tagging, ner, dan chunking.
Penguraian
- (2003) parsing yang tidak diterapkan akurat
- TLDR : Kertas indah yang menunjukkan bahwa konteks probabilistik tata bahasa bebas yang tidak diterapkan dapat melebihi kinerja PCFGS leksikalisasi.
- (2006) Pembelajaran yang akurat, kompak, dan anotasi pohon yang dapat ditafsirkan
- TLDR : Hasil yang menarik menunjukkan bahwa menggunakan maksimalisasi ekspektasi Anda dapat secara otomatis mempelajari simbol nonterminal laten yang akurat dan kompak untuk anotasi pohon, mencapai sota.
- (2014) Parser ketergantungan yang cepat dan akurat menggunakan jaringan saraf
- TLDR : Pekerjaan yang sangat penting mengantarkan gelombang baru arsitektur parsing berbasis jaringan saraf, mencapai kinerja sota serta kecepatan parsing yang menyala.
- (2014) tata bahasa sebagai bahasa asing
- TLDR : Salah satu demonstrasi paling awal dari efektivitas arsitektur SEQ2SEQ dengan perhatian pada penguraian konstituensi, mencapai SOTA di WSJ Corpus. Juga menunjukkan pentingnya augmentasi data untuk tugas parsing.
- (2015) Ketergantungan Berbasis Transisi Parsing dengan Stack Memori Jangka Pendek Panjang
- TLDR : Menyajikan Stack LSTMS, parser saraf yang berhasil melakukan neuralisasi operasi push-pop tradisional parser ketergantungan berbasis transisi, mencapai sota dalam proses tersebut.
Pengakuan entitas yang disebutkan
- (2005) memasukkan informasi non-lokal ke dalam sistem ekstraksi informasi dengan pengambilan sampel GIBBS
- TLDR : Menggunakan metode keren Monte Carlo yang dikombinasikan dengan model bidang acak bersyarat, pekerjaan ini mencapai pengurangan kesalahan besar dalam tolok ukur ekstraksi informasi tertentu.
- (2015) Model LSTM-CRF dua arah untuk penandaan urutan
- TLDR : Mengusulkan model penandaan urutan elemen yang menggabungkan jaringan saraf dengan bidang acak bersyarat, mencapai SOTA dalam tagging, ner, dan chunking.
Resolusi Coreference
- (2010) Saringan multi-pass untuk resolusi coreference
- TLDR : mengusulkan pendekatan berbasis saringan untuk resolusi coreference yang selama bertahun-tahun (sampai pendekatan pembelajaran yang mendalam) adalah sota.
- (2015) resolusi coreference entitas-sentris dengan penumpukan model
- TLDR : Pekerjaan ini menawarkan pendekatan bagus untuk membangun rantai coreference secara iteratif menggunakan fitur tingkat entitas.
- (2016) Meningkatkan resolusi coreference dengan representasi terdistribusi tingkat entitas pembelajaran
- TLDR : Salah satu pendekatan efektif paling awal untuk menggunakan jaringan saraf untuk resolusi coreference, secara signifikan mengungguli SOTA.
Analisis sentimen
(2012) Baselines dan Bigrams: Sederhana, Sentimen Baik dan Klasifikasi Topik
- TLDR : Kertas yang sangat elegan, menggambarkan bahwa model Bayes naif sederhana dengan fitur bigram dapat mengungguli metode yang lebih canggih seperti mesin vektor dukungan pada tugas seperti analisis sentimen.
(2013) Model mendalam rekursif untuk komposisionalitas semantik di atas tepi pohon sentimen?
- TLDR : Memperkenalkan Stanford Sentiment Treebank, sumber yang luar biasa untuk anotasi sentimen berbutir halus pada kalimat. Juga memperkenalkan jaringan tensor saraf rekursif, arsitektur pembelajaran mendalam yang dimotivasi secara linguistik.
(2014) Representasi kalimat dan dokumen yang didistribusikan
- TLDR : Memperkenalkan paragrafvektor A tanpa pengawasan yang mempelajari representasi paragraf tetap, menggunakan ide -ide yang terinspirasi dari Word2Vec . Mencapai SOTA pada analisis sentimen di Stanford sentimen Treebank dan dataset IMDB.
(2019) augmentasi data tanpa pengawasan untuk pelatihan konsistensi
- TLDR : Memperkenalkan augmentasi data tanpa pengawasan , metode untuk pelatihan yang efisien pada sejumlah kecil contoh pelatihan. Makalah berlaku UDA ke dataset analisis sentimen IMDB, mencapai SOTA dengan hanya 30 contoh pelatihan.
Logika/Inferensi Alami
- (2007) Logika alami untuk inferensi tekstual
- TLDR : mengusulkan pendekatan berbasis logika yang ketat untuk masalah inferensi tekstual yang disebut logika alami. Transformasi yang dimotivasi secara matematis yang sangat keren digunakan untuk menyimpulkan hubungan antar frasa.
- (2008) Model logika alami yang diperluas
- TLDR : Memperluas pekerjaan sebelumnya pada logika alami untuk inferensi, menambahkan fenomena seperti eksklusi semantik dan implikasi untuk meningkatkan proses transformasi premis-hipotesis.
- (2014) Jaringan saraf rekursif dapat mempelajari semantik logis
- TLDR : Menunjukkan bahwa arsitektur pembelajaran mendalam seperti jaringan tensor saraf dapat secara efektif diterapkan pada inferensi bahasa alami.
- (2015) Sebuah korpus beranotasi besar untuk mempelajari kesimpulan bahasa alami?
- TLDR : Memperkenalkan Stanford Natural Language Inference Corpus, sumber daya NLI yang luar biasa lebih besar dengan dua pesanan besar atas set data sebelumnya.
Terjemahan mesin
- (1993) The Mathematics of Statistics Machine Translation
- TLDR : Memperkenalkan model terjemahan mesin IBM, beberapa model seminal dalam MT statistik.
- (2002) Bleu: Metode untuk evaluasi otomatis terjemahan mesin?
- TLDR : mengusulkan bleu, teknik evaluasi defacto yang digunakan untuk terjemahan mesin (bahkan hari ini!)
- (2003) Terjemahan berbasis frase statistik
- TLDR : Memperkenalkan model terjemahan berbasis frasa untuk MT, melakukan analisis yang bagus yang menunjukkan mengapa model berbasis frasa mengungguli yang berbasis kata.
- (2014) urutan pembelajaran urutan dengan jaringan saraf
- TLDR : Memperkenalkan arsitektur jaringan saraf urutan-ke-urutan. Meskipun hanya diterapkan pada MT dalam makalah ini, ia telah menjadi salah satu arsitektur landasan pemrosesan bahasa alami modern.
- (2015) terjemahan mesin saraf dengan bersama -sama belajar menyelaraskan dan menerjemahkan
- TLDR : Memperluas arsitektur urutan-ke-urutan sebelumnya untuk MT dengan menggunakan mekanisme perhatian, alat yang kuat untuk memungkinkan kata target untuk mencari sinyal penting dari kalimat sumber.
- (2015) Pendekatan yang efektif untuk terjemahan mesin saraf berbasis perhatian
- TLDR : Memperkenalkan dua mekanisme perhatian baru untuk MT, menggunakannya untuk mencapai SOTA atas sistem MT saraf yang ada.
- (2016) Terjemahan mesin saraf dari kata -kata langka dengan unit subword
- TLDR : Memperkenalkan pengkodean pasangan byte, teknik yang efektif untuk memungkinkan sistem MT saraf untuk menangani (lebih) terjemahan vokabulary terbuka.
- (2016) menunjuk kata -kata yang tidak diketahui
- TLDR : mengusulkan mekanisme copy-mekanisme untuk memungkinkan sistem MT untuk lebih efektif menyalin kata-kata dari urutan konteks sumber.
- (2016) Sistem terjemahan mesin saraf Google: Menjembatani kesenjangan antara terjemahan manusia dan mesin
- TLDR : Studi kasus yang luar biasa menunjukkan seperti apa sistem terjemahan mesin berkapasitas produksi (dalam hal ini Google) terlihat.
Parsing semantik
- (2013) Parsing semantik pada freebase dari pasangan tanya jawab?
- TLDR : Mengusulkan teknik elegan untuk parsing semantik yang belajar langsung dari pasangan tanya jawab, tanpa perlu bentuk logis beranotasi, memungkinkan sistem untuk meningkatkan ke freebase.
- (2014) Parsing semantik melalui parafrase
- TLDR : Mengembangkan model parafrase yang unik untuk mempelajari bentuk-bentuk logis kandidat yang sesuai dari pasangan tanya jawab, meningkatkan SOTA pada dataset Q/A yang ada.
- (2015) Membangun parser semantik semalam?
- TLDR : Kertas rapi yang menunjukkan bahwa parser semantik dapat dibangun dari awal mulai tanpa contoh pelatihan!
- (2015) menyatukan pembelajaran mesin dan komputasi
- TLDR : Tinjauan yang bagus dari kerangka kerja semantik komputasi yang menggunakan pembelajaran mesin untuk secara efektif mempelajari bentuk -bentuk logis untuk parsing semantik.
PERTANYAAN PERTANYAAN/BACAAN Pemahaman
(2016) Pemeriksaan menyeluruh terhadap tugas pemahaman membaca CNN/harian
- TLDR : Kertas panggilan bangun yang bagus, menunjukkan bahwa kinerja SOTA dapat dicapai pada set data pemahaman membaca tertentu menggunakan sistem sederhana dengan fitur yang dipilih dengan cermat. Jangan lupa metode pembelajaran yang tidak sedalam!
(2017) Skuad: 100.000+ Pertanyaan untuk Pemahaman Mesin Teks?
- TLDR : Memperkenalkan dataset skuad, sebuah korpus yang dianamkan yang telah menjadi salah satu tolok ukur defacto yang digunakan saat ini.
(2019) Lihat sebelum Anda melompat: pertanyaan percakapan yang menjawab grafik pengetahuan menggunakan ekspansi konteks yang bijaksana
- TLDR : Memperkenalkan metode tanpa pengawasan yang dapat menjawab pertanyaan yang tidak lengkap atas grafik pengetahuan dengan mempertahankan konteks percakapan menggunakan entitas dan predikat yang terlihat sejauh ini dan secara otomatis menyimpulkan karya yang hilang atau ambigu untuk pertanyaan tindak lanjut.
(2019) Belajar mengambil jalur penalaran melalui grafik Wikipedia untuk menjawab pertanyaan
- TLDR : Memperkenalkan pendekatan pengambilan berulang berbasis grafik baru, yang mengambil jalur penalaran di atas grafik Wikipedia untuk menjawab pertanyaan domain terbuka multi-hop.
(2019) Penalaran Advductive Admonsense
- TLDR : Memperkenalkan dataset dan mengkonseptualisasikan dua tugas baru untuk penalaran abduktif: inferensi bahasa alami yang abduktif dan generasi bahasa alami yang abduktif.
(2020) Penalaran yang dapat dibedakan atas basis pengetahuan virtual
- TLDR : Memperkenalkan modul saraf untuk menjawab pertanyaan multi-hop, yang dapat dibedakan dan dapat dilatih ujung ke ujung.
(2020) Memanfaatkan pengambilan bagian dengan model generatif untuk menjawab pertanyaan domain terbuka
- TLDR : menyajikan pendekatan untuk menjawab pertanyaan domain terbuka yang bergantung pada pengambilan bagian dukungan sebelum memprosesnya dengan model generatif
(2020) Deformer: Mengurangi transformer pra-terlatih untuk menjawab pertanyaan yang lebih cepat
- TLDR : Menyajikan transformator yang terurai, yang menggantikan perhatian penuh dengan perhatian-seluruh dan melintas di seluruh diri sendiri di lapisan bawah mengurangi komputasi runtime.
(2020) Pengambilan bukti iteratif berbasis penyelarasan tanpa pengawasan untuk menjawab pertanyaan multi-hop
- TLDR : Hadiah memperkenalkan metode pengambilan bukti iteratif yang sederhana, cepat, dan tidak diawasi untuk menjawab pertanyaan multi-hop.
(2020) Belajar bertanya lebih lanjut: generasi pertanyaan sekuensial semi-otomatis di bawah interaksi grafik ganda
- TLDR : Menyajikan pendekatan untuk menghasilkan pertanyaan dalam semi-otoregresif menggunakan dua grafik berdasarkan bagian dan jawaban.
(2020) Pertanyaan apa yang bisa dipelajari dari kutu buku trivia
- TLDR : Menyajikan wawasan tentang pertanyaan apa yang dapat dipelajari tugas dari turnamen trivia.
(2020) Meningkatkan pertanyaan multi-hop yang menjawab grafik pengetahuan menggunakan embeddings basis pengetahuan
- TLDR : Menyajikan pendekatan yang efektif dalam melakukan multi-hop KGQA atas grafik pengetahuan yang jarang.
Generasi/Ringkasan Bahasa Alami
- (2004) Rouge: Paket untuk evaluasi otomatis ringkasan?
- TLDR : Memperkenalkan Rouge, metrik evaluasi untuk ringkasan yang digunakan untuk hari ini pada berbagai tugas transduksi urutan.
- (2004) Textrank: Membawa pesanan ke dalam teks
- TLDR : Menerapkan teknik analisis teks berbasis grafik berdasarkan PageRank, penulis mencapai hasil SOTA pada ekstraksi kata kunci dan hasil ringkasan ekstraktif yang sangat kuat dengan cara yang tidak diawasi.
- (2015) generasi bahasa alami berbasis LSTM yang dikondisikan secara semantik untuk sistem dialog lisan
- TLDR : Mengusulkan generator bahasa alami saraf yang bersama -sama mengoptimalkan perencanaan kalimat dan realisasi permukaan, mengungguli sistem lain pada eval manusia.
- (2016) menunjuk kata -kata yang tidak diketahui
- TLDR : mengusulkan mekanisme copy-mekanisme untuk memungkinkan sistem MT untuk lebih efektif menyalin kata-kata dari urutan konteks sumber.
- (2017) Mendapatkan In the Point: Ringkasan dengan Jaringan Pointer-Generator
- TLDR : Karya ini menawarkan mekanisme soft copy yang elegan, yang secara drastis mengungguli SOTA pada ringkasan abstrak.
- (2020) Model generatif untuk pemahaman dan generasi bahasa alami bersama
- TLDR : Karya ini menyajikan model generatif yang pasangan NLU dan NLG melalui variabel laten bersama, mencapai kinerja canggih pada dua set data dialog dengan representasi formal yang datar dan terstruktur pohon dan pohon
- (2020) BART: Denoising Sequence-to-Sequence Pra-Pelatihan untuk Generasi Bahasa Alami, Terjemahan, dan Pemahaman
- TLDR : Karya ini menyajikan model generatif yang pasangan NLU dan NLG melalui variabel laten bersama, mencapai kinerja canggih pada dua set data dialog dengan representasi formal yang datar dan terstruktur pohon.
Sistem Dialog
- (2011) Generasi Respons Data-Drive di Media Sosial
- TLDR : Mengusulkan menggunakan metode terjemahan mesin statistik berbasis frase untuk masalah pembuatan respons.
- (2015) generasi bahasa alami berbasis LSTM yang dikondisikan secara semantik untuk sistem dialog lisan
- TLDR : Mengusulkan generator bahasa alami saraf yang bersama -sama mengoptimalkan perencanaan kalimat dan realisasi permukaan, mengungguli sistem lain pada eval manusia.
- (2016) Bagaimana tidak mengevaluasi sistem dialog Anda: studi empiris metrik evaluasi yang tidak diawasi untuk generasi respons dialog
- TLDR : Pekerjaan penting yang menunjukkan bahwa metrik otomatis yang ada yang digunakan untuk dialog dengan baik tidak berkorelasi baik dengan penilaian manusia.
- (2016) Sistem dialog berorientasi tugas yang dapat dilatih dari ujung ke ujung jaringan berbasis jaringan
- TLDR : Mengusulkan arsitektur yang rapi untuk menguraikan sistem dialog menjadi sejumlah komponen jaringan saraf yang terlatih secara individual.
- (2016) Fungsi objektif yang mempromosikan keanekaragaman untuk model percakapan saraf
- TLDR : Memperkenalkan fungsi objektif informasi timbal balik maksimum untuk sistem dialog pelatihan.
- (2016) Seri Tantangan Pelacakan Negara Dialog: A Review
- TLDR : Tinjauan yang bagus tentang tantangan pelacakan negara dialog untuk sistem dialog.
- (2017) Arsitektur urutan-ke-urutan yang disalin memberikan kinerja yang baik pada dialog berorientasi tugas
- TLDR : Menunjukkan bahwa arsitektur urutan-ke-urutan sederhana dengan mekanisme salinan dapat melakukan secara kompetitif pada dataset dialog berorientasi tugas yang ada.
- (2017) Jaringan pengambilan nilai-kunci untuk dialog berorientasi tugas?
- TLDR : Memperkenalkan dataset multidomain baru untuk dataset berorientasi tugas serta arsitektur untuk memasukkan informasi dengan lembut dari basis pengetahuan terstruktur ke dalam sistem dialog.
- (2017) Pembelajaran Agen Dialog Kolaboratif Simetris dengan Embeddings Grafik Pengetahuan Dinamis?
- TLDR : Memperkenalkan dataset dialog kolaboratif baru, serta arsitektur untuk mewakili pengetahuan terstruktur melalui embeddings grafik pengetahuan.
- (2017) Jaringan Kode Hibrida: Kontrol Dialog End-to-End Praktis dan Efisien Dengan Pembelajaran Diawasi dan Penguatan
- TLDR : Memperkenalkan arsitektur dialog hibrida yang dapat dilatih bersama melalui pembelajaran yang diawasi serta pembelajaran penguatan dan menggabungkan teknik jaringan saraf dengan pendekatan berbasis aturan berbutir halus.
Pembelajaran Interaktif
- (1971) Prosedur sebagai representasi untuk data dalam program komputer untuk memahami bahasa alami
- TLDR : Salah satu makalah seminal dalam ilmu komputer, memperkenalkan SHRDLU sistem awal untuk komputer yang memahami perintah bahasa manusia.
- (2016) Mempelajari permainan bahasa melalui interaksi
- TLDR : Memperkenalkan pengaturan baru untuk berinteraksi dengan komputer untuk menyelesaikan tugas di mana hanya bahasa alami yang dapat digunakan untuk berkomunikasi dengan sistem!
- (2017) Naturalisasi bahasa pemrograman melalui pembelajaran interaktif
- TLDR : Pekerjaan yang sangat keren yang memungkinkan komunitas pekerja untuk secara iteratif menaturalisasi bahasa yang dimulai dengan serangkaian perintah inti dalam tugas interaktif.
Pemodelan Bahasa
- (1996) Studi empiris tentang teknik perataan untuk pemodelan bahasa
- TLDR : Melakukan survei luas tentang teknik perataan dalam sistem pemodelan bahasa tradisional.
- (2003) Model bahasa probabilistik saraf
- TLDR : Pekerjaan seminal dalam pembelajaran mendalam untuk NLP, memperkenalkan salah satu model efektif paling awal untuk pemodelan bahasa berbasis jaringan saraf.
- (2014) Benchmark satu miliar kata untuk mengukur kemajuan dalam pemodelan bahasa statistik?
- TLDR : Memperkenalkan tolok ukur pemodelan bahasa Google satu miliar kata.
- (2015) Model bahasa saraf yang sadar karakter
- TLDR : Mengusulkan model bahasa menggunakan jaringan saraf konvolusional yang dapat menggunakan informasi tingkat karakter, melakukan di-par dengan sistem LSTM tingkat kata.
- (2016) mengeksplorasi batas pemodelan bahasa
- TLDR : Memperkenalkan sistem model bahasa mega menggunakan pembelajaran mendalam yang menggunakan berbagai teknik dan secara signifikan melakukan sota pada patokan satu miliar kata.
- (2018) Representasi kata kontekstual yang mendalam?
- TLDR : Makalah ini memperkenalkan Elmo, koleksi kata -kata embeddings yang sangat kuat yang dipelajari dari representasi perantara dari model bahasa LSTM dua arah yang mendalam. Mencapai SOTA pada 6 tugas NLP yang beragam.
- (2018) Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa
- TLDR : Salah satu makalah terpenting tahun 2018, memperkenalkan Bert arsitektur yang kuat pretrained menggunakan pemodelan bahasa yang kemudian secara efektif ditransfer ke tugas-tugas khusus domain lainnya.
- (2019) XLNET: pretraining autoregresif umum untuk pemahaman bahasa
- TLDR : Metode pretraining autoregresif umum yang membaik pada Bert dengan memaksimalkan kemungkinan yang diharapkan atas semua permutasi urutan faktorisasi.
Miscellanea
- (1997) Memori jangka pendek yang panjang
- TLDR : Memperkenalkan unit berulang LSTM, landasan NLP berbasis jaringan saraf modern
- (2000) Model Markov entropi maksimum untuk ekstraksi dan segmentasi informasi
- TLDR : Memperkenalkan model entropi Markov Markov untuk ekstraksi informasi, teknik ML yang umum digunakan dalam NLP klasik.
- (2010) dari frekuensi ke makna: model ruang vektor semantik
- TLDR : Survei indah dari model ruang vektor yang ada untuk belajar semantik dalam teks.
- (2012) Pengantar bidang acak bersyarat
- TLDR : Tinjauan yang bagus dan mendalam tentang bidang acak bersyarat, model pelabelan urutan yang biasa digunakan.
- (2013) Mendistribusikan representasi kata dan frasa dan komposisionalitasnya
- TLDR memperkenalkan Word2VEC, kumpulan representasi vektor terdistribusi yang umumnya digunakan untuk menginisialisasi embedding kata pada pada dasarnya setiap arsitektur NLP selama lima tahun terakhir. ?
- (2014) Gerakan: Vektor global untuk representasi kata?
- TLDR : Memperkenalkan Sarung Sarung Tangan Embeddings, salah satu teknik penyematan kata pretrain yang paling umum digunakan di semua rasa model NLP
- (2014) Jangan hitung, prediksi! Perbandingan sistematis dari penghitungan konteks vs. vektor semantik prediksi konteks
- TLDR : Makalah penting yang menunjukkan bahwa pendekatan semantik distribusi yang memprediksi konteks mengungguli teknik berbasis jumlah.
- (2015) Meningkatkan kesamaan distribusi dengan pelajaran yang dipetik dari embeddings kata
- TLDR : Menunjukkan bahwa teknik semantik distribusi tradisional dapat ditingkatkan dengan pilihan desain tertentu dan optimisasi hiperparameter yang membuat saingan kinerja mereka dari metode penyematan berbasis jaringan saraf.
- (2018) Fine-tuning model bahasa universal untuk klasifikasi teks
- TLDR : Menyediakan smorgasbord teknik yang bagus untuk model bahasa finetuning yang dapat secara efektif ditransfer ke tugas klasifikasi teks.
- (2019) Analogi dijelaskan: Menuju Pemahaman Kata Embeddings
- TLDR : Pekerjaan yang sangat bagus memberikan formalisme matematika untuk memahami beberapa sifat parafrase dari embeddings kata modern.