Saya sudah lama mengerjakan beberapa tugas pemrosesan bahasa alami. Suatu hari, saya merasa ingin menggambar peta bidang NLP tempat saya mencari nafkah. Saya yakin saya bukan satu -satunya orang yang ingin melihat sekilas tugas mana yang ada di NLP.
Saya melakukan yang terbaik untuk menutupi sebanyak mungkin tugas di NLP, tetapi memang ini jauh dari lengkap karena kurangnya pengetahuan saya. Dan referensi yang dipilih bias terhadap pencapaian pembelajaran mendalam baru -baru ini. Saya berharap ini berfungsi sebagai titik awal ketika Anda akan menggali tugas. Saya akan terus memperbarui repo ini sendiri, tetapi yang saya sangat berharap adalah Anda berkolaborasi dalam pekerjaan ini. Jangan ragu untuk mengirimi saya permintaan tarik!
13 Oktober 2017.
oleh Kyubyong
Ditinjau dan diperbarui oleh YJ Choe pada 18 Oktober 2017.
PAPER Teks Otomatis Kertas Menggunakan Jaringan SarafPAPER Pendekatan saraf untuk penilaian esai otomatisCHALLENGE Kaggle: The Hewlett Foundation: Penilaian Esai OtomatisPROJECT (Engine Penilaian AI yang Ditingkatkan) WIKIPAPER Deep Speech 2: Pengenalan Pidato End-to-End dalam Bahasa Inggris dan MandarinPAPER Wavenet: Model generatif untuk audio mentahPROJECT Implementasi TensorFlow dari Arsitektur Deepspeech BaiduPROJECT Speech-to-Text-Wavenet: Pengenalan Pidato Bahasa Inggris Tingkat Kalimat End-to-End Menggunakan DeepMind's WavenetCHALLENGE tantangan pemisahan dan pengakuan pidato ke -5DATA Tantangan Pemisahan dan Pengakuan Pidato ke -5DATA CSTR VCTK CorpusDATA librispeech asr corpusDATA Switchboard-1 Corpus Pidato TeleponDATA ted-lium corpusDATA Open Speech dan Sumber Daya BahasaDATA Suara Umum WIKIBOOK Ringkasan Teks OtomatisPAPER Menggunakan Jaringan SarafPAPER dengan jaringan saraf rekursif dan penerapannya untuk peringkasan multi-dokumenDATA (TAC)DATA Dokumen Memahami Konferensi (DUC) INFO Resolusi CoreferencePAPER dalam untuk Model Coreference MentionPAPER Meningkatkan Resolusi Coreference dengan Representasi Terdistribusi Level Entitas PembelajaranCHALLENGE Bersama Conll 2012: Memodelkan Coreference Multilingual Tidak Terbatas di OntonotesCHALLENGE Conll 2011 Tugas Bersama: Pemodelan Coreference Tidak Terbatas di OntonotesCHALLENGE Semeval 2018 Tugas 4: Identifikasi Karakter pada Dialog Multipartai PAPER Jaringan saraf convolution encoder-decoder multilayer untuk koreksi kesalahan tata bahasaPAPER untuk koreksi kesalahan tata bahasaPAPER untuk koreksi kalimatCHALLENGE Conll-2013 Tugas Bersama: Koreksi kesalahan tata bahasaCHALLENGE Conll-2014 Tugas Bersama: Koreksi kesalahan tata bahasaDATA NUS Lisensi Penelitian Non-Komersial/Trial CorpusDATA Lang-8 Learner CorporaDATA Cornell Movie-Dialogs CorpusPROJECT Korektor Teks DalamPRODUCT Tata Bahasa dalam PAPER Grapheme-to-Phoneme Model untuk (hampir) bahasa apa punPAPER : studi kasus dalam pembelajaran representasi fonetik lintas-bahasaPAPER -ke-urutan untuk konversi grapheme-to-phonemePROJECT -ke-urutanPROJECT G2P_EN: Modul Python sederhana untuk Grapheme Bahasa Inggris ke Konversi FonemDATA data pengucapan multibahasa PAPER : SurveiPAPER untuk sarkasme: Membuat deteksi sarkasme tepat waktu, kontekstual dan sangat pribadiPAPER di Twitter: Pendekatan Pemodelan PerilakuCHALLENGE Semeval-2017 Tugas 6: #hashtagwars: Belajar rasa humorCHALLENGE Semeval-2017 Tugas 7: Deteksi dan Interpretasi Pun EnglishDATA dari RedditDATA sarkasme corpus v2DATA Amazon mengulas corpus WIKIPAPER masalah pentanahan simbolPAPER dari fonem ke gambar: Tingkat representasi dalam model saraf berulang dari pembelajaran bahasa yang di-visualPAPER fonologi dalam model saraf berulang dari ucapan groundedPAPER Gated-Intention untuk landasan bahasa berorientasi tugasPAPER Sound-Word2Vec: Mempelajari representasi kata yang didasarkan pada suaraCOURSE mendarat ke visi dan kontrolWORKSHOP mendarat untuk robotika WIKIPAPER Menggunakan Jaringan Saraf DalamPAPER dengan Jaringan Umpan-Maju KecilCHALLENGE Evaluasi Pengenalan Bahasa 2015 WIKITOOLKIT Kenlm Bahasa Model ToolkitPAPER terdistribusi representasi kata dan frasa dan komposisionalitasnyaPAPER dengan jaringan saraf berulangPAPER Karakter KertasTHESIS berdasarkan jaringan sarafDATA Penn TreebankTUTORIAL tentang Pemodelan Bahasa dengan Jaringan Saraf Berulang WIKIPAPER dan penandaan morfologis dengan lemmingTOOLKITDATA Treebank-3 WIKIPAPER lipnet: lipreading tingkat kalimat ujung ke ujungPAPER di alam liarPAPER pengenalan ucapan visual berskala besarPROJECT Lip Reading - Cross Audio -Visual Recognition Menggunakan Jaringan Saraf Convolutional 3DPRODUCTDATA Corpus kalimat audiovisual gridDATA BBC-OXFORD 'Multi-View Lip Reading Dataset' (MV-LRS) PAPER Neural Machine Translation dengan bersama -sama belajar menyelaraskan dan menerjemahkanPAPER Neural Machine Terjemahan dalam waktu linierPAPER adalah semua yang Anda butuhkanPAPER enam tantangan untuk terjemahan mesin sarafPAPER Frase & NeuralCHALLENGE ACL 2014 Lokakarya Kesembilan tentang Terjemahan Mesin StatistikCHALLENGE EMNLP 2017 Konferensi Kedua tentang Terjemahan Mesin (WMT17)DATA OpenSubtitles2016DATA Wit3: Inventaris Web dari pembicaraan yang ditranskripsi dan diterjemahkanDATA Corpus Domain Pendidikan QCRI (QED)PAPER untuk belajar urutanPAPER pretraining tanpa pengawasan untuk urutan ke urutan pembelajaranPAPER Google: Mengaktifkan terjemahan zero-shotTOOLKIT Subword Neural Machine Terjemahan dengan Byte Pair Encoding (BPE)TOOLKIT Multi-Way Neural Machine TerjemahanTOOLKIT OpenNMT: Toolkit Sumber Terbuka untuk Terjemahan Mesin Saraf WIKIPAPER Menggunakan Urutan Karakter untuk Mengurutkan PembelajaranCHALLENGE Sigmorphon 2016 Tugas Bersama: Reinfleksi MorfologisDATA Sigmorphon2016 WIKIPAPER kuat dan entitas kolektif disambiguasi melalui embeddings semantik WIKI bernama-entitasPAPER untuk pengakuan entitas bernamaPROJECT OSU Twitter NLP ToolsCHALLENGE Bernama Pengenalan Entitas di TwitterCHALLENGE Conll 2002 Bahasa-independen bernama Entity RecognitionCHALLENGE Pengantar Tugas Bersama Conll-2003: Pengakuan Entitas Bermain Bahasa-IndependenDATA conll-2002 ner corpusDATA conll-2003 ner corpusDATA Nut Named Entity Recognition di Twitter Shared TaskTOOLKIT Stanford bernama Entity Acognizer PAPER Dinamis Pooling dan Autoencoders Rekursif Terbuka untuk Deteksi ParafrasePROJECT Paratex: Pembelajaran yang didorong parafrase untuk menjawab pertanyaan terbukaCHALLENGE Semeval-2015 Tugas 1: Paraphrase dan Kesamaan Semantik di TwitterDATA Microsoft Research Paraphrase CorpusDATA Microsoft Research Video Deskripsi CorpusDATA Data Pascal DataDATADATA set data yang sakitDATA PPDB: Database parafraseDATA wikianswers corpus PAPER Neural Parafrase Generasi dengan jaringan LSTM residual bertumpukDATA Generasi Parafrase Saraf Dengan Jaringan LSTM Residual TumpukCODE Generasi Parafrase Saraf dengan Jaringan LSTM Residual TumpukPAPER Kerangka generatif yang mendalam untuk generasi parafrasePAPER parafrase ditinjau kembali dengan terjemahan mesin saraf WIKITOOLKIT The Stanford Parser: Parser statistikTOOLKITPAPER sebagai bahasa asingPAPER parser ketergantungan yang cepat dan akurat menggunakan jaringan sarafPAPER parsing semantik universalCHALLENGE Bersama Conll 2017: Parsing multibahasa dari teks mentah ke dependensi universalCHALLENGE Conll 2016 Tugas Bersama: Parsing Wacana Dangkal MultilingualCHALLENGE Conll 2015 Tugas Bersama: Parsing Wacana DangkalCHALLENGE Semeval-2016 Tugas 8: Representasi makna mungkin abstrak, tetapi tugas ini konkret! WIKI Part-of-Speech TaggingPAPER Multilingual Tagging Bagian-Pidato dengan Model Memori Jangka Pendek Panjang BIDIRECTIONAL DAN KEHILANGAN AUXILIARYPAPER Tagging Part-of-Speech Tanpa Pengawasan Dengan Model Markov Hidden AnchorDATA Treebank-3TOOLKIT NLTK.Tag WIKI pinyinPAPER untuk Mesin Metode Input Pinyin CinaPROJECT Transliterator Neural China WIKI menjawabPAPER Tanyakan Apa Saja: Jaringan Memori Dinamis untuk Pemrosesan Bahasa AlamiPAPER untuk menjawab pertanyaan visual dan tekstualCHALLENGE TREC PERTANYAAN PERTANYAAN PERTANYAANCHALLENGE NTCIR-8: Akses Informasi Laba-Laba Tingkat Lanjut (ACLIA)CHALLENGE Tanya Jawaban Jawaban ClefCHALLENGE Semeval-2017 Tugas 3: Jawaban Pertanyaan KomunitasCHALLENGE Semeval-2018 Tugas 11: Pemahaman Mesin Menggunakan pengetahuan akal sehatDATA MS Marco: Microsoft Machine Membaca Dataset PemahamanDATA Maluuba NewsqaDATA : 100.000+ Pertanyaan untuk Pemahaman Mesin TeksDATA Graphquestions: Dataset Penjawab pertanyaan yang kaya karakteristikDATA Cloze Test dan Rocstories CorporaDATA Microsoft Research Wikiqa CorpusDATA DeepMind DatasetDATA QasentDATA WIKIPAPER Pendekatan pembelajaran yang mendalam untuk ekstraksi hubungan dari konteks interaksi dalam paradigma manufaktur sosialCHALLENGE Semeval-2018 Tugas 7 Ekstraksi dan klasifikasi relasi semantik dalam makalah ilmiah WIKI Labeling Peran SemantikBOOK label peran semantikPAPER end-to-end dari label peran semantik menggunakan jaringan saraf berulangPAPER Neural Semantic Role Labeling dengan Embeddings Jalur KetergantunganPAPER Deep Semantic Role Labeling: Apa yang berhasil dan apa selanjutnyaCHALLENGE CONLL-2005 Tugas Bersama: Label Peran SemantikCHALLENGE Conll-2004 Tugas Bersama: Label Peran SemantikTOOLKIT Illinois Semantic Role Labeler (SRL)DATA Conll-2005 Tugas Bersama: Label Peran Semantik WIKI Kalimat Batas DisambiguasiPAPER Evaluasi kuantitatif dan kualitatif dari deteksi batas kalimat untuk domain klinisTOOLKIT NLTKDATA Corpus Nasional InggrisDATA Switchboard-1 Corpus Pidato Telepon WIKIINFO analisis sentimen yang luar biasaCHALLENGE Kaggle: Umich SI650 - Klasifikasi SentimenCHALLENGE Semeval-2017 Tugas 4: Analisis Sentimen di TwitterCHALLENGE SEMEVAL-2017 Tugas 5: Analisis sentimen berbutir halus tentang mikroblog keuangan dan beritaPROJECT SenticnetPROJECT Stanford NLPDATA Multi-Domain Sentiment Dataset (Versi 2.0)DATA Stanford Sentiment TreebankDATA Twitter Sentiment CorpusDATA Corpus Pelatihan Analisis Sentimen TwitterDATA Afinn: Daftar Kata Bahasa Inggris Dinilai untuk Valensi PAPER Video Berbasis Roh Bahasa Tanpa Segmentasi TemporalPAPER : bentuk tangan ujung ke ujung dan pengenalan bahasa isyarat yang berkelanjutanDATA rwth-phoenix-cuacaDATA AsllrpPROJECT PAPER Berdasarkan Jaringan Saraf DeepPAPER Parametrik Synthesizer Parametric Synthesizer Pemodelan Timbre dan Ekspresi dari Lagu AlamiPRODUCT Vokaloid: Teknologi dan perangkat lunak sintesis suara yang dikembangkan oleh YamahaCHALLENGE "Fill-in the Gap" WORKSHOP NLP+CSS: Lokakarya tentang Pemrosesan Bahasa Alami dan Ilmu Sosial KomputasiTOOLKIT Pria Juga Suka Belanja: Mengurangi Amplifikasi Bias Jender Menggunakan Kendala Level CorpusTOOLKIT Online Variational Bayes untuk Alokasi Dirichlet Laten (LDA)GROUP laboratorium Pengetahuan Universitas Chicago WIKIPAPER dari buta hingga pemisahan sumber audio yang dipanduPAPER dari Topeng dan Jaringan Saraf Berulang Dalam untuk Pemisahan Sumber MonauralCHALLENGE (SISEC)CHALLENGE Pemisahan Pidato dan Tantangan Pengakuan WIKIPAPER DNN berbasis pengelompokan untuk diarisasi speakerPAPER Tanpa Pengawasan untuk Diarization Speaker: Pendekatan Terpadu dan IteratifPAPER Audio-Visual Speaker Diarization Berdasarkan Spatiotemporal Bayesian FusionCHALLENGE evaluasi transkripsi yang kaya WIKIPAPER Sebuah skema baru untuk pengakuan speaker menggunakan jaringan saraf dalam yang sadar secara fonetisPAPER Deep Neural Networks untuk verifikasi speaker yang bergantung pada teks jejak kaki kecilPAPER Deep Speaker: Sistem Embedding Neural End-to-End-End-End-EndPROJECT Voice Vector: Manakah dari bintang Hollywood yang paling mirip dengan suara saya?CHALLENGE Evaluasi Pengakuan Pembicara NIST (SRE)INFO Apakah ada saran untuk database gratis untuk pengakuan speaker?DATA Voxceleb2: Pengenalan Pembicara yang Dalam WIKI speech_segmentationPAPER pada usia 8 bulan: Ketika isyarat pidato lebih dari statistikPAPER menggunakan embeddings kata akustikPAPER penemuan leksikon tanpa pengawasan dari input akustikPAPER penemuan istilah lisan yang diawasi dengan lemah menggunakan informasi sisi lintas-bahasaDATA Callhome Spanyol Pidato WIKIPAPER Natural TTS Sintesis dengan mengkondisikan Wavenet pada prediksi spektrogram MELPAPER Wavenet: Model generatif untuk audio mentahPAPER : Menuju sintesis ucapan ujung ke ujungPAPER Deep Voice 3: 2000-speaker saraf saraf-ke-kekuatanPAPER Sistem Teks-ke-Tata Serba yang Dapat Dilatih Berdasarkan Jaringan Konvolusional yang Dalam Dengan Perhatian TerpanduDATA Dunia Bahasa Inggris AlkitabDATA LJ Speech DatasetDATA Lessac DataCHALLENGE Tantangan Blizzard 2017PRODUCT LyrebirdPROJECT Proyek FestvoxTOOLKIT Merlin: Sistem Sintesis Bicara Jaringan Saraf (NN) WIKIBOOK : Teori dan PraktekPAPER Sebuah studi eksperimental tentang peningkatan ucapan berbasis diPeneuralnetworkPAPER Pendekatan regresi untuk peningkatan ucapan berbasis diKoleepneuralnetworksPAPER berdasarkan autoencoder denoising yang dalam WIKI StemmingPAPER Jaringan saraf backpropagation untuk meningkatkan stemming ArabTOOLKIT NLTK Stemmers WIKIPAPER untuk Klasifikasi Urutan: Analisis dan Aplikasi untuk Ekstraksi Term Deteksi UU Kunci dan Deteksi Undang -Undang Dialog WIKIPAPER Survei pendekatan kesamaan teksPAPER untuk memberi peringkat pasangan teks pendek dengan jaringan saraf dalam konvolusionalPAPER meningkatkan representasi semantik dari jaringan memori jangka pendek yang terstruktur pohonCHALLENGE Semeval-2014 Tugas 3: Kesamaan semantik lintas tingkatCHALLENGE SEMEVAL-2014 Tugas 10: Kesamaan tekstual semantik multibahasaCHALLENGE Semeval-2017 Tugas 1: Kesamaan tekstual semantikWIKI kesamaan tekstual semantik WIKIPAPER Menyelaraskan Kertas dari Wikipedia Standar ke Wikipedia SederhanaPAPER dalam penelitian penyederhanaan teks saat ini: data baru dapat membantuDATA data Newsela WIKI Tekstual PersyaratanPROJECT dengan tensorflowPAPER Textual Entailment dengan perhatian dan komposisi terstrukturCHALLENGE Semeval-2014 Tugas 1: Evaluasi model semantik distribusi komposisi pada kalimat penuh melalui keterkaitan semantik dan persyaratan tekstualCHALLENGE Semeval-2013 Tugas 7: Analisis Respons Siswa Gabungan dan Tantangan Tekstual Mengenali ke-8 WIKIINFO Transliterasi skrip non-LatinPAPER Pendekatan pembelajaran yang mendalam untuk transliterasi mesinCHALLENGE 2016 Bersama pada Transliterasi Entitas BernamaPROJECT Neural Jepang Transliterasi - Bisakah Anda melakukan lebih baik daripada keyboard SwiftKey ™? PAPER Fonetic Posteriorgrams untuk konversi suara banyak-ke-satu tanpa pelatihan data paralelPROJECT Deep Neural Networks untuk Konversi Suara (Transfer Gaya Suara) di TensorFlowPROJECT Implementasi Sistem Konversi Suara Memanfaatkan Posterior FonetikCHALLENGE 2016CHALLENGE 2018DATA database sintesis ucapan ucapan CMU_ArcticDATA corpus ucapan kontinu akustik-fonetik timit WIKI Word EmbeddingTOOLKIT Gensim: Word2VecTOOLKIT FastTextTOOLKIT Glove: Vektor Global untuk Representasi KataINFO di mana mendapatkan model pretrainedPROJECTPROJECT -terlatih dari 30+ bahasaPROJECT Polyglot: Representasi kata terdistribusi untuk NLP multibahasaPROJECT BPEMB: Kumpulan embeddings subword pra-terlatih dalam 275 bahasaCHALLENGE Semeval 2018 Tugas 10 Menangkap Atribut DiskriminatifPAPER Bilingual Word Embeddings untuk terjemahan mesin berbasis frasaPAPER Survei model penyematan lintas-bahasa INFO apa prediksi kata?PAPER prediksi karakter berdasarkan model bahasa jaringan saraf berulangPAPER prediksi kata berbasis pembelajaran mendalam tertanamPAPER Mengevaluasi Prediksi Kata: Membingkai Penghematan KeystrokeDATA prediksi kata berbasis pembelajaran mendalam tertanamPROJECT menggunakan jaringan saraf konvolusional - dapatkah Anda melakukan lebih baik daripada keyboard iPhone ™?CHALLENGE Tugas Semeval-2018 2, Prediksi Emoji Multilingual WIKIPAPER Neural Word Segmentation Learning for ChinaPROJECT untuk segmentasi kata CinaTOOLKIT Stanford Word SegmenterTOOLKIT NLTK DATA Word-Sense DisambiguasiPAPER Train-O-Matic: Disambiguasi Sense Kata Besar Diperbesar dalam Berbagai Bahasa Tanpa Data Pelatihan ManualDATA -O-Matic DataDATA babelnet