Sumber Daya Luar Biasa untuk NLP
Pembaruan Baru: Jaringan Kapsul, Deteksi Sarkasme
Daftar isi
- Daftar isi
- Perpustakaan
- Matematika Essesntial
- Kamus
- Kamus
- Penguraian
- Ceramah
- Model Bahasa
- Deteksi sarkasme
- Terjemahan mesin
- Pembuatan teks
- Klasifikasi Teks
- Ringkasan teks
- Sentimen
- Embeddings kata/dokumen
- Representasi kata
- Jawaban Pertanyaan
- Ekstraksi informasi
- Kesimpulan Bahasa Alami
- Jaringan kapsul
- Kewajaran
- Lainnya
- Menyumbang
Perpustakaan yang berguna
- Numpy Stanford's Lecture CS231N berurusan dengan Numpy, yang mendasar dalam perhitungan pembelajaran mesin.
- NLTK Ini adalah serangkaian perpustakaan dan program untuk pemrosesan bahasa alami simbolis dan statistik
- TensorFlow Tutorial yang disediakan oleh TensorFlow. Ini memberikan penjelasan yang bagus tentang dasar -dasar dengan alat bantu visual. Berguna dalam NLP yang dalam
- Pytorch Tutorial yang luar biasa tentang Pytorch disediakan oleh Facebook dengan kualitas yang hebat.
- Sequence Tensor2Tensor ke Sequence Tool Kit oleh Google Ditulis di TensorFlow.
- Fairseq Sequence to Sequence Tool Kit oleh Facebook Ditulis dalam Pytorch.
- Memeluk Face Transformers Sebuah perpustakaan berdasarkan transformator yang disediakan dengan memeluk wajah yang memungkinkan akses mudah ke model yang sudah terlatih. Salah satu pustaka NLP utama untuk tidak hanya pengembang tetapi juga peneliti.
- Memeluk Wajah tokenizer Perpustakaan tokenizer yang dipeluk Face. Ini meningkatkan operasi cepat karena fungsi -fungsi utama ditulis dalam karat. Tokenizer terbaru seperti BPE dapat dicoba dengan tokenizer wajah memeluk.
- Spacy Tutorial yang ditulis oleh Ines, pengembang inti dari Spacy yang patut diperhatikan.
- TorchText Tutorial tentang TorchText, paket yang membuat data preprocessing handy. Memiliki lebih banyak detail daripada dokumentasi resmi.
- Kalimat Perpustakaan Open Source Google yang membangun kosakata berbasis BPE menggunakan informasi subword.
- Perpustakaan Gensim Python untuk pemodelan topik, pengindeksan dokumen dan pengambilan kesamaan dengan korpora besar.
- Polyglot Pipa bahasa alami yang mendukung aplikasi multibahasa besar -besaran.
- TextBlob menyediakan API sederhana untuk menyelam ke dalam tugas pemrosesan bahasa alami umum (NLP) seperti penandaan bagian-of-speech, ekstraksi frasa kata benda, analisis sentimen, klasifikasi, terjemahan, integrasi WordNet, penguraian, infleksi kata
- Quepy Kerangka kerja Python untuk mengubah pertanyaan bahasa alami menjadi pertanyaan dalam bahasa kueri database.
- Modul penambangan web pola untuk python, dengan alat untuk mengikis, pemrosesan bahasa alami, pembelajaran mesin, analisis jaringan dan visualisasi
Matematika Esensial
- Statistik dan probabilitas
- Statistik 110 Kuliah tentang probabilitas yang dapat dengan mudah dipahami oleh siswa utama yang tidak direkayasa.
- Statistik Brandon Foltz Probabilitas dan kuliah statistik Brandon diposting di YouTube dan agak pendek, sehingga dapat dengan mudah diakses selama perjalanan sehari -hari.
- Aljabar linier
- Aljabar linier Lecture luar biasa dari Profesor Gilbert Strang.
- Essence of linear aljabar linear aljabar kuliah di saluran youtube 3blue1brown
- Dasar -dasar
- Buku Pembelajaran Matematika untuk Mesin tentang semua pengetahuan matematika disertai dengan pembelajaran mesin.
- Esensi kuliah kalkulus kalkulus oleh saluran 3blue1brown yang disebutkan di atas, bermanfaat bagi mereka yang menginginkan gambaran umum kalkulus juga.
Kamus
- Kamus Bilingual
- CC-Cedict Kamus dwibahasa antara Inggris dan Cina.
- Kamus Mengucapkan Kamus
- CMUDICT KAMUS UNIVERSITAS CARNEGIE MELLON adalah kamus pengucapan yang dapat dibaca mesin open-source untuk bahasa Inggris Amerika Utara yang berisi lebih dari 134.000 kata dan pengucapannya.
Kamus
- Kamus Pola PDEV Kata Kerja Bahasa Inggris.
- Verbnet leksikon yang mengelompokkan kata kerja berdasarkan perilaku penghubung semantik/sintaksis mereka.
- Framenet leksikon berdasarkan bingkai semantik.
- WordNet Leksikon yang menggambarkan hubungan semantik (seperti sinonim dan hiperonim) antara kata -kata individu.
- Propbank Corpus satu juta kata teks bahasa Inggris, dijelaskan dengan label peran argumen untuk kata kerja; dan leksikon yang mendefinisikan peran argumen tersebut berdasarkan per-kata kerja.
- Nombank Dataset menandai set argumen yang Cooccur dengan kata benda di Propbank Corpus (Wall Street Journal Corpus dari Penn Treebank), sama seperti Propbank mencatat informasi tersebut untuk kata kerja.
- SEMLINK Sebuah proyek yang tujuannya adalah untuk menghubungkan sumber daya leksikal yang berbeda melalui set pemetaan. (Verbnet, Propbank, Framenet, WordNet)
- Framester Framester adalah pusat antara Framenet, WordNet, Verbnet, Babelnet, Dbpedia, Yago, Dolce-Zero, serta sumber daya lainnya. Framester tidak hanya membuat grafik pengetahuan yang sangat terhubung, tetapi juga menerapkan perlakuan formal yang ketat untuk semantik bingkai Fillmore, memungkinkan ow hantu penuh permintaan dan penalaran pada grafik pengetahuan berbasis bingkai bersama yang dibuat.
Penguraian
- PTB The Penn Treebank (PTB).
- Universal Dependencies Universal Dependencies (UD) adalah kerangka kerja untuk anotasi tata bahasa yang konsisten secara silang dan upaya masyarakat terbuka dengan lebih dari 200 kontributor yang menghasilkan lebih dari 100 bank pohon dalam lebih dari 60 bahasa.
- TweeBank Tweebank V2 adalah kumpulan tweet bahasa Inggris yang dianotasi dalam dependensi universal yang dapat dieksploitasi untuk pelatihan sistem NLP untuk meningkatkan kinerja mereka pada teks media sosial.
- SEMEVAL-2016 TUGAS 9 SEMEVAL-2016 Tugas 9 (Parsing Ketergantungan Semantik Tiongkok) Dataset.
Ceramah
- PDTB2.0 PDTB, Versi 2.0. Annotates 40600 Hubungan Wacana, didistribusikan ke dalam lima jenis berikut: eksplisit, implisit, dll.
- PDTB3.0 Dalam versi 3, 13.000 token tambahan dianotasi, anotasi berpasangan tertentu distandarisasi, indera baru dimasukkan dan korpus tunduk pada serangkaian pemeriksaan konsistensi.
- TRANSLASI KEMBALI HUBUNGAN WAGNIK IMPLIST Sumber Daya ini berisi instance hubungan wacana implisit beranotasi. Kalimat-kalimat ini dijelaskan secara otomatis oleh translasi belakang korpora paralel.
- DiscoursechinesetedTalks Dataset ini termasuk anotasi untuk 16 pembicaraan TED dalam bahasa Cina.
Model Bahasa
- PTB Penn Treebank Corpus dalam versi LM.
- Dataset Google Million Word 1 miliar Benchmark Pemodelan Bahasa Kata.
- Wikuxt Dataset Pemodelan Bahasa Wikuxt adalah kumpulan lebih dari 100 juta token yang diekstraksi dari set artikel yang baik dan unggulan di Wikipedia. Dibandingkan dengan versi preproses dari Penn Treebank (PTB), Wikuxt-2 lebih dari 2 kali lebih besar dan Wikuxt-103 lebih dari 110 kali lebih besar.
Deteksi sarkasme
- Detektor sarkasme kontekstual kaskade (Cascade) mengadopsi pendekatan hibrida dari pemodelan konten dan konteks untuk deteksi sarkasme dalam diskusi media sosial online. Selanjutnya mereka menggunakan ekstraktor fitur berbasis konten seperti jaringan saraf konvolusional
- Pandangan yang lebih dalam ke tweet sarkastik menggunakan jaringan saraf konvolusional dalam Jurnal Internasional Penelitian Lanjutan dalam Teknik & Teknologi Komputer, Volume 6, Edisi 1, Jan 2017. Mereka mengusulkan sistem otomatis untuk mendeteksi sarkasme di Twitter dengan menggunakan fitur yang terkait dengan sentimen
- ADARNN Neural Neural Network (ADARNN) Adaptive untuk klasifikasi sentimen Twitter yang bergantung pada target. Itu secara adaptif menyebarkan sentimen kata untuk ditargetkan tergantung pada konteks dan hubungan sintaksis di antara mereka
- Mendeteksi sarkasme dengan neural convolutional networks yang mendalam. Artikel Medium Terkait. Ini mengusulkan untuk terlebih dahulu melatih model sentimen (berdasarkan CNN) untuk mempelajari ekstraksi fitur khusus sentimen. Model ini mempelajari fitur -fitur lokal di lapisan bawah yang kemudian dikonversi menjadi fitur global di lapisan yang lebih tinggi.
Terjemahan mesin
- Europarl Corpus paralel Europarl diekstraksi dari proses Parlemen Eropa. It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek.
- UNCORPUS PBB Paralel Corpus v1.0 terdiri dari catatan resmi dan dokumen parlemen lainnya dari PBB yang berada di domain publik.
- CWMT Data ZH-EN dikumpulkan dan dibagikan oleh China Workshop tentang Komunitas Terjemahan Mesin (CWMT). Ada tiga jenis data untuk terjemahan mesin Cina-Inggris: teks Cina monolingual, teks bahasa Cina-Inggris paralel, teks referensi ganda.
- Data pelatihan model bahasa monolingual, seperti crawl news crawl di cs de en fi ro ru tr dan data paralel.
- Opus Opus adalah kumpulan teks yang diterjemahkan dari web. Dalam proyek OPUS kami mencoba mengonversi dan menyelaraskan data online gratis, untuk menambahkan anotasi linguistik, dan untuk memberi masyarakat korpus paralel yang tersedia untuk umum.
Pembuatan teks
- Artikel otomatis Tencent mengomentari dataset Cina skala besar dengan jutaan komentar nyata dan subset yang dianotasi manusia yang mengkarakterisasi kualitas komentar yang bervariasi. Dataset ini terdiri dari sekitar 200k artikel berita dan komentar manusia 4,5 juta bersama dengan data meta yang kaya untuk kategori artikel dan suara pengguna komentar.
- Peringkasan
- BigPatent Dataset peringkasan terdiri dari 1,3 juta catatan dokumen paten AS bersama dengan ringkasan abstraktif tertulis manusia.
- Data-ke-teks
- Wikipedia Person dan Dataset Hewan Dataset ini mengumpulkan 428.748 orang dan 12.236 infobox hewan dengan deskripsi berdasarkan Wikipedia Dump (2018/04/01) dan Wikidata (2018/04/12).
- Wikibio Dataset ini mengumpulkan 728.321 biografi dari Wikipedia. Ini bertujuan untuk mengevaluasi algoritma pembuatan teks. Untuk setiap artikel, ini memberikan paragraf pertama dan infobox (keduanya tokenized).
- ROTOWIRE Dataset ini terdiri dari ringkasan permainan basket NBA (ditulis manusia) yang selaras dengan skor kotak dan garis yang sesuai.
- Detail MLB dalam pembuatan data-ke-teks dengan pemodelan entitas, ACL 2019
Klasifikasi Teks
- 20NewSgroups 20 kumpulan data newsgroups adalah kumpulan sekitar 20.000 dokumen newsgroup, dipartisi (hampir) secara merata di 20 kelompok berita yang berbeda.
- Korpus artikel berita AG AG adalah kumpulan lebih dari 1 juta artikel berita.
- Yahoo-Answers-Topic-Classification Corpus ini berisi 4.483.032 pertanyaan dan jawaban yang sesuai dari Yahoo! Jawaban Layanan.
- Google-Snippets Dataset ini berisi hasil pencarian web yang terkait dengan 8 domain yang berbeda seperti bisnis, komputer, dan rekayasa.
- BenchmarkingZeroshot Repositori ini berisi kode dan data untuk EMNLP2019 Paper "Benchmarking Zero-Shot Text Classification: Dataset, Evaluasi dan Pendekatan Bersasa".
Ringkasan teks
- Ringkasan Teks dengan Gensim Implementasi Gensim didasarkan pada algoritma "Textrank" yang populer
- Ringkasan Teks Tanpa Diawasi Artikel Luar Biasa Menjelaskan Ringkasan Teks Menggunakan Embeddings Kalimat
- Meningkatkan abstraksi dalam peringkasan teks yang mengusulkan dua teknik untuk perbaikan
- Ringkasan dan kategorisasi teks lebih terkait dengan data ilmiah dan kesehatan yang terkait
- Ringkasan Teks dengan TensorFlow. Studi dasar tentang peringkasan teks tahun 2016
Sentimen
- MPQA 3.0 Corpus ini berisi artikel berita dan dokumen teks lainnya secara manual dijelaskan untuk pendapat dan negara pribadi lainnya (yaitu, keyakinan, emosi, sentimen, spekulasi, dll.). Perubahan utama dalam versi MPQA Corpus ini adalah penambahan anotasi Etarget (Entity/Event) baru.
- Sisiwordnet Siniwordnet adalah sumber daya leksikal untuk penambangan opini. Sisiwordnet menetapkan untuk setiap sinset WordNet tiga skor sentimen: positif, negatif, objektivitas.
- NRC Word-Emotion Association Lexicon Leksikon emosi NRC adalah daftar kata-kata bahasa Inggris dan asosiasi mereka dengan delapan emosi dasar (kemarahan, ketakutan, antisipasi, kepercayaan, kejutan, kesedihan, kegembiraan, dan jijik) dan dua sentimen (negatif dan positif).
- Stanford Sentiment Treebank SST adalah dataset dari makalah: Model mendalam rekursif untuk komposisi semantik atas sentimen Treebank Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew NG dan Christopher Potts Konferensi tentang metode empiris dalam pemrosesan bahasa alam (Emnlp 2013)
- SEMEVAL-2013 Twitter Semeval 2013 Dataset Twitter, yang berisi anotasi sentimen tingkat frase.
- Sustihood Sentsihood adalah dataset untuk tugas analisis sentimen berbasis aspek yang ditargetkan, yang berisi 5215 kalimat. SURIHOOD: Dataset analisis sentimen berbasis aspek yang ditargetkan untuk lingkungan perkotaan, Coling 2016 .
- SEMEVAL-2014 Tugas 4 Tugas ini berkaitan dengan analisis sentimen berbasis aspek (ABSA). Dua dataset khusus domain untuk laptop dan restoran, yang terdiri dari lebih dari 6 ribu kalimat dengan anotasi manusia tingkat aspek berbutir halus telah disediakan untuk pelatihan.
Embeddings kata/dokumen
- Kata universal/kalimat terbaik saat ini. Ini mengkodekan kata-kata dan kalimat dalam vektor padat panjang tetap untuk secara drastis meningkatkan pemrosesan data tekstual.
- Embedding dokumen dengan paragraf vektor 2015. Dari Google.
- Demo Embeddings Sarung Tangan Demo Cara Menggunakan Embeddings Kata Sarung Tangan
- FastText Perpustakaan untuk mempelajari kata embeddings dan klasifikasi teks yang dibuat oleh laboratorium penelitian AI Facebook (wajar) dengan banyak model pretrained
- Klasifikasi teks dengan implementasi praktis Word2vec tentang cara melakukan klasifikasi teks dengan Word2Vec menggunakan sarung tangan
- Dokumen Menyematkan Pengantar Dasar -Dasar dan Pentingnya Embeddings Dokumen
- Dari kata embeddings hingga mendokumentasikan jarak mengintodus jarak Word Mover (WMD) yang mengukur perbedaan antara dua dokumen teks sebagai jumlah minimum jarak yang kata -kata tertanam dari satu dokumen perlu "bepergian" untuk mencapai kata -kata tertanam dari dokumen lain.
- Tutorial DOC2VEC tentang Dataset Lee
- Embeddings kata dalam python dengan spacy dan gensim
- Bert Illustrated, Elmo, dan co. (Bagaimana NLP memecahkan pembelajaran transfer). Des 2018.
- Represenasi kata yang dalam kontekstual. Elmo. Implementasi Pytorch. Implementasi TF
- Penyesuaian untuk klasifikasi teks. Kode Implementasi.
- Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami. Menunjukkan bagaimana representasi kalimat universal dilatih menggunakan data yang diawasi
- Dipelajari dalam terjemahan: vektor kata kontekstual. Cove menggunakan encoder LSTM yang dalam dari model urutan-urutan-ke-urutan yang dilatih untuk terjemahan mesin (MT) untuk mengontekstualisasikan vektor kata
- Representasi kalimat dan dokumen yang didistribusikan. Vektor paragraf. Lihat Tutorial Doc2Vec di Gensim
- Sense2vec. Metode yang cepat dan akurat untuk disambiguasi indera kata dalam embeddings kata saraf
- Lewati vektor pemikiran. Model encoder-decoder yang mencoba merekonstruksi kalimat di sekitarnya dari bagian yang dikodekan
- Urutan untuk mengurutkan pembelajaran dengan jaringan saraf. Ini menggunakan LSTM berlapis -lapis untuk memetakan urutan input ke vektor dimensi tetap, dan kemudian LSTM dalam lainnya untuk memecahkan kode urutan target dari vektor
- Kekuatan luar biasa dari kata -kata vektor. Materi yang Terkait dengan Word2VEC dari Lima Makalah Penelitian yang Berbeda
- Embeddings string kontekstual untuk pelabelan urutan. Properti termasuk bahwa mereka (a) dilatih tanpa gagasan kata -kata yang eksplisit, dan (b) dikontekstualisasikan dengan teks di sekitarnya
- Bert Dijelaskan - Model Bahasa Canggih untuk NLP. Penjelasan yang hebat tentang dasar -dasar bagaimana Bert bekerja.
- Ulasan model berbasis Bert. Dan beberapa petunjuk/wawasan terbaru tentang apa yang membuat Bert begitu efektif
Representasi kata
- Kata embedding
- Google News Word2Vec Model ini berisi 300 vektor untuk 3 juta kata dan frasa yang dilatih di bagian dari dataset Google News (sekitar 100 miliar kata).
- Sarung tangan pra-terlatih pra-terlatih vektor menggunakan sarung tangan. Wikipedia + Gigaword 5, Common Crawl, Twitter.
- Vektor kata pra-terlatih pra-terlatih FastText untuk 294 bahasa, dilatih di Wikipedia menggunakan FastText.
- Bpemb Bpemb adalah kumpulan embeddings subword pra-terlatih dalam 275 bahasa, berdasarkan encoding byte-pair (BPE) dan dilatih di Wikipedia.
- Kata embedding kata pra-terlatih berbasis ketergantungan berdasarkan informasi ketergantungan , dari kata embeddings berbasis ketergantungan, ACL 2014 ..
- Meta-embeddings melakukan ansambel dari beberapa versi embedding kata pretrained, dari meta-embeddings: embeddings kata berkualitas tinggi melalui ansambel set embedding, ACL 2016.
- Vektor pra-terlatih Lexvec berdasarkan model embedding kata Lexvec . Perayapan Umum, Wikipedia Inggris dan Newscrawl.
- Muse Muse adalah perpustakaan Python untuk embeddings kata multibahasa, yang menyediakan embeddings multibahasa untuk 30 bahasa dan 110 kamus dwiaual kebenaran-tanah berskala besar.
- CWV Proyek ini menyediakan 100+ vektor kata Cina (embeddings) yang dilatih dengan representasi yang berbeda (padat dan jarang), fitur konteks (kata, ngram, karakter, dan banyak lagi), dan korpora.
- Charngram2vec Repositori ini membuktikan kode yang diimplementasikan ulang untuk pra-pelatihan karakter N-gram yang disajikan dalam kertas gabungan banyak tugas (JMT), model gabungan banyak tugas: menumbuhkan jaringan saraf untuk beberapa tugas NLP, EMNLP2017 .
- Representasi kata dengan konteks
- Representasi kontekstual pra-terlatih Elmo dari model bahasa dua arah skala besar memberikan peningkatan besar untuk hampir semua tugas NLP yang diawasi.
- Bert Bert , atau b ncoder r e ncoder dari t ransformers, adalah metode baru representasi bahasa pra-pelatihan yang memperoleh hasil canggih pada beragam tugas pemrosesan bahasa alami (NLP). (2018.10)
- OpenGPT GPT-2 adalah model bahasa berbasis transformator besar dengan 1,5 miliar parameter, dilatih pada dataset 8 juta halaman web. GPT-2 dilatih dengan tujuan sederhana: memprediksi kata berikutnya, mengingat semua kata sebelumnya dalam beberapa teks.
Jawaban Pertanyaan
- Pemahaman Membaca Mesin
- Skuad Stanford Question Ancalasing Dataset (Squad) adalah dataset pemahaman bacaan baru, yang terdiri dari pertanyaan yang diajukan oleh pekerja kerumunan pada satu set artikel wikipedia, di mana jawaban untuk setiap pertanyaan adalah segmen teks, atau rentang, dari bagian bacaan yang sesuai.
- CMRC2018 CMRC2018 dirilis oleh Lokakarya Evaluasi Kedua tentang Pemahaman Membaca Mesin Cina. Dataset disusun oleh hampir 20.000 pertanyaan nyata yang dianotasi oleh Hu- man on Wikipedia paragraf.
- DCCRD Delta Reading Dataset Pemahaman adalah dataset Domain Terbuka Tradisional Chinese Reading Bacaan (MRC), berisi 10.014 paragraf dari 2.108 artikel Wikipedia dan 30.000+ pertanyaan yang dihasilkan oleh para anotator.
- Triviaqa TRIVIAQA mencakup 95K pasangan tanya jawab yang ditulis oleh penggemar trivia dan secara mandiri mengumpulkan dokumen bukti, enam per pertanyaan rata-rata, yang memberikan pengawasan jauh berkualitas tinggi untuk menjawab pertanyaan. Dataset Dataset ini berasal dari domain Wikipedia dan domain web.
- Newsqa Newsqa adalah dataset pemahaman pembacaan mesin yang bersumber dari kerumunan dari pasangan tanya jawab 120k.
- Pemanenan Folder ini berisi satu juta dataset QA-Pairs tingkat paragraf (dibagi menjadi kereta, dev dan test set) yang dijelaskan dalam: pemanenan pasangan tanya jawab tingkat paragraf dari Wikipedia (ACL 2018).
- Propara Propara bertujuan untuk mempromosikan penelitian dalam pemahaman bahasa alami dalam konteks teks prosedural. Ini membutuhkan pengidentifikasian tindakan yang dijelaskan dalam paragraf dan melacak perubahan keadaan yang terjadi pada entitas yang terlibat.
- McScript MCScript adalah dataset baru untuk tugas pemahaman mesin yang berfokus pada pengetahuan akal sehat. Ini terdiri dari 13.939 pertanyaan tentang 2.119 teks naratif dan mencakup 110 skenario sehari -hari yang berbeda. Setiap teks dianotasi dengan salah satu dari 110 skenario.
- Mcscript2.0 mcscript2.0 adalah corpus pemahaman mesin untuk evaluasi evaluasi end-to-end dari pengetahuan skrip. Itu berisi kira -kira. 20.000 pertanyaan tentang kira -kira. 3.500 teks, crowdsourced berdasarkan proses pengumpulan baru yang menghasilkan pertanyaan yang menantang. Setengah dari pertanyaan tidak dapat dijawab dari teks membaca, tetapi membutuhkan penggunaan akal sehat dan, khususnya, pengetahuan naskah.
- Commonsenseqa Commonsenseqa adalah dataset penjawab pertanyaan pilihan ganda baru yang membutuhkan berbagai jenis pengetahuan akal sehat untuk memprediksi jawaban yang benar. Ini berisi 12.102 pertanyaan dengan satu jawaban yang benar dan empat jawaban distraktor.
- NarrativeQA NarrativeQA mencakup daftar dokumen dengan ringkasan Wikipedia, tautan ke cerita lengkap, dan pertanyaan dan jawaban. Untuk deskripsi terperinci tentang ini, lihat makalah "Tantangan Narrativeqa Reading Comprehension".
- Hotpotqa Hotpotqa adalah dataset penjawab pertanyaan yang menampilkan pertanyaan alami, multi-hop, dengan pengawasan yang kuat untuk mendukung fakta untuk memungkinkan sistem penjawab pertanyaan yang lebih dapat dijelaskan.
- Duplikat/identifikasi pertanyaan serupa
- Quora Pertanyaan Pasangan Quora Pasangan Dataset terdiri dari lebih dari 400.000 baris potensial duplikat pasangan. [Format Versi Kaggle]
- Tanyakan Ubuntu Repo ini berisi koleksi pertanyaan yang telah diproses dari askubuntu.com Corpus Dump. Ini juga dilengkapi dengan 400*20 anotasi mannual, menandai pasangan pertanyaan sebagai "serupa" atau "tidak similar", dari pengambilan pertanyaan semi-diawasi dengan konvolusi yang terjaga keamanannya, NAACL2016 .
Ekstraksi informasi
- Kesatuan
- SHIMAOKA Dataset halus berbutir ini berisi dua dataset standar dan yang tersedia untuk umum untuk klasifikasi entitas berbutir halus, yang disediakan dalam format tokenized yang telah diproses, rincian dalam arsitektur saraf untuk klasifikasi tipe entitas berbutir halus, EACL 2017 .
- Entitas ultra-halus mengetik tugas pengetikan entitas baru: Diberi kalimat dengan entitas yang disebutkan, tujuannya adalah untuk memprediksi serangkaian frasa bentuk bebas (misalnya gedung pencakar langit, penulis lagu, atau kriminal) yang menggambarkan jenis yang sesuai untuk entitas target.
- Nested Named Entity Corpus Dataset entitas bernama berbutir halus di atas bagian Wall Street Journal Penn Treebank (PTB), yang merupakan anotasi terdiri dari 279.795 menyebutkan 114 jenis entitas dengan hingga 6 lapis bersarang.
- Pengenalan entitas yang disebutkan pada kode-switching data-switching (CS) adalah fenomena yang dengannya speaker multibahasa beralih bolak-balik antara bahasa umum mereka dalam komunikasi tertulis atau lisan. Ini berisi data pelatihan dan pengembangan untuk penyetelan dan sistem pengujian dalam pasangan bahasa berikut: Spanyol-Inggris (SPA-Eng), dan standar Arab-Egyptian (MSA-Egy).
- MIT Movie Corpus The MIT Movie Corpus adalah pelatihan yang ditandai secara semantik dan uji corpus dalam format bio. Corpus ENG adalah kueri sederhana, dan corpus trivia10k13 adalah kueri yang lebih kompleks.
- MIT Restaurant Corpus The MIT Restaurant Corpus adalah pelatihan yang ditandai secara semantik dan uji corpus dalam format bio.
- Ekstraksi relasi
- Kumpulan data hubungan semantik beranotasi merekomendasikan repositori ini berisi kumpulan data beranotasi yang dapat digunakan untuk melatih model yang diawasi untuk tugas ekstraksi hubungan semantik.
- Tacred Tacred adalah dataset ekstraksi relasi skala besar dengan 106.264 contoh yang dibangun di atas Newswire dan teks web dari corpus yang digunakan dalam tantangan populasi basis pengetahuan TAC (TAC KBP) tahunan. Detail dalam perhatian yang sadar posisi dan data yang diawasi meningkatkan pengisian slot, EMNLP 2017 .
- Sewrel Fewrel adalah dataset klasifikasi hubungan beberapa-shot, yang menampilkan 70.000 kalimat bahasa alami yang menyatakan 100 hubungan yang dianotasi oleh pekerja keramaian.
- SEMEVAL 2018 Tugas7 Data pelatihan dan skrip evaluasi untuk Semeval 2018 Tugas 7: Ekstraksi dan klasifikasi hubungan semantik dalam makalah ilmiah.
- China-literature-ner-re tingkat wacana bernama pengenalan entitas dan dataset ekstraksi hubungan untuk teks sastra Cina. Ini berisi 726 artikel, 29.096 kalimat dan lebih dari 100.000 karakter secara total.
- Peristiwa
- ACE 2005 Data Pelatihan Corpus terdiri dari data berbagai jenis yang dianotasi untuk entitas, hubungan dan acara dibuat oleh konsorsium data linguistik dengan dukungan dari program ACE, di tiga bahasa: bahasa Inggris, Cina, Arab.
- Corpus Darurat Tiongkok (CEC) China Emergency Corpus (CEC) dibangun oleh data Laboratorium Semantik di Universitas Shanghai. Korpus ini dibagi menjadi 5 kategori - gempa bumi, kebakaran, kecelakaan lalu lintas, serangan teroris dan keracunan makanan.
- Evaluasi acara TAC-KBP adalah sub-jalur dalam populasi basis pengetahuan TAC (KBP), yang dimulai dari 2015. Tujuan populasi basis pengetahuan TAC (KBP) adalah untuk mengembangkan dan mengevaluasi teknologi untuk mengisi basis pengetahuan (KBS) dari teks yang tidak terstruktur.
- Data evaluasi cloze naratif mengevaluasi pemahaman naskah dengan memprediksi peristiwa berikutnya yang diberikan beberapa peristiwa konteks. Detail dalam pembelajaran tanpa pengawasan tentang skema naratif dan peserta mereka, ACL 2009 .
- TENSOR ACARA Dataset evaluasi tentang generasi skema/kesamaan kalimat/naratif cloze, yang diusulkan oleh representasi peristiwa dengan komposisi berbasis tensor, aaai 2018 .
- SEMEVAL-2015 Tugas 4 Timeline: Pemesanan acara lintas dokumen. Mengingat serangkaian dokumen dan entitas target, tugasnya adalah membangun garis waktu acara yang terkait dengan entitas itu, yaitu untuk mendeteksi, berlabuh dalam waktu dan memesan peristiwa yang melibatkan entitas target.
- Deskripsi Acara Red Richer terdiri dari hubungan coreference, bridging dan acara-acara (temporal, kausal, subevent dan pelaporan hubungan) Anotasi lebih dari 95 Newswire bahasa Inggris, forum diskusi dan dokumen teks naratif, yang mencakup semua acara, waktu dan entitas non-eventif dalam setiap dokumen.
- Inscript Corpus Inscript berisi total 1000 teks naratif crowdsourced melalui Amazon Mechanical Turk. Ini dijelaskan dengan informasi skrip dalam bentuk acara khusus skenario dan label peserta.
- Autolabelevent Data pekerjaan dalam generasi data berlabel otomatis untuk ekstraksi peristiwa skala besar, ACL2017 .
- EventInfrramenet Data pekerjaan dalam memanfaatkan framenet untuk meningkatkan deteksi peristiwa otomatis, ACL2016 .
- Sementara itu corpus sementara (acara multibahasa newsreader dan corpus waktu) terdiri dari total 480 artikel berita: 120 artikel Wikinews Inggris tentang empat topik dan terjemahannya dalam bahasa Spanyol, Italia, dan Belanda. Ini telah dianotasi secara manual di berbagai tingkatan, termasuk entitas, peristiwa, informasi temporal, peran semantik, dan peristiwa intra-dokumen dan cross-dokumen dan entitas coreference.
- BionLP-ST 2013 BionLP-ST 2013 menampilkan enam tugas ekstraksi peristiwa: Ekstraksi peristiwa Genia untuk konstruksi basis pengetahuan NFKB, genetika kanker, kurasi jalur, anotasi corpus dengan ontologi regulasi gen, jaringan regulasi gen dalam bakteri, dan biotop bakteri (nonotasi semantik oleh sebuah ontologi).
- Peristiwa temporal dan hubungan sebab akibat
- Melayani skema hubungan kausal dan temporal (melayani), yang unik dalam secara bersamaan menangkap serangkaian hubungan temporal dan kausal yang komprehensif antara peristiwa. Petugas berisi total 1.600 kalimat dalam konteks 320 cerita pendek lima kalimat yang diambil sampelnya dari Rocstories corpus.
- Causal-TimeBank Causal-TimeBank adalah corpus timebank yang diambil dari Tempeval-3 Task, yang menempatkan informasi baru tentang kausalitas dalam bentuk cignal C dan klinks anotasi. 6.811 peristiwa (hanya peristiwa instantiated oleh MakeInstance Tag of Timeml), 5.118 tlink (tautan temporal), 171 CSignal (sinyal kausal), 318 klink (tautan kausal).
- EventCausalityData Dataset EventCausality memberikan anotasi kausal yang relatif padat pada 25 artikel Newswire yang dikumpulkan dari CNN pada 2010.
- EventStoryline Dataset tolok ukur untuk deteksi hubungan temporal dan kausal.
- Tempeval-3 Tugas bersama Tempeval-3 bertujuan untuk memajukan penelitian tentang pemrosesan informasi temporal.
- Temporalcausalreasoning dataset dengan anotasi hubungan temporal dan kausal. Hubungan temporal dianotasi berdasarkan skema yang diusulkan dalam "skema anotasi multi-sumbu untuk hubungan temporal peristiwa" menggunakan crowdflower; Hubungan kausal dipetakan dari "EventcausalityData".
- Timebank Timebank 1.2 berisi 183 artikel berita yang telah dianotasi dengan informasi temporal, menambahkan acara, waktu dan tautan temporal (tlink) antara peristiwa dan waktu.
- Timebank-eventtime corpus Dataset ini adalah subset dari timebank corpus dengan skema anotasi baru untuk menjangkar peristiwa dalam waktu. Deskripsi terperinci.
- Faktualitas Acara
- Dataset Faktualitas Acara UW Dataset ini berisi anotasi teks dari corpus Tempeval-3 dengan label penilaian faktualitas.
- FACTBANK 1.0 FACTBANK 1.0, terdiri dari 208 dokumen (lebih dari 77.000 token) dari Newswire dan menyiarkan laporan berita di mana acara menyebutkan dianotasi dengan tingkat faktualitas mereka.
- Komitmenbank The CommitmentBank adalah korpus dari 1.200 wacana yang terjadi secara alami yang hukuman terakhirnya berisi predikat klausul-melambatkan di bawah operator pembatalan yang diperlukan (pertanyaan, modal, negasi, anteseden bersyarat).
- UDS Universal Decompositional Semantics Itu terjadi dataset, mencakup keseluruhan Treebank Dependensi Universal V1.2 (EUD1.2), dataset Faktualitas Acara Besar.
- DLEF Dataset Acara Level Dokumen (DLEF), yang mencakup sumber (Inggris dan Cina), pedoman terperinci untuk faktualitas acara tingkat dokumen dan kalimat.
- Acara Coreference
- ECB 1.0 Corpus ini terdiri dari koleksi dokumen berita Google yang dianotasi dengan acara Coreference Acara di dalam dan Cross. Dokumen -dokumen tersebut dikelompokkan sesuai dengan kluster Google News, setiap kelompok dokumen yang mewakili peristiwa mani yang sama (atau topik).
- EECB 1.0 dibandingkan dengan ECB 1.0, dataset ini diperpanjang dalam dua arah: (i) kalimat yang sepenuhnya dianotasi, dan (ii) hubungan coreference entitas. Selain itu, annotator menghapus hubungan selain coreference (misalnya, subevent, tujuan, terkait, dll.).
- ECB+ ECB+ Corpus adalah perpanjangan ke ECB 1.0. Komponen corpus yang baru ditambahkan terdiri dari 502 dokumen yang termasuk dalam 43 topik ECB tetapi yang menggambarkan peristiwa mani yang berbeda dari yang sudah ditangkap di ECB.
- Buka Ekstraksi Informasi
- Oie-Benchmark Repositori ini berisi kode untuk mengubah anotasi QA-SRL menjadi ekstraksi terbuka dan membandingkan parser terbuka dengan corpus patokan yang dikonversi.
- Neuralopenie Dataset pelatihan dari ekstraksi informasi terbuka saraf , ACL 2018. Berikut adalah total 36.247.584 hsentence, pasangan tuplei yang diekstraksi dari wikipedia dump menggunakan openie4.
- Lainnya
- Wikilinksned sebuah dataset disambiguasi entitas skala besar dari fragmen teks dari web, yang secara signifikan lebih berisik dan lebih menantang daripada kumpulan data berbasis berita yang ada.
Kesimpulan Bahasa Alami
- Snli The Snli Corpus (Versi 1.0) adalah kumpulan pasangan bahasa Inggris yang ditulis manusia 570K pasangan bahasa Inggris yang ditulis secara manual berlabel untuk klasifikasi seimbang dengan label yang diperlukan, kontradiksi, dan netral, mendukung tugas inferensi bahasa alami (NLI), juga dikenal sebagai pengakuan tekstual (RTE).
- Multinli Multi-Genre Natural Language Inference (Multinli) Corpus adalah koleksi sumber kerumunan dari 433K pasangan kalimat yang dianotasi dengan informasi yang diperlukan tekstual. Corpus dimodelkan pada snli corpus, tetapi berbeda dalam hal itu mencakup berbagai genre teks lisan dan tertulis, dan mendukung evaluasi generalisasi generalisasi lintas genre yang khas.
- SCITAIL Dataset Scitail adalah dataset yang diperlukan yang dibuat dari ujian sains pilihan ganda dan kalimat web. Domain membuat dataset ini berbeda di alam dari set data sebelumnya, dan terdiri dari kalimat yang lebih faktual daripada deskripsi adegan.
- PAWS Dataset baru dengan 108.463 paraphrase yang dibentuk dengan baik dan pasangan non-pita dengan tumpang tindih leksikal tinggi. PAWS: Paraphrase Adversaries from Word Scrambling
Capsule Networks
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Kewajaran
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Lainnya
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!