NLP yang luar biasa
Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami

Baca ini dalam bahasa Inggris, Cina Tradisional
Harap baca pedoman kontribusi sebelum berkontribusi. Harap tambahkan sumber daya NLP favorit Anda dengan mengajukan permintaan tarik
Isi
- Ringkasan Penelitian dan Tren
- Laboratorium Penelitian NLP terkemuka
- Tutorial
- Membaca konten
- Video dan kursus
- Buku
- Perpustakaan
- Node.js
- Python
- C ++
- Jawa
- Kotlin
- Scala
- R
- Clojure
- Rubi
- Karat
- NLP ++
- Julia
- Layanan
- Alat Anotasi
- Kumpulan data
- NLP dalam bahasa Korea
- NLP dalam bahasa Arab
- NLP dalam bahasa Cina
- NLP dalam bahasa Jerman
- NLP dalam bahasa Polandia
- NLP dalam bahasa Spanyol
- NLP dalam bahasa indic
- NLP di Thailand
- NLP di Denmark
- NLP dalam bahasa Vietnam
- NLP untuk Belanda
- NLP dalam bahasa Indonesia
- NLP dalam bahasa Urdu
- NLP dalam bahasa Persia
- NLP di Ukraina
- NLP dalam bahasa Hongaria
- NLP dalam bahasa Portugis
- Bahasa lain
- Kredit
Ringkasan Penelitian dan Tren
- NLP-Overview adalah gambaran terkini dari teknik pembelajaran mendalam yang diterapkan pada NLP, termasuk teori, implementasi, aplikasi, dan hasil canggih. Ini adalah pengantar NLP yang mendalam untuk para peneliti.
- NLP-Progress melacak kemajuan dalam pemrosesan bahasa alami, termasuk set data dan canggih saat ini untuk tugas NLP yang paling umum
- Momen Imagenet NLP telah tiba
- ACL 2018 Sorotan: Memahami representasi dan evaluasi dalam pengaturan yang lebih menantang
- Empat tren pembelajaran mendalam dari ACL 2017. Bagian Satu: Struktur Linguistik dan Kata Embeddings
- Empat tren pembelajaran mendalam dari ACL 2017. Bagian dua: interpretabilitas dan perhatian
- Sorotan EMNLP 2017: Dataset yang menarik, pengembalian cluster, dan banyak lagi!
- Pembelajaran mendalam untuk pemrosesan bahasa alami (NLP): Kemajuan & Tren
- Survei Keadaan Seni dalam Generasi Bahasa Alami
Laboratorium Penelitian NLP terkemuka
Kembali ke atas
- Berkeley NLP Group - Kontribusi penting termasuk alat untuk merekonstruksi bahasa mati yang panjang, dirujuk di sini dan dengan mengambil korpora dari 637 bahasa yang saat ini digunakan di Asia dan Pasifik dan menciptakan kembali keturunan mereka.
- Language Technologies Institute, Carnegie Mellon University - Proyek penting termasuk Avenue Project, sistem terjemahan mesin yang digerakkan sintaks untuk bahasa yang terancam punah seperti Quechua dan Aymara dan sebelumnya, Bahtera Nuh yang menciptakan AQMAR untuk meningkatkan alat NLP untuk bahasa Arab.
- NLP Research Group, Columbia University - Bertanggung jawab untuk menciptakan baut (penanganan kesalahan interaktif untuk sistem terjemahan wicara) dan proyek yang tidak disebutkan namanya untuk mengkarakterisasi tawa dalam dialog.
- Pusat atau Pemrosesan Bahasa dan Pidato, Universitas John Hopkins - baru -baru ini dalam berita untuk mengembangkan perangkat lunak pengenalan suara untuk membuat tes diagnostik atau penyakit Parkinson, di sini.
- Kelompok Linguistik dan Pemrosesan Informasi Komputasi, Universitas Maryland-Kontribusi penting meliputi kerja sama manusia-komputer atau penjawaban pertanyaan demi kata dan pemodelan pengembangan representasi fonetik.
- Pemrosesan Bahasa Alami Penn, Universitas Pennsylvania- terkenal karena menciptakan Penn Treebank.
- Kelompok Pemrosesan Bahasa Stanford Nautral- Salah satu laboratorium penelitian NLP teratas di dunia, terkenal karena menciptakan Stanford Corenlp dan sistem resolusi coreference mereka
Tutorial
Kembali ke atas
Membaca konten
Pembelajaran Mesin Umum
- Pembelajaran Mesin 101 Dari Insinyur Kreatif Senior Google Menjelaskan Pembelajaran Mesin untuk Insinyur dan Eksekutif
- AI Playbook - A16Z AI Playbook adalah tautan yang bagus untuk diteruskan ke manajer atau konten Anda untuk presentasi Anda
- Blog Ruder oleh Sebastian Ruder untuk komentar tentang Penelitian NLP Terbaik
- Cara memberi label panduan data untuk mengelola proyek anotasi linguistik yang lebih besar
- Tergantung pada koleksi definisi posting blog yang mencakup beragam topik NLP dengan implementasi terperinci
Perkenalan dan Panduan ke NLP
- Memahami & Menerapkan Pemrosesan Bahasa Alami
- NLP dalam Python - Koleksi GitHub Notebooks
- Pemrosesan Bahasa Alami: Pengantar - Oxford
- Pembelajaran mendalam untuk NLP dengan Pytorch
- Tutorial NLTK Hands -On - Tutorial NLTK, Jupyter Notebooks
- Pemrosesan Bahasa Alami dengan Python - Menganalisis Teks dengan Toolkit Bahasa Alami - Buku online dan cetak yang memperkenalkan konsep NLP menggunakan NLTK. Penulis buku juga menulis perpustakaan NLTK.
- Latih model bahasa baru dari awal - memeluk wajah?
- Super Duper NLP Repo (SDNLPR): Koleksi Colab Notebooks yang mencakup beragam implementasi tugas NLP.
Blog dan buletin
- Pembelajaran mendalam, NLP, dan representasi
- Bert Illustrated, Elmo, dan co. (Bagaimana NLP retak transfer pembelajaran) dan transformator ilustrasi
- Pemrosesan Bahasa Alami oleh Hal Daumé III
- arxiv: pemrosesan bahasa alami (hampir) dari awal
- Karpathy adalah efektivitas yang tidak masuk akal dari jaringan saraf berulang
- Penguasaan Pembelajaran Mesin: Pembelajaran mendalam untuk pemrosesan bahasa alami
- Ringkasan kertas nlp visual
Video dan kursus online
Kembali ke atas
- Pemrosesan Bahasa Alami Tingkat Lanjut - CS 685, UMass Amherst CS
- Pemrosesan Bahasa Alami yang Dalam - Seri Kuliah dari Oxford
- Pembelajaran mendalam untuk pemrosesan bahasa alami (CS224 -N) - Kursus Stanford Richard Socher dan Christopher Manning
- Jaringan saraf untuk NLP - Institut Teknologi Bahasa Carnegie Mellon di sana
- Kursus NLP yang dalam oleh Yandex Data School, yang mencakup ide -ide penting dari penyembatan teks hingga terjemahan mesin termasuk pemodelan urutan, model bahasa dan sebagainya.
- Fast.AI Code -First Intro untuk Pemrosesan Bahasa Alami - Ini mencakup perpaduan topik NLP tradisional (termasuk Regex, SVD, Naive Bayes, Tokenisasi) dan pendekatan jaringan saraf baru -baru ini (termasuk RNN, SEQ2SEQ, GRUS, dan transformator), serta membahas masalah etika yang mendesak, seperti bias dan bias. Temukan buku catatan Jupyter di sini
- Universitas Pembelajaran Mesin - Pemrosesan Bahasa Alami yang Dipercepat - Kuliah Beralih Dari Pengantar NLP dan Pemrosesan Teks ke Jaringan Saraf dan Transformator Berulang. Materi dapat ditemukan di sini.
- Seri Kuliah Bahasa Alami Terapan dari IIT Madras mengambil dari dasar-dasar sampai ke autoencoders dan segalanya. Notebook GitHub untuk kursus ini juga tersedia di sini
Buku
- Pemrosesan Pidato dan Bahasa - Gratis, oleh Prof. Dan Jurafsy
- Pemrosesan Bahasa Alami - Gratis, Catatan NLP oleh Dr. Jacob Eisenstein di Georgiatech
- NLP dengan Pytorch - Brian & Delip Rao
- Penambangan teks di r
- Pemrosesan bahasa alami dengan python
- Pemrosesan Bahasa Alami Praktis
- Pemrosesan bahasa alami dengan Spark NLP
- Pembelajaran mendalam untuk pemrosesan bahasa alami oleh Stephan Raaijmakers
- Pemrosesan Bahasa Alami Dunia Nyata - Oleh Masato Hagiwara
- Pemrosesan Bahasa Alami Beraksi, Edisi Kedua - Oleh Hobson Lane dan Maria Dyshel
Perpustakaan
Kembali ke atas
C ++ - C ++ Libraries | Kembali ke atas
- INSNET-Perpustakaan jaringan saraf untuk membangun model NLP yang bergantung pada instance dengan batching dinamis bebas bantalan.
- Toolkit Ekstraksi Informasi MIT - C, C ++, dan Alat Python untuk Pengenalan Entitas dan Ekstraksi Hubungan yang Dinamai
- CRF ++ - Implementasi sumber terbuka dari bidang acak bersyarat (CRF) untuk segmentasi/pelabelan data sekuensial & tugas pemrosesan bahasa alami lainnya.
- CRFSUITE - CRFSUITE adalah implementasi bidang acak bersyarat (CRF) untuk pelabelan data sekuensial.
- Bllip Parser - Bllip Natural Language Parser (juga dikenal sebagai Parser Charniak -Johnson)
- Perpustakaan Colibri-Core-C ++, alat garis perintah, dan pengikatan python untuk mengekstraksi dan bekerja dengan konstruksi linguistik dasar seperti n-gram dan skipgram dengan cara yang cepat dan hemat memori.
- UCTO-Tokenizer Berbasis Ekspresi Reguler Unicode untuk berbagai bahasa. Perpustakaan Alat dan C ++. Mendukung format folia.
- Libfolia - Perpustakaan C ++ untuk format folia
- Frog - Suite NLP berbasis memori yang dikembangkan untuk Belanda: POS Tagger, Lemmatiser, Parser Ketergantungan, NER, Parser Dangkal, Penganalisa Morfologis.
- Meta - Meta: Analisis Teks Modern adalah Toolkit Ilmu Data C ++ yang memfasilitasi penambangan data teks besar.
- Mecab (Jepang)
- Musa
- StarSpace-Perpustakaan dari Facebook untuk membuat embeddings tingkat kata, paragraf, tingkat dokumen dan untuk klasifikasi teks
Java - Perpustakaan Java NLP | Kembali ke atas
- Stanford NLP
- Opennlp
- Nlp4j
- Word2Vec di Java
- Reverb Ekstraksi Informasi Terbuka Skala Web
- OpenRegex Bahasa dan mesin ekspresi reguler berbasis token yang efisien dan fleksibel.
- COGCOMPNLP - Perpustakaan inti yang dikembangkan dalam kelompok komputasi kognitif U Illinois.
- Mallet - Pembelajaran Mesin untuk Toolkit Bahasa - Paket untuk Pemrosesan Bahasa Alami Statistik, Klasifikasi Dokumen, pengelompokan, pemodelan topik, ekstraksi informasi, dan aplikasi pembelajaran mesin lainnya untuk teks.
- RDRPostagger - Toolkit penandaan POS yang kuat tersedia (baik di Java & Python) bersama dengan model pra -terlatih untuk 40+ bahasa.
Kotlin - Perpustakaan Kotlin NLP | Kembali ke atas
- Lingua perpustakaan deteksi bahasa untuk Kotlin dan Java, cocok untuk teks yang panjang dan pendek
- Kotidgy-generator data teks berbasis indeks yang ditulis dalam Kotlin
Scala - Pustaka Scala NLP | Kembali ke atas
- Saul - Perpustakaan untuk Mengembangkan Sistem NLP, termasuk modul bawaan seperti SRL, POS, dll.
- ATR4S-Toolkit dengan metode pengenalan istilah otomatis canggih.
- TM - Implementasi pemodelan topik berdasarkan PLSA multibahasa yang diatur.
- Word2vec -scala - antarmuka Scala ke model Word2Vec; Termasuk operasi pada vektor-vektor seperti jarak-kata dan kata-analogi.
- Epic - Epic adalah parser statistik berkinerja tinggi yang ditulis dalam Scala, bersama dengan kerangka kerja untuk membangun model prediksi terstruktur yang kompleks.
- Spark NLP - Spark NLP adalah perpustakaan pemrosesan bahasa alami yang dibangun di atas Apache Spark ML yang menyediakan anotasi NLP yang sederhana, berkinerja & akurat untuk pipa pembelajaran mesin yang skala dengan mudah di lingkungan terdistribusi.
R - R NLP Libraries | Kembali ke atas
- text2vec - vektorisasi cepat, pemodelan topik, jarak dan embeddings kata sarung tangan di R.
- WordVectors - Paket R untuk Membuat dan Menjelajahi Word2Vec dan Model Embedding Kata Lainnya
- Paket RMallet - R untuk berinteraksi dengan Mallet Alat Pembelajaran Mesin Java
- DFR -Browser - Membuat visualisasi D3 untuk menjelajah model topik teks di browser web.
- Dfrtopics - R Paket untuk Menjelajahi Model Topik Teks.
- sentimen_classifier - Klasifikasi sentimen menggunakan disambiguasi indera kata dan pembaca WordNet
- JPROCESSING - Perpustakaan Pemrosesan Langauge Alami Jepang, dengan Klasifikasi Sentimen Jepang
- CorporAexplorer - Paket R untuk Eksplorasi Dinamis Koleksi Teks
- Tidytext - Teks Penambangan Menggunakan Alat Tidy
- Spacyr - R Wrapper ke Spacy NLP
- Tampilan tugas cran: Pemrosesan bahasa alami
Clojure | Kembali ke atas
- Clojure -Opennlp - Pemrosesan Bahasa Alami di Clojure (OpenNLP)
- Infeksi-CLJ-Perpustakaan Infleksi Seperti Rel untuk Clojure dan Clojurescript
- Postagga - Perpustakaan untuk Mengurai Bahasa Alami di Clojure dan Clojurescript
Ruby | Kembali ke atas
- Kevin Dias's A Collection of Natural Language Processing (NLP) Ruby Libraries, Tools and Software
- Pemrosesan bahasa alami praktis dilakukan di Ruby
Karat | Kembali ke atas
- Whatlang - Perpustakaan Pengakuan Bahasa Alami Berdasarkan Trigram
- Snips-NLU-RS-Perpustakaan Siap Produksi untuk Parsing Niat
- Rust-Bert-Pipa NLP siap pakai dan model berbasis transformator
NLP ++ - Bahasa NLP ++ | Kembali ke atas
- Ekstensi Bahasa VScode - Ekstensi Bahasa NLP ++ untuk VScode
- NLP -Engine - Mesin NLP ++ untuk menjalankan kode NLP ++ di Linux termasuk parser bahasa Inggris lengkap
- VisualText - Beranda untuk bahasa NLP ++
- NLP ++ Wiki - Entri Wiki untuk bahasa NLP ++
Julia | Kembali ke atas
- Corpusloaders - Berbagai loader untuk berbagai perusahaan NLP
- Bahasa - Paket untuk Bekerja dengan Bahasa Manusia
- Textanalysis - Paket Julia untuk Analisis Teks
- TextModels - Model berbasis jaringan saraf untuk pemrosesan bahasa alami
- WordTokenizers - tokenizer berkinerja tinggi untuk pemrosesan bahasa alami dan tugas terkait lainnya
- Word2Vec - Julia Interface ke Word2Vec
Layanan
NLP sebagai API dengan fungsionalitas tingkat yang lebih tinggi seperti NER, penandaan topik dan sebagainya | Kembali ke atas
- Wit -Ai - Antarmuka Bahasa Alami untuk Aplikasi dan Perangkat
- Pemahaman Bahasa Alami IBM Watson - Demo API dan GitHub
- Amazon Memahami - NLP dan ML Suite mencakup tugas paling umum seperti NER, penandaan, dan analisis sentimen
- Google Cloud Natural Language API - Analisis Sintaks, NER, analisis sentimen, dan penandaan konten dalam setidaknya 9 bahasa termasuk bahasa Inggris dan Cina (disederhanakan dan tradisional).
- Paralleldots - Analisis Teks Tingkat Tinggi Layanan API mulai dari analisis sentimen hingga analisis niat
- Layanan Kognitif Microsoft
- Textrazor
- Hiasan berbentuk mawar
- Textalytic - Pemrosesan bahasa alami di browser dengan analisis sentimen, ekstraksi entitas yang disebutkan, penandaan POS, frekuensi kata, pemodelan topik, awan kata, dan banyak lagi
- NLP Cloud - Model NLP Spacy (yang khusus dan pra -terlatih) disajikan melalui API RESTful untuk Named Entity Recognition (NER), POS Tagging, dan banyak lagi.
- CloudMersive - NLP API yang bersatu dan gratis yang melakukan tindakan seperti penandaan pidato, pengulangan teks, terjemahan/deteksi bahasa, dan penguraian kalimat
Alat Anotasi
- Gerbang - Arsitektur Umum dan Teknik Teks Berusia 15+ Tahun, Gratis dan Sumber Terbuka
- Anafora adalah alat anotasi teks mentah gratis dan open source,
- Brat - Brat Rapid Annotation Tool adalah lingkungan online untuk anotasi teks kolaboratif
- Doccano - Doccano gratis, open -source, dan menyediakan fitur anotasi untuk klasifikasi teks, pelabelan urutan dan urutan ke urutan
- Inception - Platform anotasi semantik yang menawarkan bantuan cerdas dan manajemen pengetahuan
- Tagtog, alat web pertama tim untuk menemukan, membuat, memelihara, dan berbagi set data - biaya $
- Prodigy adalah alat anotasi yang ditenagai oleh pembelajaran aktif, biaya $
- Lighttag - Alat anotasi teks yang di -host dan dikelola untuk tim, biaya $
- RSTWEB - Alat Lokal atau Online Open Source untuk Anotasi Pohon Wacana
- GitDox - Alat Anotasi Server Sumber Terbuka dengan Kontrol Versi GitHub dan Validasi untuk Data XML dan Kisi Lembar Kolaboratif
- Label Studio - Alat anotasi teks yang dihosting dan dikelola untuk tim, berbasis freemium, biaya $
- DataSaur mendukung berbagai tugas NLP untuk individu atau tim, berbasis freemium
- Konfuzio-Teks yang di-host dan on-prem TEAM, gambar dan alat anotasi PDF yang ditenagai oleh pembelajaran aktif, berbasis freemium, biaya $
- Ubiai-Alat anotasi teks yang mudah digunakan untuk tim dengan fitur anotasi otomatis yang paling komprehensif. Mendukung NER, Hubungan dan Klasifikasi Dokumen serta Anotasi OCR untuk Pelabelan Faktur, biaya $
- SHOONYA - Shoonya adalah platform anotasi data sumber terbuka dan open source dengan berbagai varials sistem manajemen tingkat organisasi dan ruang kerja. Shoonya adalah data agnostik, dapat digunakan oleh tim untuk memberi anotasi data dengan berbagai tingkat tahap verifikasi pada skala.
- Laboratorium Anotasi-Platform No-Code ujung ke ujung gratis untuk anotasi teks dan pelatihan/penyetelan model DL. Dukungan out-of-the-box untuk pengakuan entitas yang disebutkan, klasifikasi, ekstraksi relasi dan status penegasan model NLP. Dukungan tak terbatas untuk pengguna, tim, proyek, dokumen. Bukan foss.
- Flat-Flat adalah lingkungan anotasi linguistik berbasis web yang berbasis di sekitar format Folia, format berbasis XML yang kaya untuk anotasi linguistik. Sumber gratis dan terbuka.
Teknik
Teks Embeddings
Kata embeddings
Aturan Thumb: FastText >> Glove> Word2Vec
Word2Vec - Implementasi - Blog Penjelasan
Sarung Tangan - Blog Penjelasan
FastText - Implementasi - Kertas - Blog Penjelasan
Kalimat dan Bahasa Model Berbasis Embeddings
Kembali ke atas
- ELMO - Representasi Kata Kontekstual yang Dalam - Implementasi Pytorch - Implementasi TF
- ULMFIT - Model bahasa universal menyempurnakan untuk klasifikasi teks oleh Jeremy Howard dan Sebastian Ruder
- Infersent - Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami oleh Facebook
- COVE - belajar dalam terjemahan: vektor kata kontekstual
- Vektor pargraph - dari representasi kalimat dan dokumen yang didistribusikan. Lihat Tutorial Doc2Vec di Gensim
- Sense2vec - pada kata disambiguasi indera
- Lewati Vektor Pemikiran - Metode Representasi Kata
- Adaptif Skip -Gram - Pendekatan serupa, dengan sifat adaptif
- Urutan untuk Pembelajaran Urutan - Vektor Kata untuk Terjemahan Mesin
Pertanyaan menjawab dan ekstraksi pengetahuan
Kembali ke atas
- DRQA - Open Domain Question menjawab pekerjaan oleh Facebook Research on Wikipedia Data
- Dokumen-QA-Pemahaman membaca multi-paragraf yang sederhana dan efektif oleh Allenai
- Ekstraksi Informasi Berbasis Template Tanpa Template
- Privee: Arsitektur untuk menganalisis kebijakan privasi web secara otomatis
Kumpulan data
Kembali ke atas
- NLP-Datasets Koleksi Hebat dari Dataset NLP
- Gensim -Data - Repositori Data untuk Model NLP Pretrained dan NLP Corpora.
Kerangka kerja NLP multibahasa
Kembali ke atas
- UDPIPE adalah pipa yang dapat dilatih untuk tokenisasi, penandaan, lemmatisasi dan penguraian bank pohon universal dan file conll-u lainnya. Terutama ditulis dalam C ++, menawarkan solusi yang cepat dan andal untuk pemrosesan NLP multibahasa.
- NLP-Cube: Pipa pemrosesan bahasa alami-pemisahan kalimat, tokenisasi, lemmatisasi, penandaan sebagian dan penguraian ketergantungan. Platform baru, ditulis dalam Python dengan Dynet 2.0. Menawarkan mandiri (binding CLI/Python) dan fungsi server (REST API).
- Uralicnlp adalah perpustakaan NLP sebagian besar untuk banyak bahasa uralic yang terancam punah seperti bahasa Sami, bahasa Mordvin, bahasa mari, bahasa komi dan sebagainya. Juga beberapa bahasa yang tidak tertular didukung seperti Finlandia bersama dengan bahasa non-uralik seperti Swedia dan Arab. Uralicnlp dapat melakukan analisis morfologis, generasi, lemmatisasi dan disambiguasi.
NLP dalam bahasa Korea
Kembali ke atas
Perpustakaan
- Konlpy - Paket Python untuk Pemrosesan Bahasa Alami Korea.
- MECAB (Korea) - Perpustakaan C ++ untuk NLP Korea
- Koalanlp - Perpustakaan Scala untuk Pemrosesan Bahasa Alami Korea.
- Paket Konlp - R untuk Pemrosesan Bahasa Alami Korea
Blog dan tutorial
- Blog DSIndex
- Kursus NLP Universitas Kangwon di Korea
Kumpulan data
- Kaist Corpus - Sebuah korpus dari Institut Sains dan Teknologi Korea Advanced di Korea.
- Naver Sentiment Movie Corpus dalam bahasa Korea
- Chosun Ilbo Archive - Dataset di Korea dari salah satu surat kabar utama di Korea Selatan, Chosun Ilbo.
- Data obrolan - Data chatbot dalam bahasa Korea
- Petisi - Mengumpulkan data petisi yang kadaluwarsa dari situs petisi nasional Blue House.
- Dataset Korea Parallel - Seural Machine Translation (NMT) untuk Korea ke Prancis & Korea ke Bahasa Inggris
- Korquad - Dataset Pasukan Korea dengan sumber Wiki HTML. Menyebutkan v1.0 dan v2.1 pada saat menambahkan ke NLP yang luar biasa
NLP dalam bahasa Arab
Kembali ke atas
Perpustakaan
- GOARBIC - Paket GO untuk Pemrosesan Teks Arab
- JSastem - JavaScript untuk Stemming Arab
- Pyarabic - Perpustakaan Python untuk Arab
- Rftokenizer - Segmenter Python yang dapat dilatih untuk bahasa Arab, Ibrani dan Koptik
Kumpulan data
- Dataset Multidomain - Sumber Daya Multi -Domain Tersedia Terbesar Untuk Analisis Sentimen Arab
- LABR - Ulasan Buku Arab Besar Dataset
- Airbic Stopwords - Daftar Stopwords Arab dari berbagai sumber daya
NLP dalam bahasa Cina
Kembali ke atas
Perpustakaan
- Jieba - Paket Python untuk Kata -kata Utilitas Segmentasi dalam bahasa Cina
- Snownlp - Paket Python untuk NLP Cina
- Fudannlp - Perpustakaan Java untuk Pemrosesan Teks Cina
- HANLP - Perpustakaan NLP Multilingual
Antologi
- FUNNLP - Koleksi Alat dan Sumber Daya NLP Terutama untuk Cina
NLP dalam bahasa Jerman
- Jerman-NLP-Daftar sumber daya dan alat dan alat terbuka/open-source/off-the-shelf yang dikembangkan dengan fokus khusus pada Jerman
NLP dalam bahasa Polandia
- Polandia -NLP - Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami (NLP) dalam bahasa Polandia. Model, Alat, Dataset.
NLP dalam bahasa Spanyol
Kembali ke atas
Perpustakaan
- SPANLP - Perpustakaan Python untuk mendeteksi, menyensor, dan kata -kata kotor, vulgar, kata -kata kebencian, rasisme, xenofobia dan intimidasi dalam teks yang ditulis dalam bahasa Spanyol. Ini berisi data 21 negara berbahasa Spanyol.
Data
- Pidato Politik Kolombia
- Copenhagen Treebank
- Spanyol miliar kata korpus dengan embeddings word2vec
- Kompilasi korpora Spanyol yang tidak diatur
Embedding kata dan kalimat
- Kata Spanyol embeddings dihitung dengan metode yang berbeda dan dari korpora yang berbeda
- Kata Spanyol Embeddings Dihitung dari Korpora Besar dan ukuran yang berbeda menggunakan FastText
- Embeddings Kalimat Spanyol Dihitung dari Korpora Besar Menggunakan Sent2Vec
- Beto - Bert untuk Spanyol
NLP dalam bahasa indic
Kembali ke atas
Data, korpora, dan bank pohon
- Hindi Dependency Treebank-Treebank multi-lapis multi-representasional untuk Hindi dan Urdu
- Ketergantungan universal Treebank dalam bahasa Hindi
- Ketergantungan universal paralel Treebank dalam bahasa Hindi - bagian yang lebih kecil dari tepi pohon yang disebutkan di atas.
- ISI Fire Stopwords List (Hindi dan Bangla)
- Daftar Stopwords Peter Graham
- NLTK Corpus 60K Words Pos Tagged, Bangla, Hindi, Marathi, Telugu
- Dataset Ulasan Film Hindi ~ Sampel 1K, 3 Kelas Polaritas
- BBC News Hindi Dataset 4.3K sampel, 14 kelas
- IIT Patna Hindi Hindi Dataset 5.4K Sampel, 12 Domain, Istilah Aspek 4K, Aspek dan Polaritas Tingkat Kalimat di 4 Kelas
- Bangla ABSA 5.5K sampel, 2 domain, 10 istilah aspek
- IIT Patna Movie Review Dataset Dataset 2K sampel, 3 label polaritas
Korpora/Dataset yang membutuhkan login/akses dapat diperoleh melalui email
- Sail 2015 Twitter dan Facebook memberi label sampel sentimen dalam bahasa Hindi, Bengali, Tamil, Telugu.
- IIT Bombay NLP Resources Siniwordnet, film dan pariwisata paralel berlabel corpora, polarity berlabel indera anotasi corpus, marathi polarity berlabel corpus.
- TDIL-IC mengumpulkan banyak sumber daya yang berguna dan menyediakan akses ke kumpulan data yang terjaga keamanannya
Model bahasa dan embeddings kata
- Hindi2vec dan NLP-For-Hindi Ulmfit Style Lange Model
- IIT Patna Bilingual Word Embeddings Hi-en
- Fasttext Word Embeddings Dalam sejumlah besar bahasa, dilatih pada perayapan umum
- Hindi dan Bengali Word2Vec
- Model Elmo Hindi dan Urdu
- Sanskerta Albert dilatih di Sanskerta Wikipedia dan Oscar Corpus
Perpustakaan dan perkakas
- Analisis Morfologi Morfologi Multi-Tugas Parser Morfologi Berbasis Jaringan Dalam untuk Hindi dan Urdu
- Anoop Kunchukuttan 18 Bahasa, Seluruh Host Fitur Dari Tokenisasi ke Terjemahan
- Ketergantungan ketergantungan Sivareddy Parser Parser dan Pos Tagger untuk Kannada, Hindi dan Telugu. Port Python3
- INLTK - Toolkit bahasa alami untuk bahasa indic (bahasa anak benua India) yang dibangun di atas Pytorch/Fastai, yang bertujuan untuk memberikan dukungan di luar kotak untuk tugas -tugas NLP umum.
NLP di Thailand
Kembali ke atas
Perpustakaan
- Pythainlp - Thai NLP dalam paket Python
- JTCC - Perpustakaan Cluster Karakter di Java
- Cutkum - Segmentasi kata dengan pembelajaran mendalam di tensorflow
- Thai Language Toolkit - Berdasarkan Kertas oleh Wirote Aroonmanakun pada tahun 2002 dengan Dataset Termasuk
- Synthai - Segmentasi kata dan penandaan POS menggunakan pembelajaran mendalam di Python
Data
- Inter -best - Corpus teks dengan 5 juta kata dengan segmentasi kata
- Perdana Menteri 29 - Dataset yang berisi pidato Perdana Menteri Thailand saat ini
NLP di Denmark
- Pengakuan entitas yang disebutkan untuk Denmark
- DANLP - Sumber Daya NLP dalam Denmark
- Denmark Luar Biasa - Daftar Sumber Daya Luar Biasa untuk Teknologi Bahasa Denmark
NLP dalam bahasa Vietnam
Perpustakaan
- Undhesea - Toolkit NLP Vietnam
- vn.vitk - toolkit pemrosesan teks Vietnam
- Vncorenlp - toolkit pemrosesan bahasa alami Vietnam
- Phobert - Model bahasa pra -terlatih untuk orang Vietnam
- Pyvi - Python Vietnam Core NLP Toolkit
Data
- Vietnamese Treebank - 10.000 kalimat untuk tugas penguraian konstituensi
- Bktreebank - Treebank Ketergantungan Vietnam
- UD_Vietnam - Treebank Ketergantungan Universal Vietnam
- Vivos - Corpus pidato Vietnam gratis yang terdiri dari 15 jam perekaman pidato oleh Ailab
- Vntqcorpus (besar) .txt - 1,75 juta kalimat dalam berita
- Vitext2SQL-Dataset untuk Parsing Semantik Teks-ke-SQL Vietnam (Temuan EMNLP-2020)
- EVB Corpus-20.000.000 kata (20 juta) dari 15 buku dwibahasa, 100 teks paralel Inggris-Vietnam / Vietnam-Inggris, 250 teks paralel dan teks peraturan, 5.000 artikel berita, dan 2.000 subtitle film.
NLP untuk Belanda
Kembali ke atas
- Python -Frog - Python Binding to Frog, sebuah suite NLP untuk Belanda. (POS Tagging, Lemmatisation, Parsing Ketergantungan, NER)
- Simplenlg_nl - Dutch Surface Realiser yang digunakan untuk generasi bahasa alami dalam bahasa Belanda, berdasarkan implementasi SimplenLG untuk bahasa Inggris dan Prancis.
- Alpino - Parser Ketergantungan untuk Belanda (juga melakukan penandaan POS dan Lemmatisation).
- Kaldi NL - Model pengenalan suara Belanda berdasarkan Kaldi.
- Spacy - Model Belanda tersedia. - Kekuatan industri NLP dengan Python dan Cython.
NLP dalam bahasa Indonesia
Kumpulan data
- Kompas dan koleksi tempo di ILPS
- Panl10n untuk penandaan POS: Kalimat 39K dan Token Kata 900K
- IDN untuk POS Tagging: Corpus ini berisi 10K kalimat dan 250 ribu token kata
- Treebank Indonesia dan Ketergantungan Universal-Indonesia
- Indosum untuk peringkasan teks dan klasifikasi keduanya
- WordNet -Bahasa - Kamus Besar, Gratis, dan Semantik
- Indobenchmark Indonlu Termasuk model bahasa pra-terlatih (IndoBert), Model FastText, Indo4B corpus, dan beberapa dataset Benchmark NLU
Perpustakaan & Embedding
- Toolkit Bahasa Alami Bahasa
- Kata Indonesia menanamkan
- Pretrained Indonesian Fasttext Text Embedding Dilatih di Wikipedia
- Indobenchmark Indonlu Termasuk Model Bahasa Pretrain (IndoBert), Model FastText, Indo4B Corpus, dan beberapa dataset Benchmark NLU
NLP dalam bahasa Urdu
Kumpulan data
- Koleksi set data Urdu untuk tugas POS, NER dan NLP
Perpustakaan
- Perpustakaan Pemrosesan Bahasa Alami Untuk Bahasa Urdu (??)
NLP dalam bahasa Persia
Kembali ke atas
Perpustakaan
- HAZM - Toolkit NLP Persia.
- Parsivar: Toolkit Pemrosesan Bahasa untuk Persia
- Perke: Perke adalah paket ekstraksi Python Keyphrase untuk bahasa Persia. Ini menyediakan pipa ekstraksi keyphrase ujung ke ujung di mana setiap komponen dapat dengan mudah dimodifikasi atau diperluas untuk mengembangkan model baru.
- Perstem: Persia Stemmer, Morphological Analyzer, Transliterator, dan Parsial Part-Speech Tagger
- Parsianalyzer: Analyzer Persia untuk Elasticsearch
- Virastar: Membersihkan Teks Persia!
Kumpulan data
- BIJANKHAN CORPUS: BIJANKHAN CORPUS adalah corpus yang ditandai yang cocok untuk penelitian pemrosesan bahasa alami tentang bahasa Persia (Farsi). Koleksi ini dikumpulkan dari berita harian dan teks umum. Dalam koleksi ini semua dokumen dikategorikan ke dalam subjek yang berbeda seperti politik, budaya dan sebagainya. Benar -benar, ada 4300 subjek yang berbeda. Koleksi Bijankhan berisi sekitar 2,6 juta kata yang ditandai secara manual dengan set tag yang berisi 40 tag POS Persia.
- Uppsala Persia Corpus (UPC): Uppsala Persia Corpus (UPC) adalah korpus Persia yang besar dan tersedia secara bebas. Corpus adalah versi modifikasi dari Bijankhan Corpus dengan segmentasi kalimat tambahan dan tokenisasi yang konsisten yang mengandung 2.704.028 token dan dijelaskan dengan 31 tag bagian-dari-pidato. Tag bagian-of-speech terdaftar dengan penjelasan dalam tabel ini.
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
Lisensi
License - CC0