Unduh awesome nlp - Unduh Kode Sumber awesome nlp

awesome nlp

Kode sumber lainnya

1.0.0

Unduh

NLP yang luar biasa

Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami

Logo NLP yang luar biasa

Baca ini dalam bahasa Inggris, Cina Tradisional

Harap baca pedoman kontribusi sebelum berkontribusi. Harap tambahkan sumber daya NLP favorit Anda dengan mengajukan permintaan tarik

Isi

Ringkasan Penelitian dan Tren
Laboratorium Penelitian NLP terkemuka
Tutorial
- Membaca konten
- Video dan kursus
- Buku
Perpustakaan
- Node.js
- Python
- C ++
- Jawa
- Kotlin
- Scala
- R
- Clojure
- Rubi
- Karat
- NLP ++
- Julia
Layanan
Alat Anotasi
Kumpulan data
NLP dalam bahasa Korea
NLP dalam bahasa Arab
NLP dalam bahasa Cina
NLP dalam bahasa Jerman
NLP dalam bahasa Polandia
NLP dalam bahasa Spanyol
NLP dalam bahasa indic
NLP di Thailand
NLP di Denmark
NLP dalam bahasa Vietnam
NLP untuk Belanda
NLP dalam bahasa Indonesia
NLP dalam bahasa Urdu
NLP dalam bahasa Persia
NLP di Ukraina
NLP dalam bahasa Hongaria
NLP dalam bahasa Portugis
Bahasa lain
Kredit

Ringkasan Penelitian dan Tren

NLP-Overview adalah gambaran terkini dari teknik pembelajaran mendalam yang diterapkan pada NLP, termasuk teori, implementasi, aplikasi, dan hasil canggih. Ini adalah pengantar NLP yang mendalam untuk para peneliti.
NLP-Progress melacak kemajuan dalam pemrosesan bahasa alami, termasuk set data dan canggih saat ini untuk tugas NLP yang paling umum
Momen Imagenet NLP telah tiba
ACL 2018 Sorotan: Memahami representasi dan evaluasi dalam pengaturan yang lebih menantang
Empat tren pembelajaran mendalam dari ACL 2017. Bagian Satu: Struktur Linguistik dan Kata Embeddings
Empat tren pembelajaran mendalam dari ACL 2017. Bagian dua: interpretabilitas dan perhatian
Sorotan EMNLP 2017: Dataset yang menarik, pengembalian cluster, dan banyak lagi!
Pembelajaran mendalam untuk pemrosesan bahasa alami (NLP): Kemajuan & Tren
Survei Keadaan Seni dalam Generasi Bahasa Alami

Laboratorium Penelitian NLP terkemuka

Kembali ke atas

Berkeley NLP Group - Kontribusi penting termasuk alat untuk merekonstruksi bahasa mati yang panjang, dirujuk di sini dan dengan mengambil korpora dari 637 bahasa yang saat ini digunakan di Asia dan Pasifik dan menciptakan kembali keturunan mereka.
Language Technologies Institute, Carnegie Mellon University - Proyek penting termasuk Avenue Project, sistem terjemahan mesin yang digerakkan sintaks untuk bahasa yang terancam punah seperti Quechua dan Aymara dan sebelumnya, Bahtera Nuh yang menciptakan AQMAR untuk meningkatkan alat NLP untuk bahasa Arab.
NLP Research Group, Columbia University - Bertanggung jawab untuk menciptakan baut (penanganan kesalahan interaktif untuk sistem terjemahan wicara) dan proyek yang tidak disebutkan namanya untuk mengkarakterisasi tawa dalam dialog.
Pusat atau Pemrosesan Bahasa dan Pidato, Universitas John Hopkins - baru -baru ini dalam berita untuk mengembangkan perangkat lunak pengenalan suara untuk membuat tes diagnostik atau penyakit Parkinson, di sini.
Kelompok Linguistik dan Pemrosesan Informasi Komputasi, Universitas Maryland-Kontribusi penting meliputi kerja sama manusia-komputer atau penjawaban pertanyaan demi kata dan pemodelan pengembangan representasi fonetik.
Pemrosesan Bahasa Alami Penn, Universitas Pennsylvania- terkenal karena menciptakan Penn Treebank.
Kelompok Pemrosesan Bahasa Stanford Nautral- Salah satu laboratorium penelitian NLP teratas di dunia, terkenal karena menciptakan Stanford Corenlp dan sistem resolusi coreference mereka

Tutorial

Kembali ke atas

Membaca konten

Pembelajaran Mesin Umum

Pembelajaran Mesin 101 Dari Insinyur Kreatif Senior Google Menjelaskan Pembelajaran Mesin untuk Insinyur dan Eksekutif
AI Playbook - A16Z AI Playbook adalah tautan yang bagus untuk diteruskan ke manajer atau konten Anda untuk presentasi Anda
Blog Ruder oleh Sebastian Ruder untuk komentar tentang Penelitian NLP Terbaik
Cara memberi label panduan data untuk mengelola proyek anotasi linguistik yang lebih besar
Tergantung pada koleksi definisi posting blog yang mencakup beragam topik NLP dengan implementasi terperinci

Perkenalan dan Panduan ke NLP

Memahami & Menerapkan Pemrosesan Bahasa Alami
NLP dalam Python - Koleksi GitHub Notebooks
Pemrosesan Bahasa Alami: Pengantar - Oxford
Pembelajaran mendalam untuk NLP dengan Pytorch
Tutorial NLTK Hands -On - Tutorial NLTK, Jupyter Notebooks
Pemrosesan Bahasa Alami dengan Python - Menganalisis Teks dengan Toolkit Bahasa Alami - Buku online dan cetak yang memperkenalkan konsep NLP menggunakan NLTK. Penulis buku juga menulis perpustakaan NLTK.
Latih model bahasa baru dari awal - memeluk wajah?
Super Duper NLP Repo (SDNLPR): Koleksi Colab Notebooks yang mencakup beragam implementasi tugas NLP.

Blog dan buletin

Pembelajaran mendalam, NLP, dan representasi
Bert Illustrated, Elmo, dan co. (Bagaimana NLP retak transfer pembelajaran) dan transformator ilustrasi
Pemrosesan Bahasa Alami oleh Hal Daumé III
arxiv: pemrosesan bahasa alami (hampir) dari awal
Karpathy adalah efektivitas yang tidak masuk akal dari jaringan saraf berulang
Penguasaan Pembelajaran Mesin: Pembelajaran mendalam untuk pemrosesan bahasa alami
Ringkasan kertas nlp visual

Video dan kursus online

Kembali ke atas

Pemrosesan Bahasa Alami Tingkat Lanjut - CS 685, UMass Amherst CS
Pemrosesan Bahasa Alami yang Dalam - Seri Kuliah dari Oxford
Pembelajaran mendalam untuk pemrosesan bahasa alami (CS224 -N) - Kursus Stanford Richard Socher dan Christopher Manning
Jaringan saraf untuk NLP - Institut Teknologi Bahasa Carnegie Mellon di sana
Kursus NLP yang dalam oleh Yandex Data School, yang mencakup ide -ide penting dari penyembatan teks hingga terjemahan mesin termasuk pemodelan urutan, model bahasa dan sebagainya.
Fast.AI Code -First Intro untuk Pemrosesan Bahasa Alami - Ini mencakup perpaduan topik NLP tradisional (termasuk Regex, SVD, Naive Bayes, Tokenisasi) dan pendekatan jaringan saraf baru -baru ini (termasuk RNN, SEQ2SEQ, GRUS, dan transformator), serta membahas masalah etika yang mendesak, seperti bias dan bias. Temukan buku catatan Jupyter di sini
Universitas Pembelajaran Mesin - Pemrosesan Bahasa Alami yang Dipercepat - Kuliah Beralih Dari Pengantar NLP dan Pemrosesan Teks ke Jaringan Saraf dan Transformator Berulang. Materi dapat ditemukan di sini.
Seri Kuliah Bahasa Alami Terapan dari IIT Madras mengambil dari dasar-dasar sampai ke autoencoders dan segalanya. Notebook GitHub untuk kursus ini juga tersedia di sini

Buku

Pemrosesan Pidato dan Bahasa - Gratis, oleh Prof. Dan Jurafsy
Pemrosesan Bahasa Alami - Gratis, Catatan NLP oleh Dr. Jacob Eisenstein di Georgiatech
NLP dengan Pytorch - Brian & Delip Rao
Penambangan teks di r
Pemrosesan bahasa alami dengan python
Pemrosesan Bahasa Alami Praktis
Pemrosesan bahasa alami dengan Spark NLP
Pembelajaran mendalam untuk pemrosesan bahasa alami oleh Stephan Raaijmakers
Pemrosesan Bahasa Alami Dunia Nyata - Oleh Masato Hagiwara
Pemrosesan Bahasa Alami Beraksi, Edisi Kedua - Oleh Hobson Lane dan Maria Dyshel

Perpustakaan

Kembali ke atas

Node.js dan javascript - node.js libaries untuk nlp | Kembali ke atas
- Twitter -Text - Implementasi JavaScript dari Perpustakaan Pemrosesan Teks Twitter
- Knwl.js - prosesor bahasa alami di JS
- Retext - Sistem yang dapat diperluas untuk menganalisis dan memanipulasi bahasa alami
- NLP Compromise - Pemrosesan bahasa alami di browser
- Natural - Fasilitas Bahasa Alami Umum untuk Node
- Poplar - Alat anotasi berbasis web untuk pemrosesan bahasa alami (NLP)
- Nlp.js - perpustakaan NLP untuk membangun bot
- Penjawaban Node-pertanyaan yang cepat dan siap-produksi dengan Distilbert di Node.js
Python - Perpustakaan Python NLP | Kembali ke atas
- Model sentimen sentimental-onix untuk spacy menggunakan onnx
- TextAttack - Serangan permusuhan, pelatihan permusuhan, dan augmentasi data di NLP
- TextBlob - Menyediakan API yang konsisten untuk menyelam ke dalam tugas pemrosesan bahasa alami (NLP). Berdiri di bahu raksasa Toolkit Bahasa Alami (NLTK) dan pola, dan bermain dengan baik dengan keduanya?
- Spacy - Kekuatan Industri NLP dengan Python dan Cython?
- Speedster - Secara otomatis menerapkan teknik optimasi SOTA untuk mencapai kecepatan inferensi maksimum pada perangkat keras Anda
  - Tekstasi - NLP tingkat yang lebih tinggi dibangun di atas spacy
- GENSIM - Perpustakaan Python untuk melakukan pemodelan semantik tanpa pengawasan dari teks biasa?
- PERPUSTAKAAN PENGETAHUAN - PERPUSTAKAAN PYTHON UNTUK MEMPROSEGI D3 Visualisasi tentang bagaimana bahasa berbeda antara korpora
- Gluonnlp-Toolkit pembelajaran yang mendalam untuk NLP, dibangun di atas MXNET/Gluon, untuk prototipe penelitian dan penyebaran industri model canggih pada berbagai tugas NLP.
- Allennlp-Perpustakaan Penelitian NLP, dibangun di atas Pytorch, untuk mengembangkan model pembelajaran mendalam yang canggih pada berbagai tugas linguistik.
- PyTorch -NLP - NLP Research Toolkit yang dirancang untuk mendukung prototyping cepat dengan loader data yang lebih baik, pemuat vektor kata, representasi lapisan jaringan saraf, metrik NLP umum seperti Bleu
- Rosetta - alat pemrosesan teks dan pembungkus (misalnya vowpal wabbit)
- Pynlpl - Perpustakaan Pemrosesan Bahasa Alami Python. Perpustakaan NLP Tujuan Umum untuk Python, menangani beberapa format spesifik seperti model bahasa ARPA, Moses Frasetables, Giza ++ Alignments.
- Foliapy - Perpustakaan Python untuk bekerja dengan Folia, format XML untuk anotasi linguistik.
- Pyss3 - Paket Python yang mengimplementasikan model pembelajaran mesin putih baru untuk klasifikasi teks, yang disebut SS3. Karena SS3 memiliki kemampuan untuk secara visual menjelaskan alasannya, paket ini juga dilengkapi dengan alat visualisasi interaktif yang mudah digunakan (demo online).
- JPTDP-Toolkit untuk parsing parsing dan parsing ketergantungan bagian-of-speech (POS) dan ketergantungan. JPTDP menyediakan model pra-terlatih untuk 40+ bahasa.
- BigArtm - Perpustakaan Cepat untuk Pemodelan Topik
- Snips NLU - Perpustakaan Siap Produksi untuk Parsing Niat
- Chazutsu - Perpustakaan untuk Mengunduh & Mengurai Dataset Penelitian NLP Standar
- Bentuk kata - bentuk kata dapat secara akurat menghasilkan semua bentuk kata bahasa Inggris secara akurat
- Alokasi Dirichlet Laten Multilingual (LDA) - Pipa pengelompokan dokumen multibahasa dan ekstensible
- Natural Language Toolkit (NLTK) - Perpustakaan yang berisi berbagai fungsionalitas NLP, mendukung lebih dari 50 korpora.
- NLP Architect-Perpustakaan untuk Menjelajahi Topologi dan Teknik Pembelajaran Deep-of-the-Art untuk NLP dan NLU
- Flair-Kerangka kerja yang sangat sederhana untuk NLP multibahasa canggih yang dibangun di atas Pytorch. Termasuk embeddings Bert, Elmo dan Flair.
- KASHGARI-Kerangka NLP multibahasa yang sederhana dan bertenaga keras, memungkinkan Anda untuk membangun model dalam 5 menit untuk pengenalan entitas bernama (NER), penandaan bagian-of-speech (POS) dan tugas klasifikasi teks. Termasuk embedding Bert dan Word2Vec.
- Farm - Pembelajaran Transfer Cepat & Mudah untuk NLP. Model Bahasa Panen untuk Industri. Fokus pada menjawab pertanyaan.
- Haystack-Kerangka Python ujung ke ujung untuk membangun antarmuka pencarian bahasa alami untuk data. Memanfaatkan transformator dan canggih NLP. Mendukung DPR, Elasticsearch, HuggingFace's ModelHub, dan banyak lagi!
- Rita DSL - A DSL, secara longgar didasarkan pada ruta di Apache Uima. Memungkinkan untuk mendefinisikan pola bahasa (NLP berbasis aturan) yang kemudian diterjemahkan ke dalam spacy, atau jika Anda lebih suka fitur yang lebih sedikit dan pola REGEX yang ringan.
- Transformers - Pemrosesan bahasa alami untuk TensorFlow 2.0 dan Pytorch.
- Tokenizer - Tokenizer dioptimalkan untuk penelitian dan produksi.
- Fairseq Facebook AI Penelitian Implementasi model SOTA SEQ2SEQ di Pytorch.
- COREX_TOPIC - Pemodelan topik hierarkis dengan pengetahuan domain minimal
- Toolkit Sockeye - Neural Machine Translation (NMT) yang Powers Amazon Terjemahan.
- DL Translate - Perpustakaan Terjemahan Berbasis Pembelajaran yang mendalam untuk 50 bahasa, dibangun di atas transformers dan MBART Facebook besar.
- Juri - Evaluasi output model NLP yang menawarkan berbagai metrik otomatis.
- Python-Esto-Tokenizer Berbasis Ekspresi Reguler Unicode-Aware untuk berbagai bahasa. Python Binding to C ++ Library, Mendukung Format Folia.

C ++ - C ++ Libraries | Kembali ke atas
- INSNET-Perpustakaan jaringan saraf untuk membangun model NLP yang bergantung pada instance dengan batching dinamis bebas bantalan.
- Toolkit Ekstraksi Informasi MIT - C, C ++, dan Alat Python untuk Pengenalan Entitas dan Ekstraksi Hubungan yang Dinamai
- CRF ++ - Implementasi sumber terbuka dari bidang acak bersyarat (CRF) untuk segmentasi/pelabelan data sekuensial & tugas pemrosesan bahasa alami lainnya.
- CRFSUITE - CRFSUITE adalah implementasi bidang acak bersyarat (CRF) untuk pelabelan data sekuensial.
- Bllip Parser - Bllip Natural Language Parser (juga dikenal sebagai Parser Charniak -Johnson)
- Perpustakaan Colibri-Core-C ++, alat garis perintah, dan pengikatan python untuk mengekstraksi dan bekerja dengan konstruksi linguistik dasar seperti n-gram dan skipgram dengan cara yang cepat dan hemat memori.
- UCTO-Tokenizer Berbasis Ekspresi Reguler Unicode untuk berbagai bahasa. Perpustakaan Alat dan C ++. Mendukung format folia.
- Libfolia - Perpustakaan C ++ untuk format folia
- Frog - Suite NLP berbasis memori yang dikembangkan untuk Belanda: POS Tagger, Lemmatiser, Parser Ketergantungan, NER, Parser Dangkal, Penganalisa Morfologis.
- Meta - Meta: Analisis Teks Modern adalah Toolkit Ilmu Data C ++ yang memfasilitasi penambangan data teks besar.
- Mecab (Jepang)
- Musa
- StarSpace-Perpustakaan dari Facebook untuk membuat embeddings tingkat kata, paragraf, tingkat dokumen dan untuk klasifikasi teks
Java - Perpustakaan Java NLP | Kembali ke atas
- Stanford NLP
- Opennlp
- Nlp4j
- Word2Vec di Java
- Reverb Ekstraksi Informasi Terbuka Skala Web
- OpenRegex Bahasa dan mesin ekspresi reguler berbasis token yang efisien dan fleksibel.
- COGCOMPNLP - Perpustakaan inti yang dikembangkan dalam kelompok komputasi kognitif U Illinois.
- Mallet - Pembelajaran Mesin untuk Toolkit Bahasa - Paket untuk Pemrosesan Bahasa Alami Statistik, Klasifikasi Dokumen, pengelompokan, pemodelan topik, ekstraksi informasi, dan aplikasi pembelajaran mesin lainnya untuk teks.
- RDRPostagger - Toolkit penandaan POS yang kuat tersedia (baik di Java & Python) bersama dengan model pra -terlatih untuk 40+ bahasa.
Kotlin - Perpustakaan Kotlin NLP | Kembali ke atas
- Lingua perpustakaan deteksi bahasa untuk Kotlin dan Java, cocok untuk teks yang panjang dan pendek
- Kotidgy-generator data teks berbasis indeks yang ditulis dalam Kotlin
Scala - Pustaka Scala NLP | Kembali ke atas
- Saul - Perpustakaan untuk Mengembangkan Sistem NLP, termasuk modul bawaan seperti SRL, POS, dll.
- ATR4S-Toolkit dengan metode pengenalan istilah otomatis canggih.
- TM - Implementasi pemodelan topik berdasarkan PLSA multibahasa yang diatur.
- Word2vec -scala - antarmuka Scala ke model Word2Vec; Termasuk operasi pada vektor-vektor seperti jarak-kata dan kata-analogi.
- Epic - Epic adalah parser statistik berkinerja tinggi yang ditulis dalam Scala, bersama dengan kerangka kerja untuk membangun model prediksi terstruktur yang kompleks.
- Spark NLP - Spark NLP adalah perpustakaan pemrosesan bahasa alami yang dibangun di atas Apache Spark ML yang menyediakan anotasi NLP yang sederhana, berkinerja & akurat untuk pipa pembelajaran mesin yang skala dengan mudah di lingkungan terdistribusi.
R - R NLP Libraries | Kembali ke atas
- text2vec - vektorisasi cepat, pemodelan topik, jarak dan embeddings kata sarung tangan di R.
- WordVectors - Paket R untuk Membuat dan Menjelajahi Word2Vec dan Model Embedding Kata Lainnya
- Paket RMallet - R untuk berinteraksi dengan Mallet Alat Pembelajaran Mesin Java
- DFR -Browser - Membuat visualisasi D3 untuk menjelajah model topik teks di browser web.
- Dfrtopics - R Paket untuk Menjelajahi Model Topik Teks.
- sentimen_classifier - Klasifikasi sentimen menggunakan disambiguasi indera kata dan pembaca WordNet
- JPROCESSING - Perpustakaan Pemrosesan Langauge Alami Jepang, dengan Klasifikasi Sentimen Jepang
- CorporAexplorer - Paket R untuk Eksplorasi Dinamis Koleksi Teks
- Tidytext - Teks Penambangan Menggunakan Alat Tidy
- Spacyr - R Wrapper ke Spacy NLP
- Tampilan tugas cran: Pemrosesan bahasa alami
Clojure | Kembali ke atas
- Clojure -Opennlp - Pemrosesan Bahasa Alami di Clojure (OpenNLP)
- Infeksi-CLJ-Perpustakaan Infleksi Seperti Rel untuk Clojure dan Clojurescript
- Postagga - Perpustakaan untuk Mengurai Bahasa Alami di Clojure dan Clojurescript
Ruby | Kembali ke atas
- Kevin Dias's A Collection of Natural Language Processing (NLP) Ruby Libraries, Tools and Software
- Pemrosesan bahasa alami praktis dilakukan di Ruby
Karat | Kembali ke atas
- Whatlang - Perpustakaan Pengakuan Bahasa Alami Berdasarkan Trigram
- Snips-NLU-RS-Perpustakaan Siap Produksi untuk Parsing Niat
- Rust-Bert-Pipa NLP siap pakai dan model berbasis transformator
NLP ++ - Bahasa NLP ++ | Kembali ke atas
- Ekstensi Bahasa VScode - Ekstensi Bahasa NLP ++ untuk VScode
- NLP -Engine - Mesin NLP ++ untuk menjalankan kode NLP ++ di Linux termasuk parser bahasa Inggris lengkap
- VisualText - Beranda untuk bahasa NLP ++
- NLP ++ Wiki - Entri Wiki untuk bahasa NLP ++
Julia | Kembali ke atas
- Corpusloaders - Berbagai loader untuk berbagai perusahaan NLP
- Bahasa - Paket untuk Bekerja dengan Bahasa Manusia
- Textanalysis - Paket Julia untuk Analisis Teks
- TextModels - Model berbasis jaringan saraf untuk pemrosesan bahasa alami
- WordTokenizers - tokenizer berkinerja tinggi untuk pemrosesan bahasa alami dan tugas terkait lainnya
- Word2Vec - Julia Interface ke Word2Vec

Layanan

NLP sebagai API dengan fungsionalitas tingkat yang lebih tinggi seperti NER, penandaan topik dan sebagainya | Kembali ke atas

Wit -Ai - Antarmuka Bahasa Alami untuk Aplikasi dan Perangkat
Pemahaman Bahasa Alami IBM Watson - Demo API dan GitHub
Amazon Memahami - NLP dan ML Suite mencakup tugas paling umum seperti NER, penandaan, dan analisis sentimen
Google Cloud Natural Language API - Analisis Sintaks, NER, analisis sentimen, dan penandaan konten dalam setidaknya 9 bahasa termasuk bahasa Inggris dan Cina (disederhanakan dan tradisional).
Paralleldots - Analisis Teks Tingkat Tinggi Layanan API mulai dari analisis sentimen hingga analisis niat
Layanan Kognitif Microsoft
Textrazor
Hiasan berbentuk mawar
Textalytic - Pemrosesan bahasa alami di browser dengan analisis sentimen, ekstraksi entitas yang disebutkan, penandaan POS, frekuensi kata, pemodelan topik, awan kata, dan banyak lagi
NLP Cloud - Model NLP Spacy (yang khusus dan pra -terlatih) disajikan melalui API RESTful untuk Named Entity Recognition (NER), POS Tagging, dan banyak lagi.
CloudMersive - NLP API yang bersatu dan gratis yang melakukan tindakan seperti penandaan pidato, pengulangan teks, terjemahan/deteksi bahasa, dan penguraian kalimat

Alat Anotasi

Gerbang - Arsitektur Umum dan Teknik Teks Berusia 15+ Tahun, Gratis dan Sumber Terbuka
Anafora adalah alat anotasi teks mentah gratis dan open source,
Brat - Brat Rapid Annotation Tool adalah lingkungan online untuk anotasi teks kolaboratif
Doccano - Doccano gratis, open -source, dan menyediakan fitur anotasi untuk klasifikasi teks, pelabelan urutan dan urutan ke urutan
Inception - Platform anotasi semantik yang menawarkan bantuan cerdas dan manajemen pengetahuan
Tagtog, alat web pertama tim untuk menemukan, membuat, memelihara, dan berbagi set data - biaya $
Prodigy adalah alat anotasi yang ditenagai oleh pembelajaran aktif, biaya $
Lighttag - Alat anotasi teks yang di -host dan dikelola untuk tim, biaya $
RSTWEB - Alat Lokal atau Online Open Source untuk Anotasi Pohon Wacana
GitDox - Alat Anotasi Server Sumber Terbuka dengan Kontrol Versi GitHub dan Validasi untuk Data XML dan Kisi Lembar Kolaboratif
Label Studio - Alat anotasi teks yang dihosting dan dikelola untuk tim, berbasis freemium, biaya $
DataSaur mendukung berbagai tugas NLP untuk individu atau tim, berbasis freemium
Konfuzio-Teks yang di-host dan on-prem TEAM, gambar dan alat anotasi PDF yang ditenagai oleh pembelajaran aktif, berbasis freemium, biaya $
Ubiai-Alat anotasi teks yang mudah digunakan untuk tim dengan fitur anotasi otomatis yang paling komprehensif. Mendukung NER, Hubungan dan Klasifikasi Dokumen serta Anotasi OCR untuk Pelabelan Faktur, biaya $
SHOONYA - Shoonya adalah platform anotasi data sumber terbuka dan open source dengan berbagai varials sistem manajemen tingkat organisasi dan ruang kerja. Shoonya adalah data agnostik, dapat digunakan oleh tim untuk memberi anotasi data dengan berbagai tingkat tahap verifikasi pada skala.
Laboratorium Anotasi-Platform No-Code ujung ke ujung gratis untuk anotasi teks dan pelatihan/penyetelan model DL. Dukungan out-of-the-box untuk pengakuan entitas yang disebutkan, klasifikasi, ekstraksi relasi dan status penegasan model NLP. Dukungan tak terbatas untuk pengguna, tim, proyek, dokumen. Bukan foss.
Flat-Flat adalah lingkungan anotasi linguistik berbasis web yang berbasis di sekitar format Folia, format berbasis XML yang kaya untuk anotasi linguistik. Sumber gratis dan terbuka.

Teknik

Teks Embeddings

Kata embeddings

Aturan Thumb: FastText >> Glove> Word2Vec
Word2Vec - Implementasi - Blog Penjelasan
Sarung Tangan - Blog Penjelasan
FastText - Implementasi - Kertas - Blog Penjelasan

Kalimat dan Bahasa Model Berbasis Embeddings

Kembali ke atas

ELMO - Representasi Kata Kontekstual yang Dalam - Implementasi Pytorch - Implementasi TF
ULMFIT - Model bahasa universal menyempurnakan untuk klasifikasi teks oleh Jeremy Howard dan Sebastian Ruder
Infersent - Pembelajaran yang diawasi dari representasi kalimat universal dari data inferensi bahasa alami oleh Facebook
COVE - belajar dalam terjemahan: vektor kata kontekstual
Vektor pargraph - dari representasi kalimat dan dokumen yang didistribusikan. Lihat Tutorial Doc2Vec di Gensim
Sense2vec - pada kata disambiguasi indera
Lewati Vektor Pemikiran - Metode Representasi Kata
Adaptif Skip -Gram - Pendekatan serupa, dengan sifat adaptif
Urutan untuk Pembelajaran Urutan - Vektor Kata untuk Terjemahan Mesin

Pertanyaan menjawab dan ekstraksi pengetahuan

Kembali ke atas

DRQA - Open Domain Question menjawab pekerjaan oleh Facebook Research on Wikipedia Data
Dokumen-QA-Pemahaman membaca multi-paragraf yang sederhana dan efektif oleh Allenai
Ekstraksi Informasi Berbasis Template Tanpa Template
Privee: Arsitektur untuk menganalisis kebijakan privasi web secara otomatis

Kumpulan data

Kembali ke atas

NLP-Datasets Koleksi Hebat dari Dataset NLP
Gensim -Data - Repositori Data untuk Model NLP Pretrained dan NLP Corpora.

Kerangka kerja NLP multibahasa

Kembali ke atas

UDPIPE adalah pipa yang dapat dilatih untuk tokenisasi, penandaan, lemmatisasi dan penguraian bank pohon universal dan file conll-u lainnya. Terutama ditulis dalam C ++, menawarkan solusi yang cepat dan andal untuk pemrosesan NLP multibahasa.
NLP-Cube: Pipa pemrosesan bahasa alami-pemisahan kalimat, tokenisasi, lemmatisasi, penandaan sebagian dan penguraian ketergantungan. Platform baru, ditulis dalam Python dengan Dynet 2.0. Menawarkan mandiri (binding CLI/Python) dan fungsi server (REST API).
Uralicnlp adalah perpustakaan NLP sebagian besar untuk banyak bahasa uralic yang terancam punah seperti bahasa Sami, bahasa Mordvin, bahasa mari, bahasa komi dan sebagainya. Juga beberapa bahasa yang tidak tertular didukung seperti Finlandia bersama dengan bahasa non-uralik seperti Swedia dan Arab. Uralicnlp dapat melakukan analisis morfologis, generasi, lemmatisasi dan disambiguasi.

NLP dalam bahasa Korea

Kembali ke atas

Perpustakaan

Konlpy - Paket Python untuk Pemrosesan Bahasa Alami Korea.
MECAB (Korea) - Perpustakaan C ++ untuk NLP Korea
Koalanlp - Perpustakaan Scala untuk Pemrosesan Bahasa Alami Korea.
Paket Konlp - R untuk Pemrosesan Bahasa Alami Korea

Blog dan tutorial

Blog DSIndex
Kursus NLP Universitas Kangwon di Korea

Kumpulan data

Kaist Corpus - Sebuah korpus dari Institut Sains dan Teknologi Korea Advanced di Korea.
Naver Sentiment Movie Corpus dalam bahasa Korea
Chosun Ilbo Archive - Dataset di Korea dari salah satu surat kabar utama di Korea Selatan, Chosun Ilbo.
Data obrolan - Data chatbot dalam bahasa Korea
Petisi - Mengumpulkan data petisi yang kadaluwarsa dari situs petisi nasional Blue House.
Dataset Korea Parallel - Seural Machine Translation (NMT) untuk Korea ke Prancis & Korea ke Bahasa Inggris
Korquad - Dataset Pasukan Korea dengan sumber Wiki HTML. Menyebutkan v1.0 dan v2.1 pada saat menambahkan ke NLP yang luar biasa

NLP dalam bahasa Arab

Kembali ke atas

Perpustakaan

GOARBIC - Paket GO untuk Pemrosesan Teks Arab
JSastem - JavaScript untuk Stemming Arab
Pyarabic - Perpustakaan Python untuk Arab
Rftokenizer - Segmenter Python yang dapat dilatih untuk bahasa Arab, Ibrani dan Koptik

Kumpulan data

Dataset Multidomain - Sumber Daya Multi -Domain Tersedia Terbesar Untuk Analisis Sentimen Arab
LABR - Ulasan Buku Arab Besar Dataset
Airbic Stopwords - Daftar Stopwords Arab dari berbagai sumber daya

NLP dalam bahasa Cina

Kembali ke atas

Perpustakaan

Jieba - Paket Python untuk Kata -kata Utilitas Segmentasi dalam bahasa Cina
Snownlp - Paket Python untuk NLP Cina
Fudannlp - Perpustakaan Java untuk Pemrosesan Teks Cina
HANLP - Perpustakaan NLP Multilingual

Antologi

FUNNLP - Koleksi Alat dan Sumber Daya NLP Terutama untuk Cina

NLP dalam bahasa Jerman

Jerman-NLP-Daftar sumber daya dan alat dan alat terbuka/open-source/off-the-shelf yang dikembangkan dengan fokus khusus pada Jerman

NLP dalam bahasa Polandia

Polandia -NLP - Daftar sumber daya yang dikuratori yang didedikasikan untuk pemrosesan bahasa alami (NLP) dalam bahasa Polandia. Model, Alat, Dataset.

NLP dalam bahasa Spanyol

Kembali ke atas

Perpustakaan

SPANLP - Perpustakaan Python untuk mendeteksi, menyensor, dan kata -kata kotor, vulgar, kata -kata kebencian, rasisme, xenofobia dan intimidasi dalam teks yang ditulis dalam bahasa Spanyol. Ini berisi data 21 negara berbahasa Spanyol.

Data

Pidato Politik Kolombia
Copenhagen Treebank
Spanyol miliar kata korpus dengan embeddings word2vec
Kompilasi korpora Spanyol yang tidak diatur

Embedding kata dan kalimat

Kata Spanyol embeddings dihitung dengan metode yang berbeda dan dari korpora yang berbeda
Kata Spanyol Embeddings Dihitung dari Korpora Besar dan ukuran yang berbeda menggunakan FastText
Embeddings Kalimat Spanyol Dihitung dari Korpora Besar Menggunakan Sent2Vec
Beto - Bert untuk Spanyol

NLP dalam bahasa indic

Kembali ke atas

Data, korpora, dan bank pohon

Hindi Dependency Treebank-Treebank multi-lapis multi-representasional untuk Hindi dan Urdu
Ketergantungan universal Treebank dalam bahasa Hindi
- Ketergantungan universal paralel Treebank dalam bahasa Hindi - bagian yang lebih kecil dari tepi pohon yang disebutkan di atas.
ISI Fire Stopwords List (Hindi dan Bangla)
Daftar Stopwords Peter Graham
NLTK Corpus 60K Words Pos Tagged, Bangla, Hindi, Marathi, Telugu
Dataset Ulasan Film Hindi ~ Sampel 1K, 3 Kelas Polaritas
BBC News Hindi Dataset 4.3K sampel, 14 kelas
IIT Patna Hindi Hindi Dataset 5.4K Sampel, 12 Domain, Istilah Aspek 4K, Aspek dan Polaritas Tingkat Kalimat di 4 Kelas
Bangla ABSA 5.5K sampel, 2 domain, 10 istilah aspek
IIT Patna Movie Review Dataset Dataset 2K sampel, 3 label polaritas

Korpora/Dataset yang membutuhkan login/akses dapat diperoleh melalui email

Sail 2015 Twitter dan Facebook memberi label sampel sentimen dalam bahasa Hindi, Bengali, Tamil, Telugu.
IIT Bombay NLP Resources Siniwordnet, film dan pariwisata paralel berlabel corpora, polarity berlabel indera anotasi corpus, marathi polarity berlabel corpus.
TDIL-IC mengumpulkan banyak sumber daya yang berguna dan menyediakan akses ke kumpulan data yang terjaga keamanannya

Model bahasa dan embeddings kata

Hindi2vec dan NLP-For-Hindi Ulmfit Style Lange Model
IIT Patna Bilingual Word Embeddings Hi-en
Fasttext Word Embeddings Dalam sejumlah besar bahasa, dilatih pada perayapan umum
Hindi dan Bengali Word2Vec
Model Elmo Hindi dan Urdu
Sanskerta Albert dilatih di Sanskerta Wikipedia dan Oscar Corpus

Perpustakaan dan perkakas

Analisis Morfologi Morfologi Multi-Tugas Parser Morfologi Berbasis Jaringan Dalam untuk Hindi dan Urdu
Anoop Kunchukuttan 18 Bahasa, Seluruh Host Fitur Dari Tokenisasi ke Terjemahan
Ketergantungan ketergantungan Sivareddy Parser Parser dan Pos Tagger untuk Kannada, Hindi dan Telugu. Port Python3
INLTK - Toolkit bahasa alami untuk bahasa indic (bahasa anak benua India) yang dibangun di atas Pytorch/Fastai, yang bertujuan untuk memberikan dukungan di luar kotak untuk tugas -tugas NLP umum.

NLP di Thailand

Kembali ke atas

Perpustakaan

Pythainlp - Thai NLP dalam paket Python
JTCC - Perpustakaan Cluster Karakter di Java
Cutkum - Segmentasi kata dengan pembelajaran mendalam di tensorflow
Thai Language Toolkit - Berdasarkan Kertas oleh Wirote Aroonmanakun pada tahun 2002 dengan Dataset Termasuk
Synthai - Segmentasi kata dan penandaan POS menggunakan pembelajaran mendalam di Python

Data

Inter -best - Corpus teks dengan 5 juta kata dengan segmentasi kata
Perdana Menteri 29 - Dataset yang berisi pidato Perdana Menteri Thailand saat ini

NLP di Denmark

Pengakuan entitas yang disebutkan untuk Denmark
DANLP - Sumber Daya NLP dalam Denmark
Denmark Luar Biasa - Daftar Sumber Daya Luar Biasa untuk Teknologi Bahasa Denmark

NLP dalam bahasa Vietnam

Perpustakaan

Undhesea - Toolkit NLP Vietnam
vn.vitk - toolkit pemrosesan teks Vietnam
Vncorenlp - toolkit pemrosesan bahasa alami Vietnam
Phobert - Model bahasa pra -terlatih untuk orang Vietnam
Pyvi - Python Vietnam Core NLP Toolkit

Data

Vietnamese Treebank - 10.000 kalimat untuk tugas penguraian konstituensi
Bktreebank - Treebank Ketergantungan Vietnam
UD_Vietnam - Treebank Ketergantungan Universal Vietnam
Vivos - Corpus pidato Vietnam gratis yang terdiri dari 15 jam perekaman pidato oleh Ailab
Vntqcorpus (besar) .txt - 1,75 juta kalimat dalam berita
Vitext2SQL-Dataset untuk Parsing Semantik Teks-ke-SQL Vietnam (Temuan EMNLP-2020)
EVB Corpus-20.000.000 kata (20 juta) dari 15 buku dwibahasa, 100 teks paralel Inggris-Vietnam / Vietnam-Inggris, 250 teks paralel dan teks peraturan, 5.000 artikel berita, dan 2.000 subtitle film.

NLP untuk Belanda

Kembali ke atas

Python -Frog - Python Binding to Frog, sebuah suite NLP untuk Belanda. (POS Tagging, Lemmatisation, Parsing Ketergantungan, NER)
Simplenlg_nl - Dutch Surface Realiser yang digunakan untuk generasi bahasa alami dalam bahasa Belanda, berdasarkan implementasi SimplenLG untuk bahasa Inggris dan Prancis.
Alpino - Parser Ketergantungan untuk Belanda (juga melakukan penandaan POS dan Lemmatisation).
Kaldi NL - Model pengenalan suara Belanda berdasarkan Kaldi.
Spacy - Model Belanda tersedia. - Kekuatan industri NLP dengan Python dan Cython.

NLP dalam bahasa Indonesia

Kumpulan data

Kompas dan koleksi tempo di ILPS
Panl10n untuk penandaan POS: Kalimat 39K dan Token Kata 900K
IDN untuk POS Tagging: Corpus ini berisi 10K kalimat dan 250 ribu token kata
Treebank Indonesia dan Ketergantungan Universal-Indonesia
Indosum untuk peringkasan teks dan klasifikasi keduanya
WordNet -Bahasa - Kamus Besar, Gratis, dan Semantik
Indobenchmark Indonlu Termasuk model bahasa pra-terlatih (IndoBert), Model FastText, Indo4B corpus, dan beberapa dataset Benchmark NLU

Perpustakaan & Embedding

Toolkit Bahasa Alami Bahasa
Kata Indonesia menanamkan
Pretrained Indonesian Fasttext Text Embedding Dilatih di Wikipedia
Indobenchmark Indonlu Termasuk Model Bahasa Pretrain (IndoBert), Model FastText, Indo4B Corpus, dan beberapa dataset Benchmark NLU

NLP dalam bahasa Urdu

Kumpulan data

Koleksi set data Urdu untuk tugas POS, NER dan NLP

Perpustakaan

Perpustakaan Pemrosesan Bahasa Alami Untuk Bahasa Urdu (??)

NLP dalam bahasa Persia

Kembali ke atas

Perpustakaan

HAZM - Toolkit NLP Persia.
Parsivar: Toolkit Pemrosesan Bahasa untuk Persia
Perke: Perke adalah paket ekstraksi Python Keyphrase untuk bahasa Persia. Ini menyediakan pipa ekstraksi keyphrase ujung ke ujung di mana setiap komponen dapat dengan mudah dimodifikasi atau diperluas untuk mengembangkan model baru.
Perstem: Persia Stemmer, Morphological Analyzer, Transliterator, dan Parsial Part-Speech Tagger
Parsianalyzer: Analyzer Persia untuk Elasticsearch
Virastar: Membersihkan Teks Persia!

Kumpulan data

BIJANKHAN CORPUS: BIJANKHAN CORPUS adalah corpus yang ditandai yang cocok untuk penelitian pemrosesan bahasa alami tentang bahasa Persia (Farsi). Koleksi ini dikumpulkan dari berita harian dan teks umum. Dalam koleksi ini semua dokumen dikategorikan ke dalam subjek yang berbeda seperti politik, budaya dan sebagainya. Benar -benar, ada 4300 subjek yang berbeda. Koleksi Bijankhan berisi sekitar 2,6 juta kata yang ditandai secara manual dengan set tag yang berisi 40 tag POS Persia.
Uppsala Persia Corpus (UPC): Uppsala Persia Corpus (UPC) adalah korpus Persia yang besar dan tersedia secara bebas. Corpus adalah versi modifikasi dari Bijankhan Corpus dengan segmentasi kalimat tambahan dan tokenisasi yang konsisten yang mengandung 2.704.028 token dan dijelaskan dengan 31 tag bagian-dari-pidato. Tag bagian-of-speech terdaftar dengan penjelasan dalam tabel ini.
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources