
Pandect ini (πανδέκτης adalah bahasa Yunani kuno untuk ensiklopedia) diciptakan untuk membantu Anda menemukan hampir semua hal yang terkait dengan pemrosesan bahasa alami yang tersedia secara online.
Catatan Legenda Cepat tentang Jenis Sumber Daya yang Tersedia:
- Proyek open source, biasanya repositori gitub dengan jumlah bintangnya
? - Sumber daya yang dapat Anda baca, biasanya posting blog atau makalah
- Kumpulan sumber daya tambahan
? - Alat sumber, kerangka kerja atau layanan berbayar yang tidak terbuka
? ️ - sumber daya yang bisa Anda tonton
? ️ - sumber daya yang dapat Anda dengarkan
| ? Bagian utama | ? ️ Sampel sub-bagian |
|---|
| Sumber Daya NLP | Ringkasan kertas, ringkasan konferensi, kumpulan data NLP |
| Podcast NLP | Podcast khusus NLP, podcast dengan banyak episode NLP |
| Nawala NLP | - |
| Pertemuan NLP | - |
| Saluran YouTube NLP | - |
| Tolok ukur NLP | Nlu umum, menjawab pertanyaan, multibahasa |
| Sumber daya penelitian | Sumber Daya pada Model Transformer, Distilasi dan Pemangkasan, Ringkasan Otomatis |
| Sumber Daya Industri | Praktik terbaik untuk sistem NLP, MLOP untuk NLP |
| Pengakuan ucapan | Sumber Daya Umum, SMS ke Pidato, Pidato ke SMS, Dataset |
| Pemodelan Topik | Blog, kerangka kerja, repositori dan proyek |
| Ekstraksi kata kunci | Peringkat teks, rake, pendekatan lain |
| NLP yang bertanggung jawab | NLP dan ML interpretabilitas, etika, bias, dan kesetaraan dalam NLP, serangan permusuhan untuk NLP |
| Kerangka kerja NLP | Tujuan umum, augmentasi data, terjemahan mesin, serangan permusuhan, sistem dialog & pidato, entitas dan pencocokan string, kerangka kerja non-Inggris, anotasi teks |
| Belajar NLP | Kursus, buku, tutorial |
| Komunitas NLP | - |
| Topik NLP lainnya | Tokenisasi, augmentasi data, pengenalan entitas yang disebutkan, koreksi kesalahan, automl/autonlp, pembuatan teks |

Catatan Kata Kunci Bagian: Ringkasan Kertas, Kompendium, Daftar Luar Biasa
Ringkasan dan daftar mengagumkan tentang topik NLP:
- Indeks NLP - indeks yang dapat dicari dari makalah NLP oleh Quantum Stat / NLP Cypher
- NLP yang luar biasa oleh Keon [GitHub, 16528 Stars]
- Pidato dan Bahasa Alami Daftar Luar Biasa Oleh Elaboshira [GitHub, 2189 Stars]
- Pembelajaran mendalam yang luar biasa untuk pemrosesan bahasa alami (NLP) [GitHub, 1274 bintang]
- Teks Penambangan dan Sumber Daya Pemrosesan Bahasa Alami oleh Stepthom [GitHub, 557 Stars]
- Sumber Mantel untuk Penggemar #NLP oleh Philip Vollet
- Bagian AI/ML/DL yang Luar Biasa - NLP [GitHub, 1473 Stars]
- Artikel NLP oleh Devopedia
Konferensi NLP, ringkasan kertas dan ringkasan kertas:
Ringkasan Kertas dan Kertas
- 100 makalah NLP yang harus dibaca 100 makalah NLP yang harus dibaca [GitHub, 3732 bintang]
- Ringkasan Kertas NLP oleh Dair-Ai [GitHub, 1475 Stars]
- Koleksi makalah yang dikuratori untuk praktisi NLP [GitHub, 1075 bintang]
- Makalah tentang serangan permusuhan dan pertahanan tekstual [GitHub, 1501 bintang]
- Makalah Pembelajaran Deep Baru -baru ini di NLU dan RL oleh Valentin Malykh [GitHub, 296 Stars]
- Survei Survei (NLP & ML): Koleksi Makalah Survei NLP [GitHub, Stars 1997]
- Daftar kertas untuk transfer gaya dalam teks [GitHub, 1609 bintang]
- ? Indeks Rekaman Video untuk Makalah
Ringkasan Konferensi
- NLP Top 10 Conferences Compendium oleh Soulbliss [GitHub, 459 Stars]
- ? Tren ICLR 2020
- ? Konferensi Spacyirl 2019 dalam Tinjauan Umum
- ? Paper Digest - Konferensi dan Makalah Dalam Gambaran Umum
Tugas Kemajuan NLP dan NLP:
- Kemajuan NLP oleh Sebastianruder [GitHub, 22568 Bintang]
- Tugas NLP oleh Kyubyong [GitHub, 3017 Stars]
Dataset NLP:
- Dataset NLP oleh Niderhoff [GitHub, 5741 Stars]
- Dataset oleh HuggingFace [GitHub, 19096 Stars]
- Database NLP Buruk Besar
- UWA Anotasi Kata yang Tidak Berbingkai - Dataset Disambiguasi Sense Kata
- MLDOC - Corpus untuk klasifikasi dokumen multibahasa dalam delapan bahasa [GitHub, 152 bintang]
Embedding kata dan kalimat:
- Model Embedding Awesome oleh Hironsan [GitHub, 1752 Stars]
- Daftar Embeddings Kalimat yang Luar Biasa Oleh Varius [GitHub, 2219 Stars]
- Bert Awesome oleh Jiakui [GitHub, 1846 Stars]
Notebook, skrip, dan repositori
- Repo Super Duper NLP [Situs web, 2020]
Sumber daya dan ringkasan non-Inggris
- Sumber Daya NLP untuk Bahasa Indonesia [GitHub, 480 Bintang]
- Katalog indic NLP [GitHub, 552 bintang]
- Model bahasa pra-terlatih untuk orang Vietnam [GitHub, 653 bintang]
- Toolkit Bahasa Alami untuk Bahasa Indic (INLTK) [GitHub, 814 Stars]
- Perpustakaan Indic NLP [GitHub, 550 Stars]
- Portal ai4bharat-indicnlp
- ARBML - Implementasi banyak proyek NLP dan ML Arab [GitHub, 387 bintang]
- Zemberek -NLP - NLP Tools for Turki [GitHub, 1146 Stars]
- TDD AI - Platform sumber terbuka untuk semua set data Turki, model bahasa, dan alat NLP.
- Klue - Evaluasi Pemahaman Bahasa Korea [GitHub, 560 Bintang]
- Benchmark NLP Persia - Benchmark untuk evaluasi dan perbandingan berbagai tugas NLP dalam bahasa Persia [GitHub, 73 bintang]
- NLP -Yunani - Sumber Bahasa Yunani [GitHub, 5 Bintang]
- Sumber Daya NLP yang Luar Biasa untuk Hongaria [GitHub, 221 Bintang]
Model NLP pra-terlatih
- Daftar Model NLP Pra-Terlatih [GitHub, 170 Bintang]
- Model Bahasa Pretrained yang dikembangkan oleh Huawei Noah's Ark Lab [GitHub, 3019 Stars]
- Model dan Sumber Daya Bahasa Spanyol [GitHub, 251 Bintang]
Sejarah NLP
Umum
- Teknik pembelajaran mendalam modern diterapkan pada pemrosesan bahasa alami [GitHub, 1328 Stars]
- ? Tinjauan Sejarah Saraf Pemrosesan Bahasa Alami [Blog, Oktober 2018]
2020 tahun dalam ulasan
- ? Pemrosesan Bahasa Alami pada tahun 2020: Tahun di Tinjauan [Blog, Desember 2020]
- ? Sorotan Penelitian ML dan NLP tahun 2020 [Blog, Januari 2021]
? Kembali ke Daftar Isi
Podcast khusus NLP
- ? ️ NLP Sorotan [Tahun: 2017 - Sekarang, Status: Aktif]
- ? ️ The NLP Zone Episode [Tahun: 2021 - Sekarang, Status: Aktif]
Banyak episode NLP
- ? ️ Twiml AI [Tahun: 2016 - Sekarang, Status: Aktif]
- ? ️ Praktis AI [Tahun: 2018 - Sekarang, Status: Aktif]
- ? ️ Pertukaran data [Tahun: 2019 - Sekarang, Status: Aktif]
- ? ️ Dissent Gradient [Tahun: 2020 - Sekarang, Status: Aktif]
- ? ️ Machine Learning Street Talk [Tahun: 2020 - Sekarang, Status: Aktif]
- ? ️ DataFramed - Tren dan wawasan terbaru tentang cara skala dampak ilmu data dalam organisasi [Tahun: 2019 - Sekarang, Status: Aktif]
Beberapa episode NLP
- ? ️ Podcast Ilmu Data Super [Tahun: 2016 - Sekarang, Status: Aktif]
- ? ️ Data Hack Radio [Tahun: 2018 - Sekarang, Status: Aktif]
- ? ️ AI Game Changers [Tahun: 2020, Status: Aktif]
- ? ️ Analytics Show [Tahun: 2019 - Sekarang, Status: Aktif]
- ? Berita NLP oleh Sebastian Ruder
- ? Minggu ini di NLP oleh Robert Dale
- ? Makalah dengan kode
- ? Batch oleh deeplearning.ai
- ? Paper Digest oleh PaperDigest
- ? Nlp cypher oleh quantumstat
- ? NLP Zurich [Rekaman YouTube]
- ? Hacking-Machine-Learning [Rekaman YouTube]
- ? NY-NLP (New York)
- ? Yannic Kilcher
- ? Huggingface
- ? Kelompok Membaca Kaggle
- ? Membaca kertas Rasa
- ? Stanford CS224N: NLP dengan pembelajaran yang mendalam
- ? Nlpxing
- ? ML Dijelaskan - Lingkaran Sokrates AI - AISC
- ? Deeplearning.ai
- ? Pembicaraan Jalan Pembelajaran Mesin
? Kembali ke Daftar Isi
Jenderal NLU
- Lem - Benchmark Evaluasi Pemahaman Bahasa Umum (Lem)
- Superglue - Benchmark Styled After Glue dengan seperangkat tugas pemahaman bahasa yang lebih sulit
- Decanlp - Decathlon Bahasa Alami (Decanlp) untuk mempelajari model NLP umum
- Dialoglue - Dialoglue: Benchmark Pemahaman Bahasa Alami untuk Dialog Berorientasi Tugas [GitHub, 280 Bintang]
- Dynabench - Dynabench adalah platform penelitian untuk pengumpulan dan pembandingan data dinamis
- Big -Bench - Benchmark kolaboratif untuk mengukur dan mengekstrapolasi kemampuan model bahasa [GitHub, 2835 bintang]
Peringkasan
- Wikiasp-Wikiasp: Dataset Ringkasan Berbasis Aspek Multi-Dokumen
- Wikilingua - Dataset Ringkasan Abstrak Multilingual
Pertanyaan menjawab
- Skuad - Stanford Pertanyaan menjawab Dataset (Skuad)
- XQUAD-XQUAD (Dataset Penjawab Pertanyaan Cross-Lingual) untuk menjawab pertanyaan lintas-bahasa
- Grailqa - Penjawab pertanyaan yang sangat digeneralisasikan (Grailqa)
- CSQA - Jawaban pertanyaan berurutan yang kompleks
Tolok ukur multibahasa dan non-Inggris
- ? Xtreme - Benchmark multi -tugas multibahasa
- Gluecos - Benchmark untuk NLP yang dipecat kode
- Indicglue - Benchmark Pemahaman Bahasa Alami untuk Bahasa Indic
- Benchmark Evaluasi Pengalihan Kode Linguistik
- Superglue Rusia - Benchmark Superglue Rusia
Bio, hukum, dan domain ilmiah lainnya
- Blurb - Pemahaman Bahasa Biomedis dan Tolok Ukur Penalaran
- Benchmark evaluasi pemahaman bahasa biomedis biru
- LEXGLUE - Dataset Benchmark untuk Pemahaman Bahasa Hukum dalam Bahasa Inggris
Efisiensi transformator
- Arena Jangka Panjang-Arena Jangka Panjang untuk Benchmarking Efficient Transformers (Pra-Print) [GitHub, 716 Stars]
Pemrosesan bicara
- Benchmark kinerja universal pemrosesan ucapan yang luar biasa
Lainnya
- Codexglue - Dataset Benchmark untuk Intelijen Kode
- Crossner - Crossner: Mengevaluasi Cross -Domain Bernama Pengenalan Entitas
- Multinli - Multi -Genre Natural Language Inference Corpus
- Isarcasm: Dataset sarkasme yang dimaksud - isarcasm adalah dataset tweet, masing -masing diberi label sebagai sarkastik atau non_sarcastic
? Kembali ke Daftar Isi
Umum
- ? Resep untuk melatih jaringan saraf oleh Andrej Karpathy [Kata kunci: Penelitian, Pelatihan, 2019]
- ? Kemajuan terbaru dalam NLP melalui model bahasa pra-terlatih besar: survei [kertas, November 2021]
Embeddings
Repositori
- Representasi Elmo yang terlatih untuk banyak bahasa [GitHub, 1458 bintang]
- SENSE2VEC - Vektor kata keyed kontekstual [GitHub, 1617 bintang]
- wikipedia2vec [github, 935 bintang]
- Starspace [GitHub, 3938 bintang]
- FastText [GitHub, 25871 Stars]
Blog
- ? Model Bahasa dan Embeddings Kata Kontekstual Oleh David S. Batista [Blog, 2018]
- ? Panduan penting untuk embeddings kata pretrained untuk praktisi NLP oleh Analyticsvidhya [Blog, 2020]
- ? Polyglot Word Embeddings Temukan Cluster Bahasa [Blog, 2020]
- ? The Illustrated Word2Vec oleh Jay Alammar [Blog, 2019]
Kata-kata lintas-bahasa dan kalimat embeddings
- Vecmap - Vecmap (pemetaan embedding kata lintas -bahasa) [GitHub, 644 Stars]
- Kalimat -Transformers - Kalimat Multilingual & Embeddings Image With Bert [GitHub, 14981 Stars]
Pengkodean pasangan byte
- BPEMB-Embeddings subword pra-terlatih dalam 275 bahasa, berdasarkan byte-pair encoding (BPE) [GitHub, 1179 Stars]
- Subword -NMT - Segmentasi kata tanpa pengawasan untuk terjemahan mesin saraf dan pembuatan teks [GitHub, 2185 Stars]
- Python -BPE - Byte Pair Encode untuk Python [GitHub, 223 Stars]
Arsitektur berbasis transformator
Umum
- ? Keluarga Transformer oleh Lilian Weng [Blog, 2020]
- ? Bermain lotre dengan hadiah dan beberapa bahasa - tentang efek inisialisasi acak [kertas ICLR 2020]
- ? Perhatian? Perhatian! Oleh Lilian Weng [Blog, 2018]
- ? Transformer ... "dijelaskan"? [Blog, 2019]
- ? ️ Perhatian yang Anda butuhkan; Model Jaringan Saraf Attential oleh łukasz Kaiser [Talk, 2017]
- ? Perhatian dibatalkan oleh satu [Juli, 2023]
- ? ️ Memahami dan menerapkan perhatian diri untuk NLP [Talk, 2018]
- ? The NLP Cookbook: Resep Modern untuk Arsitektur Pembelajaran Deep Transformer [Paper, April 2021]
- ? Model Pra-Terlatih: Masa Lalu, Sekarang dan Masa Depan, Juni 2021]
- ? Survei Transformers [Paper, Juni 2021]
Transformator
- ? Transformator beranotasi oleh Harvard NLP [Blog, 2018]
- ? Transformer Illustrated oleh Jay Alammar [Blog, 2018]
- ? Panduan Ilustrasi untuk Transformers oleh Hong Jing [Blog, 2020]
- ? Transformator berurutan dengan rentang perhatian adaptif oleh Facebook. Blog [Blog, 2019]
- ? Evolusi Representasi dalam Transformer oleh Lena Voita [Blog, 2019]
- ? Reformer: Transformator yang efisien [Blog, 2020]
- ? Longformer-Transformator Dokumen Long oleh Viktor Karlsson [Blog, 2020]
- ? Transformers From Scratch [Blog, 2019]
- ? Transformers dalam Pemrosesan Bahasa Alami - Survei singkat oleh George Ho [Blog, Mei 2020]
- Lite Transformer - Lite Transformer dengan Perhatian Rentang Long Short [GitHub, 596 Stars]
- ? Transformers From Scratch [Blog, Okt 2021]
Bert
- ? Panduan Visual untuk Menggunakan Bert untuk pertama kalinya oleh Jay Alammar [Blog, 2019]
- ? The Dark Secrets of Bert oleh Anna Rogers [Blog, 2020]
- ? Memahami pencarian lebih baik dari sebelumnya [Blog, 2019]
- ? Demystifying Bert: Panduan komprehensif untuk kerangka kerja NLP yang inovatif [Blog, 2019]
- Sembt - Semantik -Sehat untuk Pemahaman Bahasa [GitHub, 286 Bintang]
- Bertweet - Bertweet: Model Bahasa Pra -Terlatih untuk Tweet Bahasa Inggris [GitHub, 574 Stars]
- Ekstraksi Subarkitektur Optimal untuk Bert [GitHub, 470 Bintang]
- Characterbert: Rekonsiliasi Elmo dan Bert [GitHub, 195 Stars]
- ? Saat Bert memainkan lotre, semua tiket menang [Blog, Desember 2020]
- Makalah Terkait Bert Daftar kertas terkait Bert [GitHub, 2032 Stars]
Varian transformator lainnya
T5
- ? T5 Pemahaman Arsitektur yang Berbasis sendiri Berbasis Transformer [Blog, Agustus 2020]
- ? T5: Transfer transfer teks-ke-teks [Blog, 2020]
- Multilingual-T5-Multilingual T5 (MT5) adalah model transformator teks-ke-teks multibahasa pretriual [GitHub, 1245 Stars]
Bigbird
- ? Big Bird: Transformers for Lama Urutan Makalah Asli oleh Google Research [Paper, Juli 2020]
Reformer / Linformer / Longformer / Performers
- ? ️ Reformer: Transformator yang efisien - [Paper, Februari 2020] [Video, Oktober 2020]
- ? ️ Longformer: Transformator Dokumen Panjang - [Paper, April 2020] [Video, April 2020]
- ? ️ Linformer: Perhatian diri dengan kompleksitas linier - [Paper, Juni 2020] [Video, Juni 2020]
- ? ️ Memikirkan kembali perhatian dengan pemain - [Paper, September 2020] [Video, September 2020]
- Performer-Pytorch-Implementasi Performer, Transformator Berbasis Perhatian Linier, di Pytorch [GitHub, 1084 Stars]
Switch Transformer
- ? Switch Transformers: Scaling to Triliun Model Parameter Kertas Asli oleh Google Research [Paper, Januari 2021]
GPT-keluarga
Umum
- ? The Illustrated GPT-2 oleh Jay Alammar [Blog, 2019]
- ? GPT-2 beranotasi oleh Aman Arora
- ? Openai's GPT-2: The Model, The Hype, dan The Controversy oleh Ryan Lowe [Blog, 2019]
- ? Cara Menghasilkan Teks oleh Patrick von Platen [Blog, 2020]
GPT-3
Sumber Belajar
- ? Nol Shot Learning untuk Klasifikasi Teks oleh Amit Chaudhary [Blog, 2020]
- ? GPT-3 Ringkasan singkat oleh Leo Gao [Blog, 2020]
- ? GPT-3, Langkah Raksasa untuk Pembelajaran Deep dan NLP oleh Yoel Zeldes [Blog, Juni 2020]
- ? Model Bahasa GPT-3: Tinjauan Teknis oleh Chuan Li [Blog, Juni 2020]
- ? Apakah mungkin bagi model bahasa untuk mencapai pemahaman bahasa? oleh Christopher Potts
Aplikasi
- GPT-3 yang luar biasa-Daftar semua sumber daya yang terkait dengan GPT-3 [GitHub, 4589 Stars]
- Proyek GPT-3-Peta semua start-up GPT-3 dan proyek komersial
- GPT-3 Demo Showcase-GPT-3 Demo Showcase, 180+ Aplikasi, Contoh, & Sumber Daya
- ? OpenAI API - Demo API untuk menggunakan OpenAI GPT untuk aplikasi komersial
Upaya open-source
- ? GPT-NEO-HUB HUB REPLIKASI SUMBER OPEN SUMBER-MEMBUAT
- GPT -J - Parameter 6 miliar, model generasi teks autoregresif yang dilatih di tumpukan
- ? Secara efektif menggunakan GPT-J dengan beberapa pembelajaran [Blog, Juli 2021]
Lainnya
- ? Apa itu perhatian dua aliran di XLNET oleh Xu Liang [Blog, 2019]
- ? Ringkasan Kertas Visual: Albert (A Lite Bert) oleh Amit Chaudhary [Blog, 2020]
- ? Turing NLG oleh Microsoft
- ? Klasifikasi teks multi-label dengan XLNET oleh Josh Xin Jie Lee [Blog, 2019]
- Electra [GitHub, 2326 bintang]
- Pelaku Implementasi Performer, transformator berbasis perhatian linier, di Pytorch [GitHub, 1084 Stars]
Distilasi, pemangkasan dan kuantisasi
Bahan bacaan
- ? Pengetahuan Distilling dari Neural Networks untuk membangun model yang lebih kecil dan lebih cepat oleh FloyDhub [Blog, 2019]
- ? Kompresi model pembelajaran mendalam untuk teks: survei [kertas, April 2021]
Peralatan
- Bert-Squeeze-Kode untuk mengurangi ukuran model berbasis transformator atau mengurangi latensi mereka pada waktu inferensi [GitHub, 79 bintang]
- Xtremedistil - xtremedistiltransformers untuk menyuling jaringan saraf multibahasa besar -besaran [GitHub, 153 bintang]
Ringkasan Otomatis
- ? Pegasus: Model canggih untuk ringkasan teks abstraktif oleh Google AI [Blog, Juni 2020]
- Ctrlsum - Ctrlsum: Menuju Ringkasan Teks yang Dapat Dikontrol Generik [GitHub, 146 Bintang]
- XL-SUM-XL-SUM: Ringkasan abstraktif multibahasa skala besar untuk 44 bahasa [GitHub, 252 bintang]
- SummerTime-Perangkat Ringkasan Teks Sumber Terbuka untuk Non-Ekspert [GitHub, 265 Stars]
- Primer-Primer: Kalimat Berbasis Piramida Pra-pelatihan untuk ringkasan multi-dokumen [GitHub, 151 bintang]
- Summarus - Model untuk Ringkasan Abstraktif Otomatis [GitHub, 170 Bintang]
Grafik Pengetahuan dan NLP
- ? Menggabungkan pengetahuan ke dalam model bahasa [presentasi, Okt 2021]
Catatan Kata Kunci Bagian: Praktik Terbaik, MLOPS
? Kembali ke Daftar Isi
Praktik terbaik untuk membangun proyek NLP
- ? Dalam mencari praktik terbaik untuk proyek NLP [Slide, Desember 2020]
- ? EMNLP 2020: Pemrosesan Bahasa Alami Kinerja Tinggi oleh Google Research, Recording, November 2020]
- ? Pemrosesan Bahasa Alami Praktis - Panduan Komprehensif untuk Membangun Sistem NLP Dunia Nyata [Buku, Juni 2020]
- ? Cara menyusun dan mengelola proyek NLP [Blog, Mei 2021]
- ? Berpikir NLP Terapan - Berpikir NLP Terapan: Cara Menerjemahkan Masalah ke Solusi [Blog, Juni 2021]
- ? Pengantar NLP untuk Penggunaan Industri - Presentasi DatatalkSClub tentang Pengantar NLP untuk Penggunaan Industri [Recording, Desember 2021]
- ? Mengukur Drift Embedding - Praktik Terbaik untuk Memantau Penyimpanan Model NLP [Blog, Desember 2022]
MLOP untuk NLP
MLOPS, terutama ketika diterapkan pada NLP, adalah serangkaian praktik terbaik di sekitar mengotomatisasi berbagai bagian alur kerja saat membangun dan menggunakan jaringan pipa NLP.
Secara umum, MLOP untuk NLP termasuk memiliki proses berikut:
- Versi Data - Pastikan Pelatihan, Anotasi, dan Jenis Data Anda Diversi dan Dilacak
- Pelacakan Eksperimen - Pastikan semua percobaan Anda secara otomatis dilacak dan disimpan di mana mereka dapat dengan mudah direplikasi atau ditarik kembali
- Model Registry - Pastikan setiap model saraf yang Anda latih diversi dan dilacak dan mudah untuk kembali ke salah satu dari mereka
- Pengujian Otomatis dan Pengujian Perilaku - Selain unit reguler dan tes integrasi, Anda ingin melakukan tes perilaku yang memeriksa bias atau potensi serangan permusuhan
- Penyebaran dan penyajian model - Penyebaran model otomat, idealnya juga dengan penyebaran zero -downtime seperti biru/hijau, penyebaran kenari dll.
- DATA DAN MODEL Observabilitas - melacak penyimpangan data, penyimpangan akurasi model dll.
Selain itu, ada dua komponen lagi yang tidak lazim untuk NLP dan sebagian besar digunakan untuk visi komputer dan sub-bidang AI lainnya:
- Toko fitur - penyimpanan terpusat dari semua fitur yang dikembangkan untuk model ML daripada yang dapat dengan mudah digunakan kembali oleh proyek ML lainnya
- Manajemen Metadata - Penyimpanan untuk semua informasi yang terkait dengan penggunaan model ML, terutama untuk mereproduksi perilaku model ML yang digunakan, pelacakan artefak dll.
Kompilasi MLOPS & Daftar Luar Biasa
- Awesome-Mlops [GitHub, 12526 Stars]
- Best-of-Ml-Python [GitHub, 16309 Stars]
- Mlops.toys - Daftar proyek MLOPS yang dikuratori
Bahan bacaan
- ? Operasi Pembelajaran Mesin (MLOPS): Tinjauan Umum, Definisi, dan Arsitektur [Kertas, Mei 2022]
- ? Persyaratan dan Referensi Arsitektur untuk MLOPS: Wawasan dari Industri [Kertas, Okt 2022]
- ? MLOPS: Apa itu, mengapa itu penting, dan bagaimana mengimplementasikannya oleh Neptunus AI [Blog, Juli 2021]
- ? Alat MLOPS Terbaik yang Perlu Anda Ketahui Sebagai Ilmuwan Data oleh Neptunus AI [Blog, Juli 2021]
- ? State of Mlops 2021 oleh Valohai [Blog, Agustus 2021]
- ? The Mlops Stack by Valohai [Blog, Oktober 2020]
- ? Kontrol Versi Data untuk Aplikasi Pembelajaran Mesin oleh Megagon AI [Blog, Juli 2021]
- ? Evolusi cepat dari tumpukan kanonik untuk pembelajaran mesin [Blog, Juli 2021]
- ? MLOPS: Panduan Pemula Komprehensif [Blog, Maret 2021]
- ? Apa yang saya pelajari tentang MLOPS dari berbicara dengan 100+ ml Praktisi [Blog, Mei 2021]
- ? Model Challenger Datasobot - Mlops Champion/Challenger Model
- ? State of MLOPS Blog oleh Dr. Ori Cohen
- ? Tinjauan Ekosistem MLOPS [Blog, 2021]
Materi belajar
- ? Cource mlops by made with ml
- ? GitHub MLOPS - Kumpulan Sumber Daya Tentang Cara Memfasilitasi Ops Pembelajaran Mesin Dengan GitHub
- ? Kursus Fundamental Observabilitas ML Pelajari cara memantau dan menyebabkan masalah akar dengan model NLP produksi
Komunitas MLOPS
- Komunitas MLOPS - Blog, Slack Group, Newsletter, dan lainnya tentang MLOPS
Versi Data
- DVC - Kontrol Versi Data (DVC) melacak model ML dan set data [Sumber Gratis dan Terbuka] ke GitHub
- ? Bobot & Bias - Alat untuk Pelacakan Eksperimen dan Versi Dataset [Layanan berbayar]
- ? Pachyderm-Kontrol Versi untuk Data dengan alat untuk membangun pipa ML/AI end-to-end yang dapat diskalakan [layanan berbayar dengan tingkat gratis]
Pelacakan Eksperimen
- MLFLOW - Platform Sumber Terbuka untuk Tautan Pembelajaran Mesin [Gratis dan Sumber Terbuka] ke GitHub
- ? Bobot & Bias - Alat untuk Pelacakan Eksperimen dan Versi Dataset [Layanan berbayar]
- ? Neptunus AI - Pelacakan Eksperimen dan Model Registry Dibangun untuk Tim Penelitian dan Produksi [Layanan berbayar]
- ? COMET ML - Memungkinkan para ilmuwan dan tim data untuk melacak, membandingkan, menjelaskan, dan mengoptimalkan eksperimen dan model [layanan berbayar]
- ? SIGOPT - Otomatis Pelatihan & Tuning, Visualisasikan & Bandingkan Berjalan [Layanan berbayar]
- Optuna - Kerangka Optimalisasi Hyperparameter [GitHub, 10650 Stars]
- Clear ML - Eksperimen, Orkestra, Menyebarkan, dan Membangun Simpan Data, semuanya di satu tempat [Sumber Gratis dan Terbuka] Tautan ke GitHub
- Metaflow-Perpustakaan Python/R yang ramah manusia yang membantu para ilmuwan dan insinyur membangun dan mengelola proyek ilmu data kehidupan nyata [GitHub, 8093 Stars]
Model Registry
- DVC - Kontrol Versi Data (DVC) melacak model ML dan set data [Sumber Gratis dan Terbuka] ke GitHub
- MLFLOW - Platform Sumber Terbuka untuk Tautan Pembelajaran Mesin [Gratis dan Sumber Terbuka] ke GitHub
- ModelDB - Sistem Open -Source untuk Versi Model Pembelajaran Mesin, Metadata, dan Manajemen Eksperimen [GitHub, 1696 Stars]
- ? Neptunus AI - Pelacakan Eksperimen dan Model Registry Dibangun untuk Tim Penelitian dan Produksi [Layanan berbayar]
- ? Valohai-Pipa ML End-to-End [Layanan berbayar]
- ? Pachyderm-Kontrol Versi untuk Data dengan alat untuk membangun pipa ML/AI end-to-end yang dapat diskalakan [layanan berbayar dengan tingkat gratis]
- ? Polyaxon - Reproduksi, Otomatis, dan Skala Alur Kerja Ilmu Data Anda dengan Alat MLOPS MLOPS Produksi [Layanan berbayar]
- ? COMET ML - Memungkinkan para ilmuwan dan tim data untuk melacak, membandingkan, menjelaskan, dan mengoptimalkan eksperimen dan model [layanan berbayar]
Pengujian otomatis dan pengujian perilaku
- Daftar Periksa - Beyond Accuracy: Pengujian Perilaku Model NLP [GitHub, 2003 Stars]
- TextAttack - Kerangka kerja untuk serangan permusuhan, augmentasi data, dan pelatihan model di NLP [GitHub, 2922 bintang]
- WildNLP - Korupsi Teks Input untuk Menguji Kokoh Model NLP [GitHub, 76 Stars]
- Ekspektasi Hebat - Tulis Tes untuk Data Anda [GitHub, 9874 Stars]
- DeepChecks - Paket Python untuk secara komprehensif memvalidasi model pembelajaran mesin Anda dan data [GitHub, 3582 Stars]
Model penyebaran dan porsi
- MLFLOW - Platform Sumber Terbuka untuk Tautan Pembelajaran Mesin [Gratis dan Sumber Terbuka] ke GitHub
- ? Amazon Sagemaker [layanan berbayar]
- ? Valohai-Pipa ML End-to-End [Layanan berbayar]
- ? NLP Cloud - NLP API yang siap diproduksi [Layanan berbayar]
- ? Cloud Saturnus [Layanan berbayar]
- ? Seldon - Penyebaran Pembelajaran Mesin untuk Perusahaan [Layanan berbayar]
- ? COMET ML - Memungkinkan para ilmuwan dan tim data untuk melacak, membandingkan, menjelaskan, dan mengoptimalkan eksperimen dan model [layanan berbayar]
- ? Polyaxon - Reproduksi, Otomatis, dan Skala Alur Kerja Ilmu Data Anda dengan Alat MLOPS MLOPS Produksi [Layanan berbayar]
- Torchserve - Alat yang fleksibel dan mudah digunakan untuk menyajikan model Pytorch [GitHub, 4174 Stars]
- ? Kubeflow - Toolkit Pembelajaran Mesin untuk Kubernetes [GitHub, 10600 Stars]
- KfServing - Insferencing Tanpa Server di Kubernetes [GitHub, 3504 Stars]
- ? TFX - TensorFlow Extended - Platform End -to -End untuk Menyebarkan Pipa Produksi ML [Layanan berbayar]
- ? Pachyderm-Kontrol Versi untuk Data dengan alat untuk membangun pipa ML/AI end-to-end yang dapat diskalakan [layanan berbayar dengan tingkat gratis]
- ? Cortex - Kontainer sebagai Layanan di AWS [Layanan berbayar]
- ? Pembelajaran Mesin Azure-Siklus Hidup Pembelajaran Mesin End-to-End [Layanan berbayar]
- End2end Transformersless Transformers di AWS Lambda [GitHub, 121 Stars]
- NLP -Service - Sampel demo NLP sebagai platform layanan yang dibangun menggunakan Fastapi dan Face Hugging [GitHub, 13 Stars]
- ? Dagster - Orchestrator Data untuk Pembelajaran Mesin [Sumber Gratis dan Terbuka]
- ? VERTA - AI dan Penyebaran dan Operasi Pembelajaran Mesin [Layanan berbayar]
- Metaflow-Perpustakaan Python/R yang ramah manusia yang membantu para ilmuwan dan insinyur membangun dan mengelola proyek ilmu data kehidupan nyata [GitHub, 8093 Stars]
- Flyte - Platform Otomasi Workflow untuk Data yang Kompleks, Misi Kritis dan Proses ML pada Skala [GitHub, 5525 Stars]
- MLRUN - Otomatisasi dan Pelacakan Pembelajaran Mesin [GitHub, 1425 Stars]
- ? MLOPS DATAROBOT - Datasobot MLOPS menyediakan pusat keunggulan untuk AI produksi Anda
Model debugging
- Imodel - Paket untuk pemodelan prediksi yang ringkas, transparan, dan akurat [GitHub, 1375 bintang]
- Kokpit - Alat Debugging Praktis untuk Melatih Jaringan Saraf Deep [GitHub, 474 Stars]
Prediksi akurasi model
- Weightwatcher - alat weightwatcher untuk memprediksi keakuratan jaringan saraf dalam [GitHub, 1453 bintang]
DATA DAN MODEL Observabilitas
Umum
- ARIZE AI - Menyematkan pemantauan drift untuk model NLP
- Arize -Phoenix - ML Observability untuk LLM, Visi, Bahasa, dan Model Tabular
- Whylogs - Standar Open Source untuk Data dan Logging ML [GitHub, 2636 Stars]
- Rubrix - Alat sumber terbuka untuk mengeksplorasi dan iterasi pada data untuk proyek kecerdasan buatan [GitHub, 3843 Stars]
- MLRUN - Otomatisasi dan Pelacakan Pembelajaran Mesin [GitHub, 1425 Stars]
- ? MLOPS DATAROBOT - Datasobot MLOPS menyediakan pusat keunggulan untuk AI produksi Anda
- ? Cortex - Kontainer sebagai Layanan di AWS [Layanan berbayar]
Model Centric
- ? Algoritmia - Minimalkan risiko dengan pelaporan lanjutan dan keamanan dan tata kelola tingkat perusahaan di semua data, model, dan infrastruktur [layanan berbayar]
- ? Dataiku - Dataiku adalah untuk tim yang ingin memberikan analitik canggih menggunakan teknik terbaru di Big Data Scale [Layanan berbayar]
- Jelas AI - alat untuk menganalisis dan memantau model pembelajaran mesin [gratis dan open source] link ke github
- ? Fiddler - Alat manajemen kinerja model ML [layanan berbayar]
- ? Hydrosphere - Platform Sumber Terbuka untuk Mengelola Model ML [Layanan berbayar]
- ? VERTA - AI dan Penyebaran dan Operasi Pembelajaran Mesin [Layanan berbayar]
- ? Domino Model Ops - Menyebarkan dan mengelola model untuk mendorong dampak bisnis [layanan berbayar]
Data Centric
- ? DataFold - Kualitas Data Melalui Diffs, Profiling, dan Deteksi Anomali [Layanan berbayar]
- ? Acceldata - Tingkatkan keandalan, skala akselerasi, dan mengurangi biaya di semua pipa data [Layanan berbayar]
- ? BigYEYE - Pemantauan dan Peringatan untuk Dataset Anda Dalam Menit [Layanan berbayar]
- ? Datakin-Solusi garis keturunan data akhir-ke-ujung, waktu real-time [Layanan berbayar]
- ? Monte Carlo - Integritas Data, Drifts, Skema, Lineage [Layanan berbayar]
- ? Soda - Pemantauan Data, Pengujian dan Validasi [Layanan berbayar]
Toko fitur
- ? Tecton - Toko Fitur Perusahaan untuk Pembelajaran Mesin [Layanan berbayar]
- Pesta - Toko Fitur Open Source Untuk Situs Web Pembelajaran Mesin [GitHub, 5525 Stars]
- ? Toko Fitur Hopsworks - Sistem Manajemen Data untuk Mengelola Fitur Pembelajaran Mesin [Layanan berbayar]
Manajemen Metadata
- ML Metadata - Perpustakaan untuk merekam dan mengambil metadata yang terkait dengan pengembang ML dan alur kerja ilmuwan data [GitHub, 617 Stars]
- ? Neptunus AI - Pelacakan Eksperimen dan Model Registry Dibangun untuk Tim Penelitian dan Produksi [Layanan berbayar]
Kerangka kerja MLOPS
- Metaflow-Perpustakaan Python/R yang ramah manusia yang membantu para ilmuwan dan insinyur membangun dan mengelola proyek ilmu data kehidupan nyata [GitHub, 8093 Stars]
- KEDRO - Python Framework untuk membuat kode sains data yang dapat direproduksi, dapat dipelihara dan modular [GitHub, 9883 Stars]
- Seldon Core - Kerangka MLOPS untuk mengemas, menggunakan, memantau dan mengelola ribuan model pembelajaran mesin produksi [GitHub, 4353 Stars]
- ZenML - MLOPS Framework Untuk membuat jaringan pipa ML yang dapat direproduksi untuk pembelajaran mesin produksi [GitHub, 3972 bintang]
- ? Google Vertex AI - Build, Deploy, dan Scale ML Model Lebih Cepat, dengan Perangkat Pra -Terlatih dan Kustom Dalam Platform AI Terpadu [Layanan berbayar]
- DiffGram - Platform Data Pelatihan Lengkap untuk Pembelajaran Mesin Disampaikan sebagai aplikasi tunggal [GitHub, 1834 Stars]
- ? Continual.ai - Membangun, menggunakan, dan mengoperasionalkan model ML lebih mudah dan lebih cepat dengan antarmuka deklaratif pada gudang data cloud seperti kepingan salju, BigQuery, Redshift, dan databricks. [Layanan berbayar]
Arsitektur berbasis transformator
? Kembali ke Daftar Isi
Umum
- ? Mengapa Bert Gagal di Lingkungan Komersial oleh Intel AI [Blog, 2020]
- ? Fine Tuning Bert untuk Klasifikasi Teks dengan Farm oleh Sebastian Guggisberg [Blog, 2020]
- Model Pretrain Transformers di Pytorch menggunakan memeluk Face Transformers [GitHub, 254 Stars]
- ? ️ NLP Praktis untuk Dunia Nyata [Presentasi, 2019]
- ? ️ Dari kertas ke produk - bagaimana kami mengimplementasikan Bert oleh Christoph Henkelmann [Talk, 2020]
Transformator multi-GPU
- Parallelformers: Toolkit paralelisasi model yang efisien untuk penempatan [GitHub, 776 bintang]
Transformer pelatihan secara efektif
- Pelatihan Bert dengan anggaran komputasi/waktu (akademik) [GitHub, 309 bintang]
Embeddings sebagai layanan
- Embedding-as-Service [GitHub, 204 Stars]
- Bert-as-service [GitHub, 12399 Stars]
Resep NLP Aplikasi Industri:
- Resep NLP oleh Microsoft [GitHub, 6367 Stars]
- NLP dengan Python oleh Susanli2016 [GitHub, 2721 Stars]
- Utilitas Dasar untuk Pytorch NLP oleh Petrochukm [GitHub, 2210 Stars]
Aplikasi NLP di Bio, Keuangan, Legal dan Industri Lainnya
- Blackstone - Pipa dan Model Spacy untuk NLP tentang Teks Hukum Tidak Terstruktur [GitHub, 636 Stars]
- SCI Spacy - Pipa Spacy dan Model untuk Dokumen Ilmiah/Biomedis [GitHub, 1688 Stars]
- Finbert: Pra-terlatih tentang pengarsipan SEC untuk tugas NLP keuangan [GitHub, 197 Stars]
- LEXNLP - Pengambilan Informasi dan Ekstraksi untuk Teks Hukum Nyata dan Tidak Terstruktur [GitHub, 692 Stars]
- NERDL DAN NERCRF - Tutorial tentang Pengakuan Entitas yang Dinamai untuk Kesehatan dengan SparkNLP
- Analisis Teks Hukum - Daftar Sumber Daya Terpilih yang Didedikasikan untuk Analisis Teks Hukum [GitHub, 613 Stars]
- Bioie - Daftar sumber daya yang dikuratori yang relevan dengan melakukan ekstraksi informasi biomedis [GitHub, 338 bintang]
Catatan Kata Kunci Bagian: Pengenalan Pidato
? Kembali ke Daftar Isi
Pengakuan ucapan umum
- WAV2LETTER - Toolkit Pengenalan Pidato Otomatis [GitHub, 6370 Stars]
- Deepspeech - Arsitektur Deepspeech Baidu [GitHub, 25166 Bintang]
- ? Embeddings Kata Akustik Oleh Maria Obedkova [Blog, 2020]
- Kaldi - Kaldi adalah toolkit untuk pengenalan suara [GitHub, 14177 Stars]
- Awesome -Kaldi - Sumber Daya untuk Menggunakan Kaldi [GitHub, 532 Stars]
- ESPNET-Toolkit Pemrosesan Pidato End-to-End [GitHub, 8355 Stars]
- ? HUBERT - Pembelajaran Representasi yang Di -swadaya untuk pengenalan suara, generasi, dan kompresi [Blog, Juni 2021]
Teks untuk pembuatan pidato / bicara
- FastSpeech - Implementasi FastSpeech berdasarkan Pytorch [GitHub, 857 Stars]
- TTS-Toolkit Pembelajaran yang mendalam untuk Teks-ke-Pidato [GitHub, 34356 Stars]
- ? Notebooklm - Google Gemini Powered Pribadi Assistant / Podcast Generator
Pidato untuk teks
- Whisper - Pengenalan Pidato yang Kuat melalui Pengawasan Lemah Skala Besar, oleh Openai [GitHub, 68884 Stars]
- VIBE - GUI Tool untuk bekerja dengan dukungan Whisper, Multilingual dan CUDA termasuk [GitHub, 931 Stars]
Kumpulan data
- VOXPOPULI - Corpus pidato multibahasa skala besar untuk pembelajaran representasi [GitHub, 507 bintang]
Catatan Kata Kunci Bagian: Pemodelan Topik
? Kembali ke Daftar Isi
Blog
- ? Pemodelan Topik dengan Pyspark dan Spark NLP oleh Maria Obedkova [Spark, Blog, 2020]
- ? Pendekatan unik untuk pengelompokan teks pendek (teori algoritmik) oleh Brittany Bowers [Blog, 2020]
Kerangka kerja untuk pemodelan topik
- GENSIM - Kerangka kerja untuk pemodelan topik [GitHub, 15597 bintang]
- Spark NLP [GitHub, 3826 bintang]
Repositori
- Top2Vec [GitHub, 2924 Stars]
- Penjelasan korelasi yang berlabuh Pemodelan topik [GitHub, 303 bintang]
- Pemodelan Topik di SPACE ELITSIDDING [GITHUB, 540 Bintang] Kertas
- TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Further Reading
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
Umum
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
Tujuan umum
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Fonetik
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morfologi
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Machine Translation
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
Jepang
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
Thai
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
Cina
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
Ukrainian
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Lainnya
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
Umum
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Kursus
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Buku
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Tutorial
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Ekstraksi relasi
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Coreference Resolution
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Analisis sentimen
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Pembuatan teks
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
Sumber daya
- All linked resources belong to original authors
Icons
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Font
The Pandect Series also includes