
Dieser Pandekt (πανδέκτης ist altes Griechisch für Enzyklopädie) wurde erstellt, um fast alles zu finden, was online verfügbar ist.
Beachten Sie die schnelle Legende für verfügbare Ressourcentypen:
- Open Source -Projekt, normalerweise ein Github -Repository mit seiner Anzahl von Sternen
? - Ressource, die Sie lesen können, normalerweise einen Blog -Beitrag oder ein Papier
- Eine Sammlung zusätzlicher Ressourcen
? - Nicht geöffneter Quellwerkzeug, Framework oder bezahlter Dienst
? ️ - Eine Ressource, die Sie sehen können
? Euen - eine Ressource, die Sie hören können
| ? Hauptabschnitt | ️ Unterabschnitt Stichprobe |
|---|
| NLP -Ressourcen | Papierzusammenfassungen, Konferenzzusammenfassungen, NLP -Datensätze |
| NLP -Podcasts | Podcasts nur NLP, Podcasts mit vielen NLP-Episoden |
| NLP -Newsletter | - - |
| NLP -Meetups | - - |
| NLP YouTube -Kanäle | - - |
| NLP -Benchmarks | Allgemeines NLU, Fragenbeantwortung, Mehrsprachige |
| Forschungsressourcen | Ressource zu Transformatormodellen, Destillation und Beschneiden, automatisierte Zusammenfassung |
| Branchenressourcen | Best Practices für NLP -Systeme, MLOPS für NLP |
| Spracherkennung | Allgemeine Ressourcen, Text zu Sprache, Sprache zum Text, Datensätze |
| Themenmodellierung | Blogs, Frameworks, Repositorys und Projekte |
| Keyword -Extraktion | Textrang, Rake, andere Ansätze |
| Verantwortungsbewusstes NLP | NLP- und ML -Interpretierbarkeit, Ethik, Voreingenommenheit und Gleichheit in NLP, widersprüchliche Angriffe für NLP |
| NLP -Frameworks | Allgemeine Zweck, Datenerweiterung, maschinelle Übersetzung, kontroverse Angriffe, Dialogsysteme & Sprache, Entität und String-Matching, nicht englische Frameworks, Textanmerkungen |
| NLP lernen | Kurse, Bücher, Tutorials |
| NLP -Gemeinschaften | - - |
| Andere NLP -Themen | Tokenisierung, Datenerweiterung, Bezeichnung Entitätserkennung, Fehlerkorrektur, Automl/autonlp, Textgenerierung |

Hinweis Abschnitt Schlüsselwörter: Papierzusammenfassungen, Kompendium, großartige Liste
Kompendien und großartige Listen zum Thema NLP:
- Der NLP -Index - durchsuchbare Index von NLP -Papieren nach Quantenstat / NLP -Cypher
- Awesome NLP von Keon [Github, 16528 Sterne]
- Sprach- und natürliche Sprachverarbeitung fantastische Liste von Eaboshira [Github, 2189 Sterne]
- Awesome Deep Learning for Natural Language Processing (NLP) [Github, 1274 Sterne]
- Textmining und Ressourcen für natürliche Sprachverarbeitung nach StepThom [Github, 557 Sterne]
- Brainsources für #NLP -Enthusiasten von Philip Vollet
- Awesome AI/ML/DL - NLP -Abschnitt [GitHub, 1473 Sterne]
- NLP -Artikel von Devopedia
NLP -Konferenzen, Papierzusammenfassungen und Papierkompendien:
Papiere und Papierzusammenfassungen
- 100 Must-Read NLP Papers 100 Must Read NLP Papers [Github, 3732 Sterne]
- NLP-Papierzusammenfassungen von Dair-AI [Github, 1475 Sterne]
- Kuratierte Sammlung von Papieren für den NLP -Praktiker [Github, 1075 Sterne]
- Papiere zu textuellem kontroversen Angriff und Verteidigung [Github, 1501 Sterne]
- Jüngste Deep Learning Papers in NLU und RL von Valentin Malykh [Github, 296 Sterne]
- Eine Umfrage zur Umfragen (NLP & ML): Sammlung von NLP -Umfragepapieren [Github, 1997 Stars]
- Eine Papierliste für den Stiltransfer im Text [Github, 1609 Sterne]
- ? Videoaufzeichnungsindex für Papiere
Zusammenfassungen der Konferenz
- NLP Top 10 Konferenzen Compendium von Soulbliss [Github, 459 Sterne]
- ? ICLR 2020 Trends
- ? SPACYIRL 2019 -Konferenz in Übersicht
- ? Paper Digest - Konferenzen und Papiere in Übersicht
NLP -Fortschritt und NLP -Aufgaben:
- NLP -Fortschritt von Sebastianruder [Github, 22568 Sterne]
- NLP -Aufgaben von Kyubyong [Github, 3017 Sterne]
NLP -Datensätze:
- NLP -Datensätze von Niderhoff [Github, 5741 Sterne]
- Datensätze durch Umarmung [Github, 19096 Sterne]
- Große schlechte NLP -Datenbank
- UWA eindeutiger Wort Anmerkungen - Wortverstärkungsdatensatz für Wort Sinn
- MLDOC - Korpus für mehrsprachige Dokumentenklassifizierung in acht Sprache [Github, 152 Sterne]
Wort und Satz Einbettungen:
- Fantastische Einbettungsmodelle von Hironsan [Github, 1752 Sterne]
- Fantastische Liste der Satz Einbettungen von Separius [Github, 2219 Sterne]
- Awesome Bert von Jiakui [Github, 1846 Sterne]
Notizbücher, Skripte und Repositories
- The Super Duper NLP Repo [Website, 2020]
Nicht englische Ressourcen und Kompendien
- NLP -Ressourcen für Bahasa Indonesian [Github, 480 Sterne]
- Indic NLP -Katalog [Github, 552 Sterne]
- Vorausgebildete Sprachmodelle für Vietnamesisch [Github, 653 Sterne]
- Natural Language Toolkit für Indic -Sprachen (INLTK) [GitHub, 814 Sterne]
- INDIC NLP -Bibliothek [Github, 550 Sterne]
- AI4BHARAT-Indicnlp-Portal
- ARBML - Umsetzung vieler arabischer NLP- und ML -Projekte [Github, 387 Sterne]
- Zemberek -NLP - NLP -Werkzeuge für türkisch [Github, 1146 Sterne]
- TDD AI - Eine Open -Source -Plattform für alle türkischen Datensätze, Sprachmodelle und NLP -Tools.
- Klue - Bewertung des koreanischen Sprachverständnisses [Github, 560 Sterne]
- Persian NLP Benchmark - Benchmark für die Bewertung und Vergleich verschiedener NLP -Aufgaben in der persischen Sprache [Github, 73 Sterne]
- NLP -Greek - Griechische Sprachquellen [Github, 5 Sterne]
- Awesome NLP -Ressourcen für Ungarn [Github, 221 Sterne]
Vorausgebildete NLP-Modelle
- Liste der vorgeborenen NLP-Modelle [Github, 170 Sterne]
- Vorbereitete Sprachmodelle, die von Huawei Noahs Ark Lab [Github, 3019 Sterne] entwickelt wurden
- Spanische Sprachmodelle und Ressourcen [Github, 251 Sterne]
NLP -Geschichte
Allgemein
- Moderne Deep -Lern -Techniken, die auf die Verarbeitung natürlicher Sprache angewendet werden [Github, 1328 Sterne]
- ? Eine Überprüfung der neuronalen Geschichte der Verarbeitung natürlicher Sprache [Blog, Oktober 2018]
2020 Jahr in Überprüfung
- ? Verarbeitung natürlicher Sprache im Jahr 2020: Das Jahr in Rezension [Blog, Dezember 2020]
- ? ML- und NLP Research Highlights von 2020 [Blog, Januar 2021]
? Zurück zum Inhaltsverzeichnis
Podcasts nur NLP
- ? ️ NLP Highlights [Jahre: 2017 - jetzt, Status: Active]
- ? ️ Die Episoden der NLP -Zone [Jahre: 2021 - jetzt, Status: Active]
Viele NLP -Episoden
- ? Euen Twiml Ai [Jahre: 2016 - jetzt, Status: Active]
- ? ️ Praktisches KI [Jahre: 2018 - jetzt, Status: Active]
- ? Euen der Datenaustausch [Jahre: 2019 - jetzt, Status: Active]
- ? Euen Dissensablauf [Jahre: 2020 - jetzt, Status: Active]
- ? ️ Maschinell Learning Street Talk [Jahre: 2020 - jetzt, Status: Active]
- ? ️ DataFramed - Neueste Trends und Einblicke in die Skalierung der Auswirkungen der Datenwissenschaft in Organisationen [Jahre: 2019 - jetzt, Status: Active]
Einige NLP -Episoden
- "Der Super Data Science Podcast [Jahre: 2016 - jetzt, Status: Active]
- ? ️ Data Hack Radio [Jahre: 2018 - jetzt, Status: Active]
- ? Euen Game Changer [Jahre: 2020, Status: Active]
- ? ️ Die Analytics Show [Jahre: 2019 - jetzt, Status: Active]
- ? NLP -Nachrichten von Sebastian Ruder
- ? Diese Woche in NLP von Robert Dale
- ? Papiere mit Code
- ? Die Charge von DeepLearning.ai
- ? Papierverdauung durch PaperDigest
- ? NLP Cypher durch Quantenstat
- ? NLP Zürich [YouTube -Aufzeichnungen]
- ? Hacking-Machine-Learning [YouTube-Aufnahmen]
- ? NY-NLP (New York)
- ? Yannic Kilcher
- ? Umarmung
- ? Kaggle Reading Group
- ? Rasa Paper Reading
- ? Stanford CS224N: NLP mit tiefem Lernen
- ? Nlpxing
- ? ML erklärt - ai sokratische Kreise - AISC
- ? DeepLearning.ai
- ? Maschinelles Lernen Street Talk
? Zurück zum Inhaltsverzeichnis
General NLU
- Kleber - Allgemeines Sprachverständnis -Bewertung (Kleber) Benchmark
- SUVERGLE - Benchmark gestaltet nach Kleber mit einer neuen Reihe schwierigerer Sprachverständnisaufgaben
- DecanLP - Das natürliche Sprachdeklon (DecanLP) für die Untersuchung allgemeiner NLP -Modelle
- Dialoglue - Dialoglue: Ein Benchmark für natürliche Sprachenverständnis für aufgabenorientierte Dialog [Github, 280 Sterne]
- Dynabench - Dynabench ist eine Forschungsplattform für die dynamische Datenerfassung und Benchmarking
- Big -Bench - Collaborative Benchmark für die Messung und Extrapolation der Fähigkeiten von Sprachmodellen [Github, 2835 Sterne]
Zusammenfassung
- WikiaP-WikiaP: Multi-Dokument-Aspekt-basierter Zusammenfassung Datensatz
- Wikilingua - Ein mehrsprachiger abstrakter Summarierungs -Datensatz
Frage Beantwortung
- Squad - Stanford Frage zur Beantwortung des Datensatzes (Squad)
- Xquad-XQUAD (lingeringende Frage Beantwortung des Datensatzes) für die antwortende Fragen zur Beantwortung von Fragen
- Grailqa - stark verallgemeinerbare Frage Beantwortung (Grailqa)
- CSQA - Komplexe sequentielle Beantwortung der Frage
Mehrsprachige und nicht englische Benchmarks
- ? Xtreme - Massiv mehrsprachiger Multi -Task -Benchmark
- Gluecos - Ein Benchmark für mit Code -bewegtes NLP
- Indicglue - natürliches Sprachverständnis Benchmark für Indic -Sprachen
- Lince - Linguistische Code -sankte Bewertungsbenchmark
- Russischer Sprungkleber - Russian Seclue Benchmark
Biografie, Recht und andere wissenschaftliche Bereiche
- Klappentext - Verständnis für biomedizinische Sprach- und Argumentationsbenchmark
- Blau - Biomedizinische Sprachverständnis Bewertung Benchmark
- LexGlue - Ein Benchmark -Datensatz für das Verständnis der juristischen Sprache in Englisch
Transformatoreffizienz
- Langstreckenarena-Langstreckenarena für Benchmarking Effiziente Transformatoren (Vorabdruck) [Github, 716 Sterne]
Sprachverarbeitung
- Superb - Sprachverarbeitung Universal Performance Benchmark
Andere
- CodExGlue - Ein Benchmark -Datensatz für Code Intelligence
- Crossner - Crossner: Bewertung der Cross -Domain -Bekanntheit der Entität
- Multinli - Multi -Genre Natural Language Inference Corpus
- Isarcasm: Ein Datensatz mit beabsichtigten Sarkasmus - Isarcasm ist ein Datensatz von Tweets, der jeweils als sarkastisch oder nicht _sarcastic gekennzeichnet ist
? Zurück zum Inhaltsverzeichnis
Allgemein
- ? Ein Rezept für die Schulung neuronaler Netzwerke von Andrej Karpathy [Keywords: Forschung, Ausbildung, 2019]
- ? Jüngste Fortschritte in NLP über große vorgebrachte Sprachmodelle: Eine Umfrage [Papier, November 2021]
Einbettungen
Repositorys
- Vorausgebildete ELMO-Darstellungen für viele Sprachen [Github, 1458 Sterne]
- Sense2Vec - Wortvektoren mit kontextuell gekleideten Wörtern [GitHub, 1617 Sterne]
- Wikipedia2Vec [Github, 935 Sterne]
- Starspace [Github, 3938 Sterne]
- FastText [Github, 25871 Sterne]
Blogs
- ? Sprachmodelle und kontextualisierte Worteinbettungen von David S. Batista [Blog, 2018]
- ? Ein wesentlicher Leitfaden für vorbereitete Worteinbettungen für NLP -Praktiker von AnalyticsVidhya [Blog, 2020]
- ? Polyglot Word -Einbettungen entdecken Sprachcluster [Blog, 2020]
- ? The Illustrated Word2Vec von Jay Alammar [Blog, 2019]
Bringliches Wort und Satz Einbettungen
- VECMAP - VECMAP (lendes Wort einbettende Zuordnungen) [Github, 644 Sterne]
- Satztransformer - Mehrsprachige Satz und Bildeinbettung mit Bert [Github, 14981 Sterne]
Byte -Paar -Kodierung
- BPEMB-Vorausgebildete Subword-Einbettungen in 275 Sprachen, basierend auf Byte-Pair-Codierung (BPE) [Github, 1179 Sterne]
- Subword -NMT - unbeaufsichtigtes Wortsegmentierung für die Übersetzung und die Textgenerierung neuronaler Maschinen [Github, 2185 Sterne]
- Python -BPE - Byte -Paar für Python [Github, 223 Sterne]
Transformator-basierte Architekturen
Allgemein
- ? Die Transformer -Familie von Lilian Weng [Blog, 2020]
- ? Spielen Sie die Lotterie mit Belohnungen und mehreren Sprachen - über den Effekt der zufälligen Initialisierung [ICLR 2020 -Papier]
- ? Aufmerksamkeit? Aufmerksamkeit! Von Lilian Weng [Blog, 2018]
- ? Der Transformator… „erklärt“? [Blog, 2019]
- "Aufmerksamkeit" ist alles, was Sie brauchen; Aufmerksamkeitsnetzwerkmodelle von łukasz Kaiser [Talk, 2017]
- ? Die Aufmerksamkeit ist um einen [Juli 2023] ab.
- ? ️ Verständnis und Anwendung von Selbstbeziehung für NLP [Talk, 2018]
- ? Das NLP -Kochbuch: Moderne Rezepte für transformatorbasierte Deep Learning Architekturen [Papier, April 2021]
- ? Vorausgebildete Modelle: Vergangenheit, Gegenwart und Zukunft [Papier, Juni 2021]
- ? Eine Umfrage unter Transformatoren [Papier, Juni 2021]
Transformator
- ? Der kommentierte Transformator von Harvard NLP [Blog, 2018]
- ? Der illustrierte Transformator von Jay Alammar [Blog, 2018]
- ? Illustrierte Anleitung zu Transformers von Hong Jing [Blog, 2020]
- ? Sequentieller Transformator mit adaptiver Aufmerksamkeitsspanne von Facebook. Blog [Blog, 2019]
- ? Evolution der Darstellungen im Transformator von Lena Voita [Blog, 2019]
- ? Reformer: Der effiziente Transformator [Blog, 2020]
- ? Longformer-Der Long-Dokument-Transformator von Viktor Karlsson [Blog, 2020]
- ? Transformers von Grund auf [Blog, 2019]
- ? Transformatoren in der Verarbeitung natürlicher Sprache - Eine kurze Umfrage von George Ho [Blog, Mai 2020]
- Lite Transformator - Lite -Transformator mit langweiliger Aufmerksamkeit [Github, 596 Sterne]
- ? Transformatoren von Grund auf [Blog, Oktober 2021]
Bert
- ? Eine visuelle Anleitung zur ersten Verwendung von Bert von Jay Alammar [Blog, 2019]
- ? Die dunklen Geheimnisse von Bert von Anna Rogers [Blog, 2020]
- ? Suchanfragen besser verstehen als je zuvor [Blog, 2019]
- ? Demystifizierende Bert: Ein umfassender Leitfaden zum bahnbrechenden NLP -Framework [Blog, 2019]
- Sembert - Semantik -bewusstes Bert für Sprachverständnis [Github, 286 Sterne]
- Bertweet - Bertweet: Ein vorgebildetes Sprachmodell für englische Tweets [Github, 574 Sterne]
- Optimale Subarchitektur -Extraktion für Bert [Github, 470 Sterne]
- Charakterbert: ELMO und Bert [Github, 195 Sterne] versöhnen
- ? Wenn Bert die Lotterie spielt, gewinnen alle Tickets [Blog, Dezember 2020]
- Bert-bezogene Papiere Eine Liste von Bert-bezogenen Papieren [Github, 2032 Sterne]
Andere Transformatorvarianten
T5
- ? T5 Verständnis transformatorbasierter selbstbewerteter Architekturen [Blog, August 2020]
- ? T5: Der Text-to-Text-Transfertransformator [Blog, 2020]
- Mehrsprachiger T5-Mehrsprachiger T5 (MT5) ist ein massiv mehrsprachiges, vorgezogenes Text-zu-Text-Transformatormodell [Github, 1245 Sterne]
Bigbird
- ? Big Bird: Transformers für längere Sequenzen Originalpapier von Google Research [Papier, Juli 2020]
Reformer / Linformer / Longformer / Darsteller
- "Reformer: Der effiziente Transformator - [Papier, Februar 2020] [Video, Oktober 2020]
- Longformer: Der Langdokumentwandler - [Papier, April 2020] [Video, April 2020]
- ? ️ Linformer: Selbstbekämpfung mit linearer Komplexität - [Papier, Juni 2020] [Video, Juni 2020]
- ? Euen Aufmerksamkeit mit Darstellern - [Papier, September 2020] [Video, September 2020]
- Performer-Pytorch-Eine Implementierung von Performer, einem linearen aufmerksamkeitsbasierten Transformator, in Pytorch [Github, 1084 Sterne]
Transformator schalten
- ? Switch -Transformatoren: Skalierung auf Billionen Parametermodelle Originalpapier von Google Research [Papier, Januar 2021]
GPT-Familie
Allgemein
- ? Das illustrierte GPT-2 von Jay Alammar [Blog, 2019]
- ? Der kommentierte GPT-2 von Aman Arora
- ? OpenAIs GPT-2: Das Modell, der Hype und die Kontroverse von Ryan Lowe [Blog, 2019]
- ? So generieren Sie Text von Patrick von Platen [Blog, 2020]
GPT-3
Ressourcen lernen
- ? Zero Shot Learning für Textklassifizierung von Amit Chaudhary [Blog, 2020]
- ? GPT-3 Eine kurze Zusammenfassung von Leo Gao [Blog, 2020]
- ? GPT-3, ein riesiger Schritt für Deep Learning und NLP von Yoel Zeldes [Blog, Juni 2020]
- ? GPT-3-Sprachmodell: Ein technischer Überblick von Chuan Li [Blog, Juni 2020]
- ? Ist es für Sprachmodelle möglich, ein Sprachverständnis zu erlangen? von Christopher Potts
Anwendungen
- Awesome GPT-3-Liste aller Ressourcen im Zusammenhang mit GPT-3 [Github, 4589 Sterne]
- GPT-3-Projekte-Eine Karte aller GPT-3-Start-ups und kommerziellen Projekte
- GPT-3 Demo Showcase-GPT-3-Demo-Showcase, mehr als 180 Apps, Beispiele und Ressourcen
- ? OpenAI API - API -Demo, um OpenAI GPT für kommerzielle Anwendungen zu verwenden
Open-Source-Bemühungen
- ? GPT-NEO-In-Progress GPT-3 Open Source Replication Huggingface Hub Hub
- GPT -J - Ein 6 -Milliarden -Parameter autoregressives Textgenerierungsmodell, das auf dem Stapel trainiert wurde
- ? Effektiv mit GPT-J mit wenigen Schusslernen [Blog, Juli 2021]
Andere
- ? Was ist die zweistreamische Selbstbekämpfung in XLNET von Xu Liang [Blog, 2019]
- ? Zusammenfassung des visuellen Papiers: Albert (ein Lite Bert) von Amit Chaudhary [Blog, 2020]
- ? Turing NLG von Microsoft
- ? Multi-Label-Textklassifizierung mit XLNET von Josh Xin Jie Lee [Blog, 2019]
- Electra [Github, 2326 Sterne]
- Performer-Implementierung von Performer, einem linearen aufmerksamkeitsbasierten Transformator, in Pytorch [Github, 1084 Sterne]
Destillation, Beschneidung und Quantisierung
Lesematerial
- ? Destillieren von Wissen aus neuronalen Netzwerken, um kleinere und schnellere Modelle von Floydhub zu erstellen [Blog, 2019]
- ? Komprimierung von Deep -Learning -Modellen für Text: Eine Umfrage [Papier, April 2021]
Werkzeuge
- Bert-Squeeze-Code, um die Größe der transformatorbasierten Modelle zu verringern oder ihre Latenz zum Inferenzzeit zu verringern [Github, 79 Sterne]
- Xtremedistil - Xtremedistiltransformers zur Destillation massiver mehrsprachiger neuronaler Netzwerke [Github, 153 Sterne]
Automatisierte Zusammenfassung
- ? Pegasus: Ein hochmodernes Modell für abstraktive Textübersicht durch Google AI [Blog, Juni 2020]
- Ctrlsum - ctrlsum: Auf dem Weg zu generischen kontrollierbaren Textübersicht [Github, 146 Sterne]
- XL-Sum-XL-Sum: Großer mehrsprachiger abstrakter Zusammenfassung für 44 Sprachen [Github, 252 Sterne]
- Summertime-Ein Open-Source-Textübersichts-Toolkit für Nicht-Experten [Github, 265 Sterne]
- Primer-Primer: Pyramidenbasierter maskierter Satz vor dem Training für die Zusammenfassung der Multi-Dokumenten [Github, 151 Sterne]
- Summarus - Modelle für die automatische abstrakte Zusammenfassung [Github, 170 Sterne]
Wissensgrafiken und NLP
- ? Wissen in das Sprachmodell verschmelzen [Präsentation, Okt. 2021]
Hinweis Abschnitt Schlüsselwörter: Best Practices, Mlops
? Zurück zum Inhaltsverzeichnis
Best Practices für den Aufbau von NLP -Projekten
- ? Auf der Suche nach Best Practices für NLP -Projekte [Folien, Dezember 2020]
- ? EMNLP 2020: Hochleistungs -Verarbeitung natürlicher Sprache durch Google Research, Aufzeichnung, Nov. 2020]
- ? Praktische Verarbeitung natürlicher Sprache - Ein umfassender Leitfaden zum Aufbau realer NLP -Systeme [Buch, Juni 2020]
- ? So strukturieren und verwalten Sie NLP -Projekte [Blog, Mai 2021]
- ? Angewandte NLP -Denken - Angewandte NLP -Denken: Wie man Probleme in Lösungen übersetzt [Blog, Juni 2021]
- ? Einführung in die NLP für die Verwendung von Branchen - DataLKSClub -Präsentation zur Einführung in die NLP für die Brancheneinsatz [Aufzeichnung, Dezember 2021]
- ? Messung der Einbettungsdrift - Best Practices zur Überwachung der Drift von NLP -Modellen [Blog, Dezember 2022]
Mlops für NLP
MLOPS, insbesondere wenn sie auf NLP angewendet werden, sind eine Reihe von Best Practices, um verschiedene Teile des Workflows beim Erstellen und Bereitstellen von NLP -Pipelines zu automatisieren.
Im Allgemeinen umfasst MLOPS für NLP die folgenden Prozesse:
- Datenversioning - Stellen Sie sicher
- Experimentverfolgung - Stellen Sie sicher, dass alle Ihre Experimente automatisch verfolgt und gespeichert werden, wo sie leicht repliziert oder nachverfolgt werden können
- Modellregistrierung - Stellen Sie sicher
- Automatisierte Test- und Verhaltenstests - Neben regelmäßigen Einheiten- und Integrationstests möchten Sie Verhaltenstests durchführen, die nach Verzerrungen oder potenziellen kontroversen Angriffen prüfen
- Modellbereitstellung und -dienste - Automatisieren Sie die Modellbereitstellung, idealerweise auch mit Null -Down -Time -Bereitstellungen wie Blue/Green, Kanarische Bereitstellungen usw.
- Daten- und Modellbeobachtbarkeit - Verfolgung von Datendrift, Modellgenauigkeitsdrift usw.
Darüber hinaus gibt es zwei weitere Komponenten, die für NLP nicht so weit verbreitet sind und hauptsächlich für Computer Vision und andere Unterfelder von AI verwendet werden:
- Feature Store - Zentralisierte Speicherung aller für ML -Modelle entwickelten Funktionen, die von keinem anderen ML -Projekt wiederverwendet werden können
- Metadatenverwaltung - Speicher für alle Informationen zur Verwendung von ML -Modellen, hauptsächlich zur Reproduktion des Verhaltens von bereitgestellten ML -Modellen, Artefaktverfolgung usw.
MLOPS -Zusammenstellungen und tolle Listen
- Awesome-Mlops [Github, 12526 Sterne]
- Best-of-Ml-Python [Github, 16309 Sterne]
- Mlops.toys - eine kuratierte Liste von MLOPS -Projekten
Lesematerial
- ? Operationen für maschinelles Lernen (MLOPS): Überblick, Definition und Architektur [Papier, Mai 2022]
- ? Anforderungen und Referenzarchitektur für MLOPS: Erkenntnisse aus der Industrie [Papier, Oktober 2022]
- ? MLOPS: Was es ist, warum es wichtig ist und wie man es von Neptune AI [Blog, Juli 2021] implementiert
- ? Beste MLOPS -Tools, die Sie als Datenwissenschaftler von Neptune AI [Blog, Juli 2021] kennen müssen
- ? Bundesstaat Mlops 2021 von Valohai [Blog, August 2021]
- ? Der Mlops Stack von Valohai [Blog, Oktober 2020]
- ? Datenversionskontrolle für maschinelle Lernanwendungen von Megagon AI [Blog, Juli 2021]
- ? Die schnelle Entwicklung des kanonischen Stapels für maschinelles Lernen [Blog, Juli 2021]
- ? MLOPS: umfassender Anfängerhandbuch [Blog, März 2021]
- ? Was ich über Mlops gelernt habe, wenn ich mit mehr als 100 ML -Praktikern spricht [Blog, Mai 2021]
- ? Datarobot Challenger -Modelle - Mlops Champion/Challenger -Modelle
- ? State of Mlops Blog von Dr. Ori Cohen
- ? Mlops -Ökosystemübersicht [Blog, 2021]
Lernmaterial
- ? Mlops Cource von MAD MIT ML
- ? Github Mlops - Sammlung von Ressourcen zur Erleichterung von Ops für maschinelles Lernen mit GitHub
- ? ML Observability Fundamentals Kurs lernen
MLOPS -Gemeinschaften
- Die MLOPS -Community - Blogs, Slack Group, Newsletter und vieles mehr über Mlops
Datenversionierung
- DVC - Datenversionskontrolle (DVC) verfolgt ML -Modelle und Datensätze [Free und Open Source] Link zu GitHub
- ? Gewichte und Vorurteile - Tools für die Experimentverfolgung und Datensatzversioning [Paid Service]
- ? Pachyderm-Versionskontrolle für Daten mit den Tools zum Erstellen skalierbarer End-to-End-ML/AI-Pipelines [bezahlter Service mit kostenloser Stufe]
Experimentverfolgung
- MLFLOW - Open Source -Plattform für den Link zum maschinellen Lernlebenszyklus [Free und Open Source] zu GitHub
- ? Gewichte und Vorurteile - Tools für die Experimentverfolgung und Datensatzversioning [Paid Service]
- ? Neptune AI - Experiment -Tracking- und Modellregister für Forschung und Produktionsteams [bezahlter Service]
- ? Comet ML - ermöglicht Datenwissenschaftlern und Teams, Experimente und Modelle zu verfolgen, zu vergleichen, zu erklären und zu optimieren [bezahlter Service]
- ? Sigopt - Training und Tuning Automatisieren, Visualisieren und Vergleichen von Läufen [Paid Service]
- Optuna - Hyperparameter -Optimierungsrahmen [GitHub, 10650 Sterne]
- ML - experimentieren, orchestrieren, bereitstellen und bauen Datenspeicher an einem Ort [kostenlos und Open Source] zu GitHub
- METAFLOW-Human-freundliche Python/R-Bibliothek, mit der Wissenschaftler und Ingenieure reale Datenwissenschaftsprojekte aufbauen und verwalten können [Github, 8093 Stars]
Modellregister
- DVC - Datenversionskontrolle (DVC) verfolgt ML -Modelle und Datensätze [Free und Open Source] Link zu GitHub
- MLFLOW - Open Source -Plattform für den Link zum maschinellen Lernlebenszyklus [Free und Open Source] zu GitHub
- ModelDB - Open -Source -System für maschinelles Lernmodellversioning, Metadaten und Experimentmanagement [Github, 1696 Sterne]
- ? Neptune AI - Experiment -Tracking- und Modellregister für Forschung und Produktionsteams [bezahlter Service]
- ? Valohai-End-to-End-ML-Pipelines [bezahlter Service]
- ? Pachyderm-Versionskontrolle für Daten mit den Tools zum Erstellen skalierbarer End-to-End-ML/AI-Pipelines [bezahlter Service mit kostenloser Stufe]
- ? Polyaxon - reproduzieren, automatisieren und skalieren Sie Ihre Datenwissenschafts -Workflows mit MLOPS -Tools für Produktionsstörungen [bezahlter Service]
- ? Comet ML - ermöglicht Datenwissenschaftlern und Teams, Experimente und Modelle zu verfolgen, zu vergleichen, zu erklären und zu optimieren [bezahlter Service]
Automatisierte Tests und Verhaltenstests
- Checkliste - Über Genauigkeit hinaus: Verhaltenstests von NLP -Modellen [Github, 2003 Sterne]
- Textangriff - Framework für kontroverse Angriffe, Datenerweiterung und Modelltraining in NLP [Github, 2922 Sterne]
- WildnLP - beschädigen einen Eingangstext, um die Robustheit der NLP -Modelle zu testen [Github, 76 Sterne]
- Großartige Erwartungen - Schreiben Sie Tests für Ihre Daten [Github, 9874 Sterne]
- DeepChecks - Python -Paket zur umfassenden Validierung Ihrer Modelle und Daten für maschinelles Lernen [Github, 3582 Sterne]
Modellbereitstellung und -dienste
- MLFLOW - Open Source -Plattform für den Link zum maschinellen Lernlebenszyklus [Free und Open Source] zu GitHub
- ? Amazon Sagemaker [bezahlter Service]
- ? Valohai-End-to-End-ML-Pipelines [bezahlter Service]
- ? NLP Cloud - Produktionsstätte NLP -API [bezahlter Service]
- ? Saturn Cloud [bezahlter Service]
- ? Seldon - Bereitstellung für maschinelles Lernen für Enterprise [bezahlter Service]
- ? Comet ML - ermöglicht Datenwissenschaftlern und Teams, Experimente und Modelle zu verfolgen, zu vergleichen, zu erklären und zu optimieren [bezahlter Service]
- ? Polyaxon - reproduzieren, automatisieren und skalieren Sie Ihre Datenwissenschafts -Workflows mit MLOPS -Tools für Produktionsstörungen [bezahlter Service]
- TorchServe - Flexibel und einfach zu verwendendem Werkzeug zum Servieren von Pytorch -Modellen [Github, 4174 Sterne]
- ? Kubeflow - Das Toolkit für maschinelles Lernen für Kubernetes [Github, 10600 Sterne]
- KFSERVING - serverlose Inferenzierung gegen Kubernetes [Github, 3504 Sterne]
- ? TFX - TensorFlow Extended - End -to -End -Plattform für die Bereitstellung von Produktionsml -Pipelines [bezahlter Service]
- ? Pachyderm-Versionskontrolle für Daten mit den Tools zum Erstellen skalierbarer End-to-End-ML/AI-Pipelines [bezahlter Service mit kostenloser Stufe]
- ? Cortex - Container als Service für AWS [bezahlter Service]
- ? Azure maschinelles Lernen-End-to-End-Lebenszyklus für maschinelles Lernen [bezahlter Service]
- End2end Serverless Transformers auf AWS Lambda [Github, 121 Sterne]
- NLP -Service - Beispieldemo von NLP als Serviceplattform mit Fastapi und Umarmung des Gesichts [Github, 13 Sterne]
- ? Dagster - Data Orchestrator für maschinelles Lernen [Frei und Open Source]
- ? Verta - AI und maschinelles Lernen Bereitstellung und -betrieb [bezahlter Service]
- METAFLOW-Human-freundliche Python/R-Bibliothek, mit der Wissenschaftler und Ingenieure reale Datenwissenschaftsprojekte aufbauen und verwalten können [Github, 8093 Stars]
- Flyte - Workflow -Automatisierungsplattform für komplexe, missionskritische Daten und ML -Prozesse im Maßstab [Github, 5525 Sterne]
- MLRUN - Automatisierung und Tracking maschinelles Lernen [Github, 1425 Sterne]
- ? Datarobot Mlops - Datarobot Mlops bietet eine Exzellenzzentrale für Ihre Produktion KI
Modelldebugging
- IMODELS - Paket für präzise, transparente und genaue Vorhersagemodellierung [Github, 1375 Sterne]
- Cockpit - Ein praktisches Debugging -Tool für die Schulung von tiefen neuronalen Netzwerken [Github, 474 Sterne]
Modellgenauigkeitsvorhersage
- Gewichtswächter - Gewichtswächter -Tool zur Vorhersage der Genauigkeit von tiefen neuronalen Netzwerken [Github, 1453 Sterne]
Daten- und Modellbeobachtbarkeit
Allgemein
- ARIZE AI - Einbettung der Driftüberwachung für NLP -Modelle
- Arize -Phoenix - ML Beobachtbarkeit für LLMs, Seh-, Sprachen und tabellarische Modelle
- Whylogs - Open Source -Standard für Daten und ML -Protokollierung [Github, 2636 Sterne]
- Rubrix - Open -Source -Tool zum Erkunden und Iterieren von Daten für künstliche Intelligenzprojekte [Github, 3843 Sterne]
- MLRUN - Automatisierung und Tracking maschinelles Lernen [Github, 1425 Sterne]
- ? Datarobot Mlops - Datarobot Mlops bietet eine Exzellenzzentrale für Ihre Produktion KI
- ? Cortex - Container als Service für AWS [bezahlter Service]
Modellzentrum
- ? Algorithmie - Das Risiko mit fortgeschrittener Berichterstattung und Sicherheit und Governance für Unternehmensqualität über alle Daten, Modelle und Infrastrukturen hinweg minimieren [bezahlter Service]
- ? DataIKU - DataIKu ist für Teams gedacht, die erweiterte Analysen mit den neuesten Techniken auf der Big Data -Skala [bezahlter Service] liefern möchten [bezahlten Service]
- Offensichtlich KI - Tools zur Analyse und Überwachung von Modellen für maschinelles Lernen [frei und Open Source] Link zu GitHub
- ? Fiddler - ML Model Performance Management Tool [bezahlter Service]
- ? Hydrosphere - Open -Source -Plattform für die Verwaltung von ML -Modellen [bezahlter Service]
- ? Verta - AI und maschinelles Lernen Bereitstellung und -betrieb [bezahlter Service]
- ? Domino Model OPS - Bereitstellung und Verwaltung von Modellen, um die geschäftlichen Auswirkungen zu fördern [bezahlter Service]
Datenzentriert
- ? DataFold - Datenqualität durch Diffs, Profilerstellung und Anomalie -Erkennung [bezahlter Service]
- ? Acceldata - Verbesserung der Zuverlässigkeit, beschleunigen Sie die Skala und senken Sie die Kosten für alle Datenpipelines [bezahlter Service]
- ? Bigye - Überwachung und Alarmierung in Ihren Datensätzen in Minuten [bezahlter Service]
- ? Datakin-End-to-End, Echtzeitdatenlinienlösung [bezahlter Dienst]
- ? Monte Carlo - Datenintegrität, Drifts, Schema, Linie [bezahlter Service]
- ? Soda - Datenüberwachung, Testen und Validierung [bezahlter Service]
Feature Stores
- ? Tekton - Unternehmensgeschäft für maschinelles Lernen [bezahlter Service]
- FEAST - Open Source -Funktionsstore für maschinelles Lernwebsite [Github, 5525 Sterne]
- ? HopsWorks Feature Store - Datenverwaltungssystem zum Verwalten von Funktionen für maschinelles Lernen [bezahlter Service]
Metadatenmanagement
- ML -Metadaten - Eine Bibliothek zum Aufnehmen und Abrufen von Metadaten im Zusammenhang mit ML -Entwickler und Datenwissenschaftler -Workflows [Github, 617 Sterne]
- ? Neptune AI - Experiment -Tracking- und Modellregister für Forschung und Produktionsteams [bezahlter Service]
Mlops Frameworks
- METAFLOW-Human-freundliche Python/R-Bibliothek, mit der Wissenschaftler und Ingenieure reale Datenwissenschaftsprojekte aufbauen und verwalten können [Github, 8093 Stars]
- Kedro - Python -Framework zum Erstellen reproduzierbarer, wartbarer und modularer Data Science Code [Github, 9883 Sterne]
- Seldon Core - MLOPS Framework zum Verpacken, Bereitstellen, Überwachen und Verwalten von Tausenden von Produktionsmodellen für maschinelles Lernen [Github, 4353 Sterne]
- ZENML - MLOPS -Framework zum Erstellen reproduzierbarer ML -Pipelines für die Produktion maschinelles Lernen [Github, 3972 Sterne]
- ? Google Vertex AI - ML -Modelle erstellen, bereitstellen und skalieren Sie schneller, mit vorgebildeten und benutzerdefinierten Tools innerhalb einer einheitlichen AI -Plattform [bezahlter Dienst]
- Diffgram - Komplette Trainingsdatenplattform für maschinelles Lernen als einzelne Anwendung [Github, 1834 Sterne]
- ? Continual.ai - Erstellen, Bereitstellen und Operationalisierung von ML -Modellen einfacher und schneller mit einer deklarativen Schnittstelle auf Cloud -Datenlagern wie Snowflake, BigQuery, Rotverschiebung und Datenbank. [Bezahlter Service]
Transformator-basierte Architekturen
? Zurück zum Inhaltsverzeichnis
Allgemein
- ? Warum Bert in kommerziellen Umgebungen von Intel AI [Blog, 2020] versagt.
- ? Feinabstimmung Bert für die Textklassifizierung mit Farm von Sebastian Guggisberg [Blog, 2020]
- Modelle in Pytorch mit umarmenden Gesichtstransformatoren [Github, 254 Sterne]
- ? ️ Praktisches NLP für die reale Welt [Präsentation, 2019]
- ? ️ von Papier zu Produkt - Wie haben wir Bert von Christoph Henkelmann implementiert [Talk, 2020]
Multi-GPU-Transformatoren
- Parallelformaler: Ein effizientes Modellparallelisierungs -Toolkit für die Bereitstellung [Github, 776 Sterne]
Trainingstransformatoren effektiv
- Schulung Bert mit Rechen-/Zeit (akademisch) Budget [Github, 309 Sterne]
Einbettung als Dienst
- Einbettung als Service [Github, 204 Sterne]
- Bert-as-Service [Github, 12399 Sterne]
NLP -Rezepte Industrielle Anwendungen:
- NLP -Rezepte von Microsoft [Github, 6367 Sterne]
- NLP mit Python von Susanli2016 [Github, 2721 Sterne]
- Grundlegende Dienstprogramme für Pytorch NLP von Petrochukm [Github, 2210 Sterne]
NLP -Bewerbungen in Bio-, Finanz-, Rechts- und anderen Branchen
- Blackstone - Eine Spacy -Pipeline und ein Modell für NLP auf unstrukturiertem Rechtstext [Github, 636 Sterne]
- Sci Spacy - Spacy Pipeline und Modelle für wissenschaftliche/biomedizinische Dokumente [Github, 1688 Sterne]
- FINBERT: Vorbereitet bei SEC-Anmeldungen für finanzielle NLP-Aufgaben [Github, 197 Sterne]
- Lexnlp - Informationsabnahme und Extraktion für realen, unstrukturierten Rechtstext [Github, 692 Sterne]
- Nerdl und Nercrf - Tutorial über benannte Entitätserkennung für das Gesundheitswesen mit Sparknlp
- Legal Text Analytics - Eine Liste ausgewählter Ressourcen, die sich der Rechtstextanalyse gewidmet haben [Github, 613 Sterne]
- Bioie - Eine kuratierte Liste von Ressourcen, die für die Extraktion der biomedizinischen Informationen relevant sind [Github, 338 Sterne]
Hinweis Abschnitt Schlüsselwörter: Spracherkennung
? Zurück zum Inhaltsverzeichnis
Allgemeine Spracherkennung
- WAV2Letter - Automatisches Spracherkennungs -Toolkit [GitHub, 6370 Sterne]
- Deepspeech - Baidus Deepspeech Architecture [Github, 25166 Sterne]
- ? Akustisches Wort Einbettung von Maria OBEDKOVA [Blog, 2020]
- KALDI - Kaldi ist ein Toolkit für die Spracherkennung [Github, 14177 Sterne]
- Awesome -Kaldi - Ressourcen für die Verwendung von Kaldi [Github, 532 Sterne]
- ESPNET-End-to-End-Sprachverarbeitungs-Toolkit [Github, 8355 Sterne]
- ? Hubert - Selbstverträte Repräsentation Lernen für Spracherkennung, Generation und Komprimierung [Blog, Juni 2021]
Text zur Sprach- / Sprachgenerierung
- Fastspeech - Die Implementierung von Fastspeech basierend auf Pytorch [Github, 857 Sterne]
- TTS-Ein Deep-Lern-Toolkit für Text-to-Speech [Github, 34356 Sterne]
- ? NotebookLM - Google Gemini Powered Personal Assistant / Podcast Generator
Rede zum Text
- Whisper - Robuste Spracherkennung durch große schwache Aufsicht von OpenAI [Github, 68884 Sterne]
- Vibe - GUI -Tool, um mit Flüstern, mehrsprachiger und CUDA -Unterstützung zu arbeiten [Github, 931 Sterne]
Datensätze
- Voxpopuli - Großer mehrsprachiger Sprachkorpus für Repräsentationslernen [Github, 507 Sterne]
Hinweis Abschnitt Schlüsselwörter: Themenmodellierung
? Zurück zum Inhaltsverzeichnis
Blogs
- ? Themenmodellierung mit PYSPARK und Spark NLP von Maria Obedkova [Spark, Blog, 2020]
- ? Ein einzigartiger Ansatz zum Kurztextclustering (Algorithmische Theorie) von Brittany Bowers [Blog, 2020]
Frameworks für Themenmodellierung
- Gensim - Framework für Themenmodellierung [Github, 15597 Sterne]
- Spark NLP [Github, 3826 Sterne]
Repositorys
- Top2VEC [Github, 2924 Sterne]
- Verankerte Korrelation Erklärung Thema Modellierung [Github, 303 Sterne]
- Themenmodellierung in Einbettungsräumen [Github, 540 Sterne] Papier
- TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Further Reading
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
Allgemein
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
Allgemeiner Zweck
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Phonetik
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morphologie
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Maschinelle Übersetzung
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
japanisch
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
Thai
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
chinesisch
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
ukrainisch
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Andere
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
Allgemein
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Kurse
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Bücher
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Tutorials
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Beziehungsextraktion
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Coreference Resolution
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Stimmungsanalyse
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Textgenerierung
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Zuschreibungen
Ressourcen
- All linked resources belong to original authors
Icons
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Fonts
The Pandect Series also includes