Awesome-NLP
Eine kuratierte Liste von Ressourcen, die der Verarbeitung natürlicher Sprache gewidmet sind

Lesen Sie dies auf Englisch, traditionelles Chinesisch
Bitte lesen Sie die Beitragsrichtlinien vor, bevor Sie einen Beitrag leisten. Bitte fügen Sie Ihre bevorzugte NLP -Ressource hinzu, indem Sie eine Pull -Anfrage erheben
Inhalt
- Forschungszusammenfassungen und Trends
- Prominente NLP -Forschungslabors
- Tutorials
- Inhalte lesen
- Videos und Kurse
- Bücher
- Bibliotheken
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Clojure
- Rubin
- Rost
- NLP ++
- Julia
- Dienstleistungen
- Annotationsinstrumente
- Datensätze
- NLP auf Koreanisch
- NLP auf Arabisch
- NLP auf Chinesisch
- NLP auf Deutsch
- NLP in Polnisch
- NLP auf Spanisch
- NLP in Indic -Sprachen
- NLP in Thai
- NLP auf Dänisch
- NLP auf Vietnamesisch
- NLP für Niederländisch
- NLP in Indonesisch
- NLP in Urdu
- NLP auf Persisch
- NLP in Ukrainisch
- NLP in Ungarisch
- NLP in Portugiesisch
- Andere Sprachen
- Credits
Forschungszusammenfassungen und Trends
- NLP-Overview ist ein aktueller Überblick über Deep-Lern-Techniken, die auf NLP angewendet werden, einschließlich Theorie, Implementierungen, Anwendungen und hochmodernen Ergebnissen. Dies ist eine große tiefe NLP -Einführung für Forscher.
- Der NLP-Prozess verfolgt den Fortschritt in der Verarbeitung natürlicher Sprache, einschließlich der Datensätze und die aktuellen Stand der Technik für die häufigsten NLP-Aufgaben
- NLPs Imagnet -Moment ist angekommen
- ACL 2018 Highlights: Verständnis der Darstellung und Bewertung in schwierigeren Umgebungen
- Vier Deep -Lern -Trends aus ACL 2017. Teil eins: Sprachstruktur und Worteinbettungen
- Vier Deep -Lern -Trends aus ACL 2017. Teil zwei: Interpretierbarkeit und Aufmerksamkeit
- Highlights von EMNLP 2017: Aufregende Datensätze, Rückgabe der Cluster und vieles mehr!
- Tiefes Lernen für die Verarbeitung natürlicher Sprache (NLP): Fortschritte und Trends
- Übersicht über den Stand der Technik in der Generierung natürlicher Sprache
Prominente NLP -Forschungslabors
Zurück nach oben
- Die Berkeley NLP Group - Bemerkenswerte Beiträge enthalten ein Tool zur Rekonstruktion langer toter Sprachen, auf die hier verwiesen wird, und durch die Einnahme von Korpora aus 637 Sprachen, die derzeit in Asien und im Pazifik gesprochen werden und ihren Nachkomme nachbilden.
- Language Technologies Institute, Carnegie Mellon University - Zu den bemerkenswerten Projekten gehören Avenue Project, ein syntaxgetriebenes maschinelles Übersetzungssystem für gefährdete Sprachen wie Quechua und Aymara und zuvor Noahs Ark, das AQMAR zur Verbesserung von NLP -Tools für Arabisch schuf.
- NLP -Forschungsgruppe, Columbia University - Verantwortlich für die Erstellung von Bolzen (Interaktive Fehlerbehandlung für Sprachübersetzung) und ein nicht benanntes Projekt zur Charakterisierung des Lachens im Dialog.
- Das Zentrum oder die Sprach- und Sprachverarbeitung, John Hopkins University - Vor kurzem in den Nachrichten zur Entwicklung von Spracherkennungssoftware, um hier einen diagnostischen Test oder eine Parkinson -Krankheit zu erstellen.
- Computational Linguistics and Information Processing Group, University of Maryland-Zu den bemerkenswerten Beiträgen gehören die Zusammenarbeit zwischen Mensch und Komputer oder wort-by-for-fragebedingende Beantwortung und Modellierung der Entwicklung phonetischer Darstellungen.
- Penn Natural Language Processing, Universität von Pennsylvania- berühmt für die Erstellung der Penn Treebank.
- Die Stanford Nautral Language Processing Group- einer der besten NLP-Forschungslabors der Welt, die sich für die Schaffung von Stanford Corelp und ihrem Coreference-Auflösungssystem bemerken kann
Tutorials
Zurück nach oben
Inhalte lesen
Allgemeines maschinelles Lernen
- Maschinelles Lernen 101 aus dem Senior Creative Engineer von Google erklärt maschinelles Lernen für Ingenieur und Führungskräfte gleichermaßen
- AI Playbook - A16Z AI Playbook ist ein großartiger Link zu Ihren Managern oder Inhalten für Ihre Präsentationen
- Ruders Blog von Sebastian Ruder für einen Kommentar zum besten von NLP -Forschung
- Kennzeichnung des Datenhandbuchs zur Verwaltung größerer sprachlicher Annotationsprojekte
- Hängt von der Definitionserfassung von Blog -Posts ab, die eine breite Palette von NLP -Themen mit detaillierter Implementierung abdecken
Einführungen und Anleitungen zu NLP
- Verständnis und implementieren Sie natürliche Sprachverarbeitung
- NLP in Python - Sammlung von Github -Notizbüchern
- Verarbeitung natürlicher Sprache: Eine Einführung - Oxford
- Tiefes Lernen für NLP mit Pytorch
- Praktische NLTK -Tutorial - NLTK -Tutorials, Jupyter -Notizbücher
- Verarbeitung natürlicher Sprache mit Python - Analyse des Textes mit dem natürlichen Sprach -Toolkit - Ein Online- und Printbuch, in dem NLP -Konzepte mit NLTK eingeführt werden. Die Autoren des Buches schrieben auch die NLTK -Bibliothek.
- Trainieren Sie ein neues Sprachmodell von Grund auf - umarmen Gesicht?
- Das Super Duper NLP Repo (SDNLPR): Sammlung von Colab -Notizbüchern, die eine breite Palette von NLP -Taskimplementierungen abdecken.
Blogs und Newsletter
- Deep Learning, NLP und Darstellungen
- Die illustrierten Bert, Elmo und co. (Wie NLP das Lernen des Transfers geknackt hat) und der illustrierte Transformator
- Verarbeitung natürlicher Sprache von Hal Daumé III.
- ARXIV: Natürliche Sprachverarbeitung (fast) von Grund auf neu
- Karpathy ist die unangemessene Wirksamkeit wiederkehrender neuronaler Netze
- Meisterschaft für maschinelles Lernen: Tiefes Lernen für die Verarbeitung natürlicher Sprache
- Visuelle NLP -Papierzusammenfassungen
Videos und Online -Kurse
Zurück nach oben
- Erweiterte natürliche Sprachverarbeitung - CS 685, UMass Amherst CS
- Tiefe natürliche Sprachverarbeitung - Vorlesungsreihen aus Oxford
- Deep Learning for Natural Language Processing (CS224 -N) - Richard Socker und Christopher Mannings Stanford -Kurs
- Neuronale Netze für NLP - Carnegie Mellon Language Technology Institute Dort
- Deep NLP -Kurs von Yandex Data School, die wichtige Ideen von Texteinbetten zur maschinellen Übersetzung einschließlich Sequenzmodellierung, Sprachmodelle usw. abdecken.
- FAST.AI -Code -First -Intro in die Verarbeitung natürlicher Sprache - Dies umfasst eine Mischung aus traditionellen NLP -Themen (einschließlich Regex, SVD, Naive Bayes, Tokenisierung) und neueren Ansätzen für neuronale Netzwerke (einschließlich RNNs, SEQ2Seq, Grus und dem Transformator) sowie anhand von unentschiedenen ethischen Problemen wie Bias und Desingröße. Hier finden Sie die Jupyter -Notizbücher
- Universität für maschinelle Lernen - Beschleunigte Verarbeitung natürlicher Sprache - Vorlesungen gehen von der Einführung in NLP und Textverarbeitung zu wiederkehrenden neuronalen Netzwerken und Transformatoren. Material kann hier gefunden werden.
- Angewandte natürliche Sprachverarbeitungsreihe- von IIT Madras von den Grundlagen bis hin zu Autoencodern und allem. Die GitHub -Notizbücher für diesen Kurs sind auch hier verfügbar
Bücher
- Sprach- und Sprachverarbeitung - kostenlos, von Prof. Dan Jurafsy
- Verarbeitung natürlicher Sprache - kostenlose NLP -Notizen von Dr. Jacob Eisenstein bei Georgiatech
- NLP mit Pytorch - Brian & Delip Rao
- Textabbau in r
- Verarbeitung natürlicher Sprache mit Python
- Praktische Verarbeitung natürlicher Sprache
- Verarbeitung natürlicher Sprache mit Spark NLP
- Tiefes Lernen für die Verarbeitung natürlicher Sprache durch Stephan RaaijMakers
- Real -World natürliche Sprachverarbeitung - von Masato Hagiwara
- Verarbeitung natürlicher Sprache in Aktion, zweite Ausgabe - von Hobson Lane und Maria Dyshel
Bibliotheken
Zurück nach oben
C ++ - C ++ Bibliotheken | Zurück nach oben
- INSNET-Eine neuronale Netzwerkbibliothek für das Erstellen von Instanz-abhängigen NLP-Modellen mit paddingfreiem dynamischen Chargen.
- MIT Information Extraction Toolkit - C, C ++ und Python -Tools für die Erkennung von Entität und Beziehungsextraktion
- CRF ++ - Open -Source -Implementierung von bedingten Zufallsfeldern (CRFs) zur Segmentierung/Kennzeichnung sequentieller Daten und anderen Aufgaben zur Verarbeitung natürlicher Sprache.
- CRFSUITE - CRFSUITE ist eine Implementierung der bedingten Zufallsfelder (CRFS) zum Kennleisten sequentieller Daten.
- Bllip Parser - Bllip Natural Language Parser (auch als Charniak -Johnson -Parser bekannt)
- Colibri-Core-C ++ Bibliothek, Befehlszeilen-Tools und Python-Bindung zum Extrahieren und Arbeiten mit grundlegenden sprachlichen Konstruktionen wie N-Gramm und Skipgrams auf schnelle und speichereffiziente Weise.
- UCTO-Unicode-bewusstes reguläres Expression basiert auf verschiedenen Sprachen. Tool und C ++ Bibliothek. Unterstützt das Folia -Format.
- libfolia - C ++ Bibliothek für das Folia -Format
- FROG - Memory -basierte NLP -Suite für Niederländisch: POS -Tagger, Lemmatiser, Abhängigkeitsparser, Ner, Sloger Parser, Morphologic Analyzer.
- META - META: Moderne Textanalyse ist ein C ++ - Data Sciences Toolkit, das die Bergbildung von großen Textdaten erleichtert.
- Mecab (Japanisch)
- Moses
- STARSPACE-Eine Bibliothek von Facebook zum Erstellen von Einbettungen von Wortebene, Absatzebene, Dokumentenebene und zur Textklassifizierung
Java - Java NLP -Bibliotheken | Zurück nach oben
- Stanford NLP
- OpenNLP
- NLP4J
- Word2Vec in Java
- Reverb Web-Scale Open Information Extraction
- OpenRegex Eine effiziente und flexible tokenbasierte reguläre Expressionssprache und -motor.
- COGCompnlp - Kernbibliotheken, die in der kognitiven Berechnungsgruppe von U of Illinois entwickelt wurden.
- Mallet - maschinelles Lernen für Sprachtoolkit - Paket für statistische Verarbeitung natürlicher Sprache, Dokumentenklassifizierung, Clustering, Themenmodellierung, Informationsextraktion und andere maschinelle Lernanwendungen für Text.
- RDRPOSTAGG - Ein robustes POS -Tagging -Toolkit (in Java und Python) sowie vorübergehende Modelle für mehr als 40 Sprachen.
Kotlin - Kotlin NLP -Bibliotheken | Zurück nach oben
- Lingua Eine Spracherkennungsbibliothek für Kotlin und Java, für lange und kurze Text gleichermaßen geeignet
- KOTIDGY-Ein indexbasierter Textdatengenerator in Kotlin geschrieben
Scala - Scala NLP -Bibliotheken | Zurück nach oben
- Saul - Bibliothek zur Entwicklung von NLP -Systemen, einschließlich integrierter Module wie SRL, POS usw.
- ATR4S-Toolkit mit hochmodernen automatischen Erkennungsmethoden.
- TM - Implementierung der Themenmodellierung basierend auf regulierten mehrsprachigen PLSA.
- WORD2VEC -SCALA - SCALA -Schnittstelle zum Word2VEC -Modell; Beinhaltet Operationen auf Vektoren wie Wortdistanz und Wortanalogie.
- Epic - Epic ist ein in Scala geschriebenes Hochleistungs -statistischer Parser sowie ein Rahmen für den Aufbau komplexer strukturierter Vorhersagemodelle.
- Spark NLP - Spark NLP ist eine Bibliothek für natürliche Sprachverarbeitung, die auf Apache Spark ML basiert, die einfache, leistungsfähige und genaue NLP -Annotationen für maschinelle Lernpipelines bietet, die in einer verteilten Umgebung leicht skalieren.
R - R NLP -Bibliotheken | Zurück nach oben
- Text2VEC - Schnelle Vektorisierung, Themenmodellierung, Entfernungen und Handschuhwort -Einbettungen in R.
- WordVectors - Ein R -Paket zum Erstellen und Erforschen von Word2VEC und anderen Wortbettungsmodellen
- RMallet - R -Paket zur Schnittstelle zum Java Machine Learning Tool Mallet
- DFR -Browser - Erstellt D3 -Visualisierungen zum Surfen von Textmodellen von Text in einem Webbrowser.
- DFRTOPICS - R -Paket zum Erkunden von Themenmodellen des Textes.
- Sentiment_Classifier - Sentiment -Klassifizierung mit Word -Sinn -Disambiguation und WordNet -Leser
- JPRECESSING - Japanische natürliche Langauge -Verarbeitungsbibliotheken mit japanischer Stimmungsklassifizierung
- CorporaExplorer - Ein R -Paket zur dynamischen Erforschung von Textsammlungen
- TidyText - Textmining mit ordentlichen Tools
- Spacyr - r Wrapper zu Spacy NLP
- Cran -Aufgabenansicht: Verarbeitung natürlicher Sprache
Clojure | Zurück nach oben
- Clojure -Opennlp - Verarbeitung natürlicher Sprache in Clojure (OpenNLP)
- Infektionen-ClJ-Schienen-ähnliche Beugungbibliothek für Clojure und ClojureScript
- Postagga - Eine Bibliothek, um natürliche Sprache in Clojure und ClojureScript zu analysieren
Ruby | Zurück nach oben
- Kevin Dias 'eine Sammlung von NLP -Bibliotheken, Tools und Software für natürliche Sprachverarbeitung (NLP)
- Praktische natürliche Sprachverarbeitung in Ruby
Rost | Zurück nach oben
- Whatlang - Bibliothek für natürliche Spracherkennung auf Basis von Trigramme
- Snips-NLU-Rs-Eine Produktionsbibliothek zur Absicht an Parsen
- Rust-Bert-nutzende NLP-Pipelines und Transformator-basierte Modelle
NLP ++ - NLP ++ Sprache | Zurück nach oben
- VSCODE -Sprachweiterung - NLP ++ Spracherweiterung für VSCODE
- NLP -Engine - NLP ++ Engine zum Ausführen von NLP ++ Code unter Linux, einschließlich eines vollständigen englischen Parsers
- VisualText - Homepage für die NLP ++ - Sprache
- NLP ++ Wiki - Wiki -Eintrag für die NLP ++ - Sprache
Julia | Zurück nach oben
- Corpusloader - verschiedene Lader für verschiedene NLP -Korpora
- Sprachen - ein Paket für die Arbeit mit menschlichen Sprachen
- Textanalyse - Julia -Paket für die Textanalyse
- TextModels - Neuronale Netzwerkbasis Modelle für die Verarbeitung natürlicher Sprache
- WordTokenizer - Hochleistungs -Tokenizer für die Verarbeitung natürlicher Sprache und andere verwandte Aufgaben
- Word2VEC - Julia Schnittstelle zu Word2Vec
Dienstleistungen
NLP als API mit höherer Funktionalität wie NER, Themen -Tagging usw. weiter | Zurück nach oben
- Wit -Ai - Natürliche Sprachschnittstelle für Apps und Geräte
- IBM Watsons natürliches Sprachverständnis - API und Github Demo
- Amazon Crekend - NLP und ML Suite deckt die meisten häufigsten Aufgaben wie NER, Tagging und Stimmungsanalyse ab
- Google Cloud Natural Language API - Syntaxanalyse, NER, Stimmungsanalyse und Inhalts -Tagging in mindestens 9 Sprachen umfassen Englisch und Chinesisch (vereinfacht und traditionell).
- Paralleldots - API -Service auf hoher Ebene der Textanalyse, die von der Stimmungsanalyse bis zur Absichtsanalyse reichen
- Microsoft Cognitive Service
- Textrazor
- Rosette
- Textalytische - Verarbeitung natürlicher Sprache im Browser mit Stimmungsanalyse, genannter Entitätsextraktion, POS -Tagging, Wortfrequenzen, Themenmodellierung, Wortwolken und mehr
- NLP Cloud - Spacy NLP -Modelle (benutzerdefinierte und vorgebrachte), die durch eine erholsame API für die genannte Entitätserkennung (NER), POS -Tagging und mehr bedient wurden.
- CloudMersive - Einheitliche und freie NLP -APIs, die Aktionen wie Sprach -Tagging, Textumformung, Sprachübersetzung/Erkennung und Satz Parsing ausführen
Annotationsinstrumente
- Gate - Allgemeine Architektur und Texttechnik sind mehr als 15 Jahre alt, kostenlos und Open Source
- Anafora ist kostenlos und Open Source, webbasiertes Rohtext-Annotation-Tool
- Brat - Brat Rapid Annotation Tool ist eine Online -Umgebung für die Annotation für kollaborative Texte
- Doccano - Doccano ist kostenlos, Open -Source und bietet Annotationsfunktionen für die Textklassifizierung, Sequenzmarkierung und Sequenz zur Sequenz
- Inception - Eine semantische Annotationsplattform, die intelligente Unterstützung und Wissensmanagement bietet
- Tagtog, Team -First -Web -Tool, um Datensätze zu finden, zu erstellen, zu warten und zu teilen - kostet $ $
- Prodigy ist ein Annotationsinstrument, das durch aktives Lernen betrieben wird, kostet $ $
- LightTag - Hosted and Management Text Annotation Tool für Teams, kostet $ $
- RSTWEB - Open Source Local- oder Online -Tool für Diskursbaumanmerkungen
- GitDox - Open Source Server Annotation Tool mit GitHub -Versionskontrolle und Validierung für XML -Daten und kollaborative Tabellenkalkulat
- Label Studio - gehostete und verwaltete Textanmerkungen für Teams, Freemiumbasiert, kostet $ $
- Datasaurier unterstützen verschiedene NLP -Aufgaben für Einzelpersonen oder Teams, Freemiumbasiertes
- Konfuzio-Team-First-Hosted- und On-Prem-Text-, Bild- und PDF-Annotationstool, das von aktivem Lernen betrieben wird, Freemium basiert, kostet $ $
- UBIAI-Einfach zu bedienendes Textannotation-Tool für Teams mit umfassendsten Funktionen zur Autoverkleidung. Unterstützt NER, Relations und Dokumentklassifizierung sowie OCR -Annotation für die Rechnungskennzeichnung, kostet $ $
- SHOONYA - Shoonya ist kostenlos und Open -Source -Datenannotationsplattform mit breiten Variationen des Organisations- und Arbeitsbereichs -Managementsystems. Shoonya ist data agnostisch und kann von Teams verwendet werden, um Daten mit verschiedenen Maßstäben der Überprüfungsstufen in der Skala zu kommentieren.
- Annotation Lab-Kostenlose End-to-End-No-Code-Plattform für Textanmerkungen und DL-Modelltraining/-abstimmung. Out-of-the-Box-Unterstützung für die genannte Entitätserkennungs-, Klassifizierungs-, Beziehungsextraktions- und Behauptungsstatus-Funken-NLP-Modelle. Unbegrenzte Unterstützung für Benutzer, Teams, Projekte, Dokumente. Nicht foss.
- Flat-Flat ist eine webbasierte sprachliche Annotationsumgebung, die im Folienformat basiert, ein reichhaltiges XML-basierter Format für sprachliche Annotation. Frei und Open Source.
Techniken
Texteinbettungen
Worteinbettungen
Daumenregel: FastText >> Handschuh> Word2VEC
WORD2VEC - Implementierung - Erklärungsblog
Handschuh - Erklärungsblog
FastText - Implementierung - Papier - Erklärungsblog
Satz- und Sprachmodellbasis Worteinbettungen
Zurück nach oben
- ELMO - Tiefe kontextualisierte Wortdarstellungen - Pytorch -Implementierung - TF -Implementierung
- Ulmfit - Universal Sprachmodell Feinabstimmung für die Textklassifizierung von Jeremy Howard und Sebastian Ruder
- Inferent - Überwachtes Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten von Facebook
- Cove - in Übersetzung gelernt: kontextualisierte Wortvektoren
- Pargraph Vektoren - aus verteilten Darstellungen von Sätzen und Dokumenten. Siehe Doc2VEC -Tutorial bei Gensim
- Sense2Vec - Über die Disambiguierung von Wort Sinn
- Überspringen Sie Gedankenvektoren - Wortdarstellungsmethode
- Adaptives Skip -Gramm - ähnlicher Ansatz mit adaptiven Eigenschaften
- Sequenz zum Sequenzlernen - Wortvektoren für die maschinelle Übersetzung
Frage Beantwortung und Wissensförderung
Zurück nach oben
- DRQA - Fragen zur Beantwortung von Domain -Fragen zur Beantwortung von Arbeiten durch Facebook -Forschung zu Wikipedia -Daten
- Dokument-QA-Einfaches und effektives Multi-Absatz-Leseverständnis von Allenai
- Vorlagenbasierte Informationsextraktion ohne Vorlagen
- Privee: Eine Architektur zur automatischen Analyse der Datenschutzrichtlinien für Web -Daten
Datensätze
Zurück nach oben
- NLP-Datensätze großartige Sammlung von NLP-Datensätzen
- Gensim -Daten - Datenrepository für vorbereitete NLP -Modelle und NLP -Korpora.
Mehrsprachige NLP -Frameworks
Zurück nach oben
- Udpipe ist eine trainierbare Pipeline zum Tokenisieren, Markieren, Lemmatisieren und Parsen von universellen Baumbanks und anderen Conll-U-Dateien. Vor allem in C ++ geschrieben, bietet eine schnelle und zuverlässige Lösung für die mehrsprachige NLP -Verarbeitung.
- NLP-Cube: Pipeline für natürliche Sprache-Satzaufteilung, Tokenisierung, Lemmatisierung, Speech-Tagging und Abhängigkeitsanalyse. Neue Plattform, geschrieben in Python mit Dynet 2.0. Bietet eigenständige (CLI/Python -Bindungen) und Serverfunktionalität (REST -API).
- Uralicnlp ist eine NLP -Bibliothek, hauptsächlich für viele gefährdete uralische Sprachen wie Sami -Sprachen, Mordvin -Sprachen, Marisprachen, Komi -Sprachen usw. Außerdem werden einige nicht unterstützte Sprachen wie Finnisch zusammen mit nichtalischen Sprachen wie Schwedisch und Arabisch unterstützt. Uralicnlp kann morphologische Analysen, Erzeugung, Lemmatisierung und Disambiguierung durchführen.
NLP auf Koreanisch
Zurück nach oben
Bibliotheken
- Konlpy - Python -Paket für die koreanische Verarbeitung natürlicher Sprache.
- Mecab (Korean) - C ++ Bibliothek für koreanische NLP
- Koalanlp - Scala Library für die koreanische Verarbeitung natürlicher Sprache.
- KONLP - R -Paket für die koreanische Verarbeitung natürlicher Sprache
Blogs und Tutorials
- DSIndexs Blog
- NLP -Kurs der Kangwon University auf Koreanisch
Datensätze
- KAIST CORPUS - Ein Korpus des Korea Advanced Institute of Science and Technology auf Koreanisch.
- Naver Sentiment Movie Corpus auf Koreanisch
- Chosun Ilbo Archiv - Datensatz in Koreanisch von einer der wichtigsten Zeitungen in Südkorea, dem Chosun Ilbo.
- Chat -Daten - Chatbot -Daten auf Koreanisch
- Petitionen - Sammeln Sie abgelaufene Petitionsdaten vom Nationalen Petitionsort Blue House.
- Koreanische parallele Korpora - NMT (Neural Machine Translation) Datensatz für Koreanisch zu Französisch und Koreanisch zum Englisch
- Korquad - Korean Squad Dataset mit Wiki HTML -Quelle. Erwähnt sowohl V1.0 als auch V2.1 zum Zeitpunkt der Hinzufügen von Awesome NLP
NLP auf Arabisch
Zurück nach oben
Bibliotheken
- Goarabic - Go -Paket für die arabische Textverarbeitung
- JSASTEM - JavaScript für arabisches Stamm
- Pyarabic - Python -Bibliotheken für Arabisch
- Rftokenizer - trainierbarer Pythonsegmentierer für Arabisch, Hebräisch und koptisch
Datensätze
- Multidomain -Datensätze - größte verfügbare Multi -Domänen -Ressourcen für die Analyse der arabischen Stimmung
- LABR - Große arabische Buchbesprechungen Datensatz
- Arabische Stoppwörter - eine Liste arabischer Stoppwörter aus verschiedenen Ressourcen
NLP auf Chinesisch
Zurück nach oben
Bibliotheken
- Jiebeba - Python -Paket für Wörter Segmentierung Dienstprogramme in Chinesisch
- Snownlp - Python -Paket für chinesisches NLP
- Fudannlp - Java -Bibliothek für die chinesische Textverarbeitung
- HANLP - Die mehrsprachige NLP -Bibliothek
Anthologie
- Funnlp - Sammlung von NLP -Tools und Ressourcen hauptsächlich für Chinesisch
NLP auf Deutsch
- Deutsch-NLP-Kuratierte Liste von Open-Access/Open-Source/Off-the-Shelf-Ressourcen und Tools, die mit einem besonderen Fokus auf Deutsch entwickelt wurden
NLP in Polnisch
- Polnisch -NLP - Eine kuratierte Liste von Ressourcen, die sich der natürlichen Sprachverarbeitung (NLP) in Politur gewidmet haben. Modelle, Tools, Datensätze.
NLP auf Spanisch
Zurück nach oben
Bibliotheken
- Spanlp - Python -Bibliothek zum Erkennen, Zensur und sauberer Obszönität, Vulgaritäten, hasserfüllten Wörtern, Rassismus, Fremdenfeindlichkeit und Mobbing in in Spanisch geschriebenen Texten. Es enthält Daten von 21 spanischsprachigen Ländern.
Daten
- Kolumbianische politische Reden
- Kopenhagen Treebank
- Spanische Milliardenwörter Corpus mit Word2VEC -Einbettungen
- Zusammenstellung von spanischen, unanbetierten Korpora
Wort- und Satzbettdings
- Spanische Wort Einbettung mit unterschiedlichen Methoden und aus verschiedenen Korpora berechnet
- Spanische Wort Einbettungen aus großen Korpora und unterschiedlichen Größen mit FastText
- Spanische Satz Einbettungspunkte aus großen Korpora unter Verwendung von SENT2VEC berechnet
- Beto - Bert für Spanisch
NLP in Indic -Sprachen
Zurück nach oben
Daten, Korpora und Baumbanks
- Hindi-Abhängigkeitsbaumbank-eine mehrschichtige mehrschichtige Baumbank für Hindi und Urdu
- Universelle Abhängigkeiten Baumbank in Hindi
- Parallele universelle Abhängigkeiten Baumbank in Hindi - Ein kleinerer Teil der oben genannten Baumbank.
- ISI Fire Stopwords -Liste (Hindi und Bangla)
- Peter Grahams Stopwords -Liste
- NLTK Corpus 60k Wörter Pos Tagged, Bangla, Hindi, Marathi, Telugu
- Hindi Movie Reviews Dataset ~ 1k Muster, 3 Polaritätsklassen
- BBC News Hindi Dataset 4.3k Beispiele, 14 Klassen
- IIT Patna Hindi ABSA -Datensatz 5.4K -Proben, 12 Domänen, 4K -Aspekt -Begriffe, Aspekt- und Satzpolarität in 4 Klassen
- Bangla ABSA 5.5K -Proben, 2 Domänen, 10 Aspektbegriffe
- IIT Patna Movie Review Sentiment Dataset 2K Proben, 3 Polaritätsbezeichnungen
Corpora/Datensätze, die einen Anmeldung/Zugriff benötigen, können per E -Mail erhalten werden
- Sail 2015 Twitter und Facebook als Sentiment -Proben in Hindi, Bengali, Tamil, Telugu.
- IIT Bombay NLP Resources Sentiwordnet, Film und Tourismus parallel mit Korpora, Polarität mit dem annotierten Corpus bezeichnet, Marathi Polarity bezeichnet Corpus.
- Tdil-IC aggregiert viele nützliche Ressourcen und bietet Zugriff auf ansonsten geschlossene Datensätze
Sprachmodelle und Worteinbettungen
- Hindi2Vec und NLP-für-Hindi Ulmfit Style Languge Model
- Iit patna zweisprachiger Wort Einbettung hi-en
- FastText -Wort -Einbettungen in eine ganze Reihe von Sprachen, die auf gemeinsamem Kriechen trainiert wurden
- Hindi und Bengali Word2Vec
- Hindi- und Urdu Elmo -Modell
- Sanskrit Albert, der auf Sanskrit Wikipedia und Oscar Corpus ausgebildet ist
Bibliotheken und Werkzeuge
- Multi-Task Deep Morphologic Analyzer Deep Network-basierte morphologische Parser für Hindi und Urdu
- Anoop Kunchukuttan 18 Sprachen, ganze Vielzahl von Merkmalen von Tokenisierung bis Übersetzung
- Sivareddys Abhängigkeitsparser -Abhängigkeits -Parser und POS -Tagger für Kannada, Hindi und Telugu. Python3 Port
- INLTK - Ein natürliches Sprach -Toolkit für Indic -Sprachen (indische Subkontinentsprachen), das auf Pytorch/Fastai aufgebaut ist, das darauf abzielt, gemeinsame NLP -Aufgaben zu unterstützen.
NLP in Thai
Zurück nach oben
Bibliotheken
- Pythainlp - Thai NLP im Python -Paket
- JTCC - Eine Charakter -Cluster -Bibliothek in Java
- Cutkum - Wortsegmentierung mit tiefem Lernen im Tensorflow
- Thai Language Toolkit - Basierend auf einem Papier von Wirote Aroonmanakun im Jahr 2002 mit dem enthaltenen Datensatz
- Synthai - Wortsegmentierung und POS -Tagging mit Deep Learning in Python
Daten
- Inter -BEST - Ein Textkorpus mit 5 Millionen Wörtern mit Wortsegmentierung
- Premierminister 29 - Datensatz mit Reden des aktuellen Premierministers von Thailand
NLP auf Dänisch
- Genannte Entitätserkennung für Dänisch
- Danlp - NLP -Ressourcen auf Dänisch
- Awesome Dänisch - eine kuratierte Liste großartiger Ressourcen für die dänische Sprachtechnologie
NLP auf Vietnamesisch
Bibliotheken
- Underthea - Vietnamesisches NLP -Toolkit
- vn.vitk - ein vietnamesisches Textverarbeitungs -Toolkit
- Vncorenlp - Ein vietnamesisches Toolkit für natürliche Sprachverarbeitung
- Phobert - Vorausgebildete Sprachmodelle für Vietnamesisch
- Pyvi - Python Vietnamesisches Kern -NLP -Toolkit
Daten
- Vietnamesische Baumbank - 10.000 Sätze für die Wahlkreis -Parsingaufgabe
- BKTREEBANK - Eine vietnamesische Abhängigkeitsbaumbank
- Ud_vietnamese - vietnamesische universelle Abhängigkeitsbaumbank
- Vivos - Ein freies vietnamesisches Sprachkorpus, das aus 15 Stunden Aufzeichnungsrede von Ailab besteht
- Vntqcorpus (big) .txt - 1,75 Millionen Sätze in Nachrichten
- Vitext2SQL-Ein Datensatz für vietnamesische Text-zu-SQL-Semantik-Parsing (EMNLP-2020-Ergebnisse)
- EVB Corpus-20.000.000 Wörter (20 Millionen) aus 15 zweisprachigen Büchern, 100 parallel englisch-vietnamesische / vietnamesisch-englische Texte, 250 Parallelrecht und Verordnungstexte, 5.000 Nachrichtenartikel und 2.000 Filmuntertitel.
NLP für Niederländisch
Zurück nach oben
- Python -Frog - Python -Bindung an Frog, eine NLP -Suite für Niederländer. (POS -Tagging, Lemmatisierung, Abhängigkeitsanalyse, NER)
- SimpleNlg_NL - niederländischer Surface Realiser für natürliche Sprache in Niederländisch verwendet, basierend auf der SimpleNlg -Implementierung für Englisch und Französisch.
- Alpino - Abhängigkeitsparser für Niederländisch (auch POS -Tagging und Lemmatisierung).
- Kaldi NL - Niederländische Spracherkennungsmodelle basierend auf Kaldi.
- Spacy - Niederländisches Modell verfügbar. - Industriestärke NLP mit Python und Cython.
NLP in Indonesisch
Datensätze
- Kompas und Temposammlungen bei ILPs
- Panl10n für POS -Tagging: 39k Sätze und 900k Word -Token
- IDN für POS -Tagging: Dieser Korpus enthält 10K -Sätze und 250.000 Word -Token
- Indonesischer Baumbank und universelle Abhängigkeiten-Indonesier
- Indosum für die Textübersicht und -klassifizierung beides
- Wordnet -Bahasa - Großes, freies, semantisches Wörterbuch
- IndoBenchmark Indonlu umfasst das vorgebildete Sprachmodell (Indoberer), das FastText-Modell, das Indo4b Corpus und mehrere NLU-Benchmark-Datensätze
Bibliotheken & Einbettung
- Natürliches Sprache Toolkit Bahasa
- Indonesisches Wort Einbettung
- Eingebetteter indonesischer FastText -Texteinbettung auf Wikipedia
- IndoBenchmark Indonlu umfasst ein vorgespanntes Sprachmodell (Indoberer), FastText -Modell, Indo4b Corpus und mehrere NLU -Benchmark -Datensätze
NLP in Urdu
Datensätze
- Sammlung von Urdu -Datensätzen für POS-, NER- und NLP -Aufgaben
Bibliotheken
- Bibliothek für natürliche Sprachverarbeitungsbibliothek für (?) Urdu Sprache
NLP auf Persisch
Zurück nach oben
Bibliotheken
- HAZM - Persisch NLP Toolkit.
- Parsivar: Ein Sprachverarbeitungs -Toolkit für Persisch
- PERKE: PERKE ist ein Python -Tastaturextraktionspaket für die persische Sprache. Es bietet eine End-to-End-Tastaturextraktionspipeline, in der jede Komponente leicht modifiziert oder erweitert werden kann, um neue Modelle zu entwickeln.
- Pastem: Persischer Stemmer, Morphologischer Analysator, Transliterator und teilweise Teil des Speech-Taggers
- Parsianalyzer: Persischer Analysator für Elasticsearch
- Virastar: Aufräumen Sie den persischen Text!
Datensätze
- Bijankhan Corpus: Bijankhan Corpus ist ein markiertes Korpus, das für die Forschung für natürliche Sprache zur Verarbeitung der Persischen Sprache (FARSI) geeignet ist. Diese Sammlung wird aus den täglichen Nachrichten und gemeinsamen Texten gesammelt. In dieser Sammlung werden alle Dokumente in verschiedene Themen wie politisch, kulturell usw. unterteilt. Insgesamt gibt es 4300 verschiedene Themen. Die Bijankhan -Sammlung enthält etwa 2,6 Millionen manuell markierte Wörter mit einem Tag -Set, das 40 persische POS -Tags enthält.
- Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) ist ein großer, frei verfügbarer persischer Corpus. Der Korpus ist eine modifizierte Version des Bijankhan-Korpus mit zusätzlicher Satzsegmentierung und konsistenter Tokenisierung mit 2.704.028 Token und mit 31 Teil der Speech-Tags mit Annotierungen. Die Teil der Speech-Tags sind mit Erklärungen in dieser Tabelle aufgeführt.
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
Lizenz
License - CC0