awesome nlp -Download - awesome nlp Source Code Download

awesome nlp

Anderer Quellcode

1.0.0

Herunterladen

Awesome-NLP

Eine kuratierte Liste von Ressourcen, die der Verarbeitung natürlicher Sprache gewidmet sind

Fantastisches NLP -Logo

Lesen Sie dies auf Englisch, traditionelles Chinesisch

Bitte lesen Sie die Beitragsrichtlinien vor, bevor Sie einen Beitrag leisten. Bitte fügen Sie Ihre bevorzugte NLP -Ressource hinzu, indem Sie eine Pull -Anfrage erheben

Inhalt

Forschungszusammenfassungen und Trends
Prominente NLP -Forschungslabors
Tutorials
- Inhalte lesen
- Videos und Kurse
- Bücher
Bibliotheken
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Clojure
- Rubin
- Rost
- NLP ++
- Julia
Dienstleistungen
Annotationsinstrumente
Datensätze
NLP auf Koreanisch
NLP auf Arabisch
NLP auf Chinesisch
NLP auf Deutsch
NLP in Polnisch
NLP auf Spanisch
NLP in Indic -Sprachen
NLP in Thai
NLP auf Dänisch
NLP auf Vietnamesisch
NLP für Niederländisch
NLP in Indonesisch
NLP in Urdu
NLP auf Persisch
NLP in Ukrainisch
NLP in Ungarisch
NLP in Portugiesisch
Andere Sprachen
Credits

Forschungszusammenfassungen und Trends

NLP-Overview ist ein aktueller Überblick über Deep-Lern-Techniken, die auf NLP angewendet werden, einschließlich Theorie, Implementierungen, Anwendungen und hochmodernen Ergebnissen. Dies ist eine große tiefe NLP -Einführung für Forscher.
Der NLP-Prozess verfolgt den Fortschritt in der Verarbeitung natürlicher Sprache, einschließlich der Datensätze und die aktuellen Stand der Technik für die häufigsten NLP-Aufgaben
NLPs Imagnet -Moment ist angekommen
ACL 2018 Highlights: Verständnis der Darstellung und Bewertung in schwierigeren Umgebungen
Vier Deep -Lern -Trends aus ACL 2017. Teil eins: Sprachstruktur und Worteinbettungen
Vier Deep -Lern -Trends aus ACL 2017. Teil zwei: Interpretierbarkeit und Aufmerksamkeit
Highlights von EMNLP 2017: Aufregende Datensätze, Rückgabe der Cluster und vieles mehr!
Tiefes Lernen für die Verarbeitung natürlicher Sprache (NLP): Fortschritte und Trends
Übersicht über den Stand der Technik in der Generierung natürlicher Sprache

Prominente NLP -Forschungslabors

Zurück nach oben

Die Berkeley NLP Group - Bemerkenswerte Beiträge enthalten ein Tool zur Rekonstruktion langer toter Sprachen, auf die hier verwiesen wird, und durch die Einnahme von Korpora aus 637 Sprachen, die derzeit in Asien und im Pazifik gesprochen werden und ihren Nachkomme nachbilden.
Language Technologies Institute, Carnegie Mellon University - Zu den bemerkenswerten Projekten gehören Avenue Project, ein syntaxgetriebenes maschinelles Übersetzungssystem für gefährdete Sprachen wie Quechua und Aymara und zuvor Noahs Ark, das AQMAR zur Verbesserung von NLP -Tools für Arabisch schuf.
NLP -Forschungsgruppe, Columbia University - Verantwortlich für die Erstellung von Bolzen (Interaktive Fehlerbehandlung für Sprachübersetzung) und ein nicht benanntes Projekt zur Charakterisierung des Lachens im Dialog.
Das Zentrum oder die Sprach- und Sprachverarbeitung, John Hopkins University - Vor kurzem in den Nachrichten zur Entwicklung von Spracherkennungssoftware, um hier einen diagnostischen Test oder eine Parkinson -Krankheit zu erstellen.
Computational Linguistics and Information Processing Group, University of Maryland-Zu den bemerkenswerten Beiträgen gehören die Zusammenarbeit zwischen Mensch und Komputer oder wort-by-for-fragebedingende Beantwortung und Modellierung der Entwicklung phonetischer Darstellungen.
Penn Natural Language Processing, Universität von Pennsylvania- berühmt für die Erstellung der Penn Treebank.
Die Stanford Nautral Language Processing Group- einer der besten NLP-Forschungslabors der Welt, die sich für die Schaffung von Stanford Corelp und ihrem Coreference-Auflösungssystem bemerken kann

Tutorials

Zurück nach oben

Inhalte lesen

Allgemeines maschinelles Lernen

Maschinelles Lernen 101 aus dem Senior Creative Engineer von Google erklärt maschinelles Lernen für Ingenieur und Führungskräfte gleichermaßen
AI Playbook - A16Z AI Playbook ist ein großartiger Link zu Ihren Managern oder Inhalten für Ihre Präsentationen
Ruders Blog von Sebastian Ruder für einen Kommentar zum besten von NLP -Forschung
Kennzeichnung des Datenhandbuchs zur Verwaltung größerer sprachlicher Annotationsprojekte
Hängt von der Definitionserfassung von Blog -Posts ab, die eine breite Palette von NLP -Themen mit detaillierter Implementierung abdecken

Einführungen und Anleitungen zu NLP

Verständnis und implementieren Sie natürliche Sprachverarbeitung
NLP in Python - Sammlung von Github -Notizbüchern
Verarbeitung natürlicher Sprache: Eine Einführung - Oxford
Tiefes Lernen für NLP mit Pytorch
Praktische NLTK -Tutorial - NLTK -Tutorials, Jupyter -Notizbücher
Verarbeitung natürlicher Sprache mit Python - Analyse des Textes mit dem natürlichen Sprach -Toolkit - Ein Online- und Printbuch, in dem NLP -Konzepte mit NLTK eingeführt werden. Die Autoren des Buches schrieben auch die NLTK -Bibliothek.
Trainieren Sie ein neues Sprachmodell von Grund auf - umarmen Gesicht?
Das Super Duper NLP Repo (SDNLPR): Sammlung von Colab -Notizbüchern, die eine breite Palette von NLP -Taskimplementierungen abdecken.

Blogs und Newsletter

Deep Learning, NLP und Darstellungen
Die illustrierten Bert, Elmo und co. (Wie NLP das Lernen des Transfers geknackt hat) und der illustrierte Transformator
Verarbeitung natürlicher Sprache von Hal Daumé III.
ARXIV: Natürliche Sprachverarbeitung (fast) von Grund auf neu
Karpathy ist die unangemessene Wirksamkeit wiederkehrender neuronaler Netze
Meisterschaft für maschinelles Lernen: Tiefes Lernen für die Verarbeitung natürlicher Sprache
Visuelle NLP -Papierzusammenfassungen

Videos und Online -Kurse

Zurück nach oben

Erweiterte natürliche Sprachverarbeitung - CS 685, UMass Amherst CS
Tiefe natürliche Sprachverarbeitung - Vorlesungsreihen aus Oxford
Deep Learning for Natural Language Processing (CS224 -N) - Richard Socker und Christopher Mannings Stanford -Kurs
Neuronale Netze für NLP - Carnegie Mellon Language Technology Institute Dort
Deep NLP -Kurs von Yandex Data School, die wichtige Ideen von Texteinbetten zur maschinellen Übersetzung einschließlich Sequenzmodellierung, Sprachmodelle usw. abdecken.
FAST.AI -Code -First -Intro in die Verarbeitung natürlicher Sprache - Dies umfasst eine Mischung aus traditionellen NLP -Themen (einschließlich Regex, SVD, Naive Bayes, Tokenisierung) und neueren Ansätzen für neuronale Netzwerke (einschließlich RNNs, SEQ2Seq, Grus und dem Transformator) sowie anhand von unentschiedenen ethischen Problemen wie Bias und Desingröße. Hier finden Sie die Jupyter -Notizbücher
Universität für maschinelle Lernen - Beschleunigte Verarbeitung natürlicher Sprache - Vorlesungen gehen von der Einführung in NLP und Textverarbeitung zu wiederkehrenden neuronalen Netzwerken und Transformatoren. Material kann hier gefunden werden.
Angewandte natürliche Sprachverarbeitungsreihe- von IIT Madras von den Grundlagen bis hin zu Autoencodern und allem. Die GitHub -Notizbücher für diesen Kurs sind auch hier verfügbar

Bücher

Sprach- und Sprachverarbeitung - kostenlos, von Prof. Dan Jurafsy
Verarbeitung natürlicher Sprache - kostenlose NLP -Notizen von Dr. Jacob Eisenstein bei Georgiatech
NLP mit Pytorch - Brian & Delip Rao
Textabbau in r
Verarbeitung natürlicher Sprache mit Python
Praktische Verarbeitung natürlicher Sprache
Verarbeitung natürlicher Sprache mit Spark NLP
Tiefes Lernen für die Verarbeitung natürlicher Sprache durch Stephan RaaijMakers
Real -World natürliche Sprachverarbeitung - von Masato Hagiwara
Verarbeitung natürlicher Sprache in Aktion, zweite Ausgabe - von Hobson Lane und Maria Dyshel

Bibliotheken

Zurück nach oben

Node.js und javaScript - node.js libaries für nlp | Zurück nach oben
- Twitter -Text - Eine JavaScript -Implementierung der Textverarbeitungsbibliothek von Twitter
- KNWL.JS - Ein natürlicher Sprachprozessor in JS
- RETEXT - Extensible System zur Analyse und Manipulation der natürlichen Sprache
- NLP -Kompromiss - Verarbeitung natürlicher Sprache im Browser
- Natural - Allgemeine natürliche Spracheinrichtungen für den Knoten
- Poplar - Ein webbasiertes Annotationstool für die Verarbeitung natürlicher Sprache (NLP)
- NLP.JS - Eine NLP -Bibliothek zum Erstellen von Bots
- Node-Fragen-Answer-Fast und produktionsbereitete Frage, die mit Distilbert in Node.js beantwortet werden
Python - Python NLP -Bibliotheken | Zurück nach oben
- Sentimental-Onix-Stimmungsmodelle für Spacy mit ONNX
- Textangriffen - Konverselangriffe, kontroverses Training und Datenvergrößerung in NLP
- Textblob - Bereitstellung einer konsistenten API zum Tauchen in die Aufgaben des natürlichen Sprachverarbeitung (NLP). Steht auf den riesigen Schultern des natürlichen Sprachtoolkit (NLTK) und des Musters und spielt gut mit beiden?
- Spacy - Industriestärke NLP mit Python und Cython?
- Speedster - Wenden Sie automatisch SOTA -Optimierungstechniken an, um die maximale Inferenz -Beschleunigung Ihrer Hardware zu erreichen
  - Textak - höherer NLP auf Spacy basiert auf Spacy
- Gensim - Python -Bibliothek, um unbeaufsichtigte semantische Modellierung aus einfachem Text durchzuführen?
- Streuung - Python -Bibliothek zur Erzeugung von D3 -Visualisierungen darüber, wie sich die Sprache zwischen Korpora unterscheidet
- GluonnLP-Ein Deep-Learning-Toolkit für NLP, der auf MXNET/Gluon für Forschungsprototyping und industrielle Bereitstellung hochmoderner Modelle auf einer Vielzahl von NLP-Aufgaben basiert.
- ALLENNLP-Eine NLP-Forschungsbibliothek, die auf Pytorch basiert, um hochmoderne Deep-Learn-Modelle für eine Vielzahl von sprachlichen Aufgaben zu entwickeln.
- Pytorch -NLP - NLP -Forschungs -Toolkit zur Unterstützung eines schnellen Prototyps mit besseren Datenladern, Word -Vektorladern, neuronalen Netzwerkschichtdarstellungen, gemeinsamen NLP -Metriken wie BLEU
- Rosetta - Textverarbeitungswerkzeuge und Verpackungen (z. B. Vowpal Wabbit)
- PynlPL - Bibliothek für natürliche Sprachverarbeitungsbibliothek Python. Allzwecke NLP -Bibliothek für Python, behandelt einige spezifische Formate wie ARPA -Sprachmodelle, Moses Phrasetables, Giza ++ Ausrichtungen.
- Foliapy - Python Library für die Arbeit mit Folia, einem XML -Format für sprachliche Annotation.
- PYSS3 - Python -Paket, das ein neuartiges Modell für maschinelles Lernen von White -Box Machine für die Textklassifizierung implementiert. Da SS3 seine Begründung visuell erklären kann, verfügt dieses Paket auch mit benutzerfreundlichen interaktiven Visualisierungs-Tools (Online-Demos).
- JPTDP-Ein Toolkit für gemeinsames Tagging und Abhängigkeitsanalyse für gemeinsame Sprachaussendungen (POS). JPTDP bietet vorgebrachte Modelle für mehr als 40 Sprachen.
- BigArtm - Eine schnelle Bibliothek für Themenmodellierung
- Snips NLU - Eine Produktionsbibliothek zur Absicht an Parsen
- Chazutsu - Eine Bibliothek zum Herunterladen und Parsen von Standard -NLP -Forschungsdatensätzen
- Wortformen - Wortformen können alle möglichen Formen eines englischen Wortes genau generieren
- Mehrsprachige latente Dirichlet -Allokation (LDA) - eine mehrsprachige und erweiterbare Dokument -Clustering -Pipeline
- Natural Language Toolkit (NLTK) - Eine Bibliothek mit einer Vielzahl von NLP -Funktionen, die über 50 Korpora unterstützt.
- NLP Architect-Eine Bibliothek zur Erforschung der hochmodernen Deep-Learning-Topologien und -techniken für NLP und NLU
- Flair-Ein sehr einfaches Rahmen für hochmoderne mehrsprachige NLP, die auf Pytorch basieren. Enthält Bert, Elmo und Flair -Einbettungen.
- Kashgari-Einfacher, kerasbetriebener mehrsprachiger NLP-Framework ermöglicht es Ihnen, Ihre Modelle in 5 Minuten für die genannte Entitätserkennung (NER), die Aufgaben des Speech-Tagging (POS) und Textklassifizierung zu erstellen. Beinhaltet Bert und Word2VEC Einbettung.
- Farm - schnelles und einfaches Transferlernen für NLP. Erntesprachmodelle für die Branche. Konzentrieren Sie sich auf die Beantwortung von Fragen.
- Haystack-End-to-End-Python-Framework zum Aufbau natürlicher Sprachsuche Schnittstellen zu Daten. Nutzt Transformatoren und die hochmoderne NLP. Unterstützt DPR, Elasticsearch, Huggingface's ModelHub und vieles mehr!
- Rita DSL - Eine DSL, lose auf Ruta auf Apache Uima. Ermöglicht, Sprachmuster (regelbasiertes NLP) zu definieren, die dann in Spacy übersetzt werden oder wenn Sie weniger Funktionen und leichte Regex -Muster bevorzugen.
- Transformatoren - Verarbeitung natürlicher Sprache für TensorFlow 2.0 und Pytorch.
- Tokenizer - Tokenizer, die für Forschung und Produktion optimiert sind.
- Fairseq Facebook AI Research Implementierungen von SOTA SEQ2SEQ -Modellen in Pytorch.
- COREX_TOPIC - Hierarchische Themenmodellierung mit minimalem Domänenwissen
- Sockeye - Neural Machine Translation (NMT) Toolkit, das Amazon Translate macht.
- DL Translate - Eine tief lernbasierte Übersetzungsbibliothek für 50 Sprachen, die auf transformers und Facebook von Mbart Large basiert.
- Jury - Bewertung von NLP -Modellausgängen, die verschiedene automatisierte Metriken anbieten.
- Python-ucto-Unicode-bewusstes reguläres Expression basiert auf verschiedenen Sprachen. Python -Bindung an die C ++ - Bibliothek unterstützt das Folia -Format.

C ++ - C ++ Bibliotheken | Zurück nach oben
- INSNET-Eine neuronale Netzwerkbibliothek für das Erstellen von Instanz-abhängigen NLP-Modellen mit paddingfreiem dynamischen Chargen.
- MIT Information Extraction Toolkit - C, C ++ und Python -Tools für die Erkennung von Entität und Beziehungsextraktion
- CRF ++ - Open -Source -Implementierung von bedingten Zufallsfeldern (CRFs) zur Segmentierung/Kennzeichnung sequentieller Daten und anderen Aufgaben zur Verarbeitung natürlicher Sprache.
- CRFSUITE - CRFSUITE ist eine Implementierung der bedingten Zufallsfelder (CRFS) zum Kennleisten sequentieller Daten.
- Bllip Parser - Bllip Natural Language Parser (auch als Charniak -Johnson -Parser bekannt)
- Colibri-Core-C ++ Bibliothek, Befehlszeilen-Tools und Python-Bindung zum Extrahieren und Arbeiten mit grundlegenden sprachlichen Konstruktionen wie N-Gramm und Skipgrams auf schnelle und speichereffiziente Weise.
- UCTO-Unicode-bewusstes reguläres Expression basiert auf verschiedenen Sprachen. Tool und C ++ Bibliothek. Unterstützt das Folia -Format.
- libfolia - C ++ Bibliothek für das Folia -Format
- FROG - Memory -basierte NLP -Suite für Niederländisch: POS -Tagger, Lemmatiser, Abhängigkeitsparser, Ner, Sloger Parser, Morphologic Analyzer.
- META - META: Moderne Textanalyse ist ein C ++ - Data Sciences Toolkit, das die Bergbildung von großen Textdaten erleichtert.
- Mecab (Japanisch)
- Moses
- STARSPACE-Eine Bibliothek von Facebook zum Erstellen von Einbettungen von Wortebene, Absatzebene, Dokumentenebene und zur Textklassifizierung
Java - Java NLP -Bibliotheken | Zurück nach oben
- Stanford NLP
- OpenNLP
- NLP4J
- Word2Vec in Java
- Reverb Web-Scale Open Information Extraction
- OpenRegex Eine effiziente und flexible tokenbasierte reguläre Expressionssprache und -motor.
- COGCompnlp - Kernbibliotheken, die in der kognitiven Berechnungsgruppe von U of Illinois entwickelt wurden.
- Mallet - maschinelles Lernen für Sprachtoolkit - Paket für statistische Verarbeitung natürlicher Sprache, Dokumentenklassifizierung, Clustering, Themenmodellierung, Informationsextraktion und andere maschinelle Lernanwendungen für Text.
- RDRPOSTAGG - Ein robustes POS -Tagging -Toolkit (in Java und Python) sowie vorübergehende Modelle für mehr als 40 Sprachen.
Kotlin - Kotlin NLP -Bibliotheken | Zurück nach oben
- Lingua Eine Spracherkennungsbibliothek für Kotlin und Java, für lange und kurze Text gleichermaßen geeignet
- KOTIDGY-Ein indexbasierter Textdatengenerator in Kotlin geschrieben
Scala - Scala NLP -Bibliotheken | Zurück nach oben
- Saul - Bibliothek zur Entwicklung von NLP -Systemen, einschließlich integrierter Module wie SRL, POS usw.
- ATR4S-Toolkit mit hochmodernen automatischen Erkennungsmethoden.
- TM - Implementierung der Themenmodellierung basierend auf regulierten mehrsprachigen PLSA.
- WORD2VEC -SCALA - SCALA -Schnittstelle zum Word2VEC -Modell; Beinhaltet Operationen auf Vektoren wie Wortdistanz und Wortanalogie.
- Epic - Epic ist ein in Scala geschriebenes Hochleistungs -statistischer Parser sowie ein Rahmen für den Aufbau komplexer strukturierter Vorhersagemodelle.
- Spark NLP - Spark NLP ist eine Bibliothek für natürliche Sprachverarbeitung, die auf Apache Spark ML basiert, die einfache, leistungsfähige und genaue NLP -Annotationen für maschinelle Lernpipelines bietet, die in einer verteilten Umgebung leicht skalieren.
R - R NLP -Bibliotheken | Zurück nach oben
- Text2VEC - Schnelle Vektorisierung, Themenmodellierung, Entfernungen und Handschuhwort -Einbettungen in R.
- WordVectors - Ein R -Paket zum Erstellen und Erforschen von Word2VEC und anderen Wortbettungsmodellen
- RMallet - R -Paket zur Schnittstelle zum Java Machine Learning Tool Mallet
- DFR -Browser - Erstellt D3 -Visualisierungen zum Surfen von Textmodellen von Text in einem Webbrowser.
- DFRTOPICS - R -Paket zum Erkunden von Themenmodellen des Textes.
- Sentiment_Classifier - Sentiment -Klassifizierung mit Word -Sinn -Disambiguation und WordNet -Leser
- JPRECESSING - Japanische natürliche Langauge -Verarbeitungsbibliotheken mit japanischer Stimmungsklassifizierung
- CorporaExplorer - Ein R -Paket zur dynamischen Erforschung von Textsammlungen
- TidyText - Textmining mit ordentlichen Tools
- Spacyr - r Wrapper zu Spacy NLP
- Cran -Aufgabenansicht: Verarbeitung natürlicher Sprache
Clojure | Zurück nach oben
- Clojure -Opennlp - Verarbeitung natürlicher Sprache in Clojure (OpenNLP)
- Infektionen-ClJ-Schienen-ähnliche Beugungbibliothek für Clojure und ClojureScript
- Postagga - Eine Bibliothek, um natürliche Sprache in Clojure und ClojureScript zu analysieren
Ruby | Zurück nach oben
- Kevin Dias 'eine Sammlung von NLP -Bibliotheken, Tools und Software für natürliche Sprachverarbeitung (NLP)
- Praktische natürliche Sprachverarbeitung in Ruby
Rost | Zurück nach oben
- Whatlang - Bibliothek für natürliche Spracherkennung auf Basis von Trigramme
- Snips-NLU-Rs-Eine Produktionsbibliothek zur Absicht an Parsen
- Rust-Bert-nutzende NLP-Pipelines und Transformator-basierte Modelle
NLP ++ - NLP ++ Sprache | Zurück nach oben
- VSCODE -Sprachweiterung - NLP ++ Spracherweiterung für VSCODE
- NLP -Engine - NLP ++ Engine zum Ausführen von NLP ++ Code unter Linux, einschließlich eines vollständigen englischen Parsers
- VisualText - Homepage für die NLP ++ - Sprache
- NLP ++ Wiki - Wiki -Eintrag für die NLP ++ - Sprache
Julia | Zurück nach oben
- Corpusloader - verschiedene Lader für verschiedene NLP -Korpora
- Sprachen - ein Paket für die Arbeit mit menschlichen Sprachen
- Textanalyse - Julia -Paket für die Textanalyse
- TextModels - Neuronale Netzwerkbasis Modelle für die Verarbeitung natürlicher Sprache
- WordTokenizer - Hochleistungs -Tokenizer für die Verarbeitung natürlicher Sprache und andere verwandte Aufgaben
- Word2VEC - Julia Schnittstelle zu Word2Vec

Dienstleistungen

NLP als API mit höherer Funktionalität wie NER, Themen -Tagging usw. weiter | Zurück nach oben

Wit -Ai - Natürliche Sprachschnittstelle für Apps und Geräte
IBM Watsons natürliches Sprachverständnis - API und Github Demo
Amazon Crekend - NLP und ML Suite deckt die meisten häufigsten Aufgaben wie NER, Tagging und Stimmungsanalyse ab
Google Cloud Natural Language API - Syntaxanalyse, NER, Stimmungsanalyse und Inhalts -Tagging in mindestens 9 Sprachen umfassen Englisch und Chinesisch (vereinfacht und traditionell).
Paralleldots - API -Service auf hoher Ebene der Textanalyse, die von der Stimmungsanalyse bis zur Absichtsanalyse reichen
Microsoft Cognitive Service
Textrazor
Rosette
Textalytische - Verarbeitung natürlicher Sprache im Browser mit Stimmungsanalyse, genannter Entitätsextraktion, POS -Tagging, Wortfrequenzen, Themenmodellierung, Wortwolken und mehr
NLP Cloud - Spacy NLP -Modelle (benutzerdefinierte und vorgebrachte), die durch eine erholsame API für die genannte Entitätserkennung (NER), POS -Tagging und mehr bedient wurden.
CloudMersive - Einheitliche und freie NLP -APIs, die Aktionen wie Sprach -Tagging, Textumformung, Sprachübersetzung/Erkennung und Satz Parsing ausführen

Annotationsinstrumente

Gate - Allgemeine Architektur und Texttechnik sind mehr als 15 Jahre alt, kostenlos und Open Source
Anafora ist kostenlos und Open Source, webbasiertes Rohtext-Annotation-Tool
Brat - Brat Rapid Annotation Tool ist eine Online -Umgebung für die Annotation für kollaborative Texte
Doccano - Doccano ist kostenlos, Open -Source und bietet Annotationsfunktionen für die Textklassifizierung, Sequenzmarkierung und Sequenz zur Sequenz
Inception - Eine semantische Annotationsplattform, die intelligente Unterstützung und Wissensmanagement bietet
Tagtog, Team -First -Web -Tool, um Datensätze zu finden, zu erstellen, zu warten und zu teilen - kostet $ $
Prodigy ist ein Annotationsinstrument, das durch aktives Lernen betrieben wird, kostet $ $
LightTag - Hosted and Management Text Annotation Tool für Teams, kostet $ $
RSTWEB - Open Source Local- oder Online -Tool für Diskursbaumanmerkungen
GitDox - Open Source Server Annotation Tool mit GitHub -Versionskontrolle und Validierung für XML -Daten und kollaborative Tabellenkalkulat
Label Studio - gehostete und verwaltete Textanmerkungen für Teams, Freemiumbasiert, kostet $ $
Datasaurier unterstützen verschiedene NLP -Aufgaben für Einzelpersonen oder Teams, Freemiumbasiertes
Konfuzio-Team-First-Hosted- und On-Prem-Text-, Bild- und PDF-Annotationstool, das von aktivem Lernen betrieben wird, Freemium basiert, kostet $ $
UBIAI-Einfach zu bedienendes Textannotation-Tool für Teams mit umfassendsten Funktionen zur Autoverkleidung. Unterstützt NER, Relations und Dokumentklassifizierung sowie OCR -Annotation für die Rechnungskennzeichnung, kostet $ $
SHOONYA - Shoonya ist kostenlos und Open -Source -Datenannotationsplattform mit breiten Variationen des Organisations- und Arbeitsbereichs -Managementsystems. Shoonya ist data agnostisch und kann von Teams verwendet werden, um Daten mit verschiedenen Maßstäben der Überprüfungsstufen in der Skala zu kommentieren.
Annotation Lab-Kostenlose End-to-End-No-Code-Plattform für Textanmerkungen und DL-Modelltraining/-abstimmung. Out-of-the-Box-Unterstützung für die genannte Entitätserkennungs-, Klassifizierungs-, Beziehungsextraktions- und Behauptungsstatus-Funken-NLP-Modelle. Unbegrenzte Unterstützung für Benutzer, Teams, Projekte, Dokumente. Nicht foss.
Flat-Flat ist eine webbasierte sprachliche Annotationsumgebung, die im Folienformat basiert, ein reichhaltiges XML-basierter Format für sprachliche Annotation. Frei und Open Source.

Techniken

Texteinbettungen

Worteinbettungen

Daumenregel: FastText >> Handschuh> Word2VEC
WORD2VEC - Implementierung - Erklärungsblog
Handschuh - Erklärungsblog
FastText - Implementierung - Papier - Erklärungsblog

Satz- und Sprachmodellbasis Worteinbettungen

Zurück nach oben

ELMO - Tiefe kontextualisierte Wortdarstellungen - Pytorch -Implementierung - TF -Implementierung
Ulmfit - Universal Sprachmodell Feinabstimmung für die Textklassifizierung von Jeremy Howard und Sebastian Ruder
Inferent - Überwachtes Lernen von universellen Satzdarstellungen aus natürlichen Sprachinferenzdaten von Facebook
Cove - in Übersetzung gelernt: kontextualisierte Wortvektoren
Pargraph Vektoren - aus verteilten Darstellungen von Sätzen und Dokumenten. Siehe Doc2VEC -Tutorial bei Gensim
Sense2Vec - Über die Disambiguierung von Wort Sinn
Überspringen Sie Gedankenvektoren - Wortdarstellungsmethode
Adaptives Skip -Gramm - ähnlicher Ansatz mit adaptiven Eigenschaften
Sequenz zum Sequenzlernen - Wortvektoren für die maschinelle Übersetzung

Frage Beantwortung und Wissensförderung

Zurück nach oben

DRQA - Fragen zur Beantwortung von Domain -Fragen zur Beantwortung von Arbeiten durch Facebook -Forschung zu Wikipedia -Daten
Dokument-QA-Einfaches und effektives Multi-Absatz-Leseverständnis von Allenai
Vorlagenbasierte Informationsextraktion ohne Vorlagen
Privee: Eine Architektur zur automatischen Analyse der Datenschutzrichtlinien für Web -Daten

Datensätze

Zurück nach oben

NLP-Datensätze großartige Sammlung von NLP-Datensätzen
Gensim -Daten - Datenrepository für vorbereitete NLP -Modelle und NLP -Korpora.

Mehrsprachige NLP -Frameworks

Zurück nach oben

Udpipe ist eine trainierbare Pipeline zum Tokenisieren, Markieren, Lemmatisieren und Parsen von universellen Baumbanks und anderen Conll-U-Dateien. Vor allem in C ++ geschrieben, bietet eine schnelle und zuverlässige Lösung für die mehrsprachige NLP -Verarbeitung.
NLP-Cube: Pipeline für natürliche Sprache-Satzaufteilung, Tokenisierung, Lemmatisierung, Speech-Tagging und Abhängigkeitsanalyse. Neue Plattform, geschrieben in Python mit Dynet 2.0. Bietet eigenständige (CLI/Python -Bindungen) und Serverfunktionalität (REST -API).
Uralicnlp ist eine NLP -Bibliothek, hauptsächlich für viele gefährdete uralische Sprachen wie Sami -Sprachen, Mordvin -Sprachen, Marisprachen, Komi -Sprachen usw. Außerdem werden einige nicht unterstützte Sprachen wie Finnisch zusammen mit nichtalischen Sprachen wie Schwedisch und Arabisch unterstützt. Uralicnlp kann morphologische Analysen, Erzeugung, Lemmatisierung und Disambiguierung durchführen.

NLP auf Koreanisch

Zurück nach oben

Bibliotheken

Konlpy - Python -Paket für die koreanische Verarbeitung natürlicher Sprache.
Mecab (Korean) - C ++ Bibliothek für koreanische NLP
Koalanlp - Scala Library für die koreanische Verarbeitung natürlicher Sprache.
KONLP - R -Paket für die koreanische Verarbeitung natürlicher Sprache

Blogs und Tutorials

DSIndexs Blog
NLP -Kurs der Kangwon University auf Koreanisch

Datensätze

KAIST CORPUS - Ein Korpus des Korea Advanced Institute of Science and Technology auf Koreanisch.
Naver Sentiment Movie Corpus auf Koreanisch
Chosun Ilbo Archiv - Datensatz in Koreanisch von einer der wichtigsten Zeitungen in Südkorea, dem Chosun Ilbo.
Chat -Daten - Chatbot -Daten auf Koreanisch
Petitionen - Sammeln Sie abgelaufene Petitionsdaten vom Nationalen Petitionsort Blue House.
Koreanische parallele Korpora - NMT (Neural Machine Translation) Datensatz für Koreanisch zu Französisch und Koreanisch zum Englisch
Korquad - Korean Squad Dataset mit Wiki HTML -Quelle. Erwähnt sowohl V1.0 als auch V2.1 zum Zeitpunkt der Hinzufügen von Awesome NLP

NLP auf Arabisch

Zurück nach oben

Bibliotheken

Goarabic - Go -Paket für die arabische Textverarbeitung
JSASTEM - JavaScript für arabisches Stamm
Pyarabic - Python -Bibliotheken für Arabisch
Rftokenizer - trainierbarer Pythonsegmentierer für Arabisch, Hebräisch und koptisch

Datensätze

Multidomain -Datensätze - größte verfügbare Multi -Domänen -Ressourcen für die Analyse der arabischen Stimmung
LABR - Große arabische Buchbesprechungen Datensatz
Arabische Stoppwörter - eine Liste arabischer Stoppwörter aus verschiedenen Ressourcen

NLP auf Chinesisch

Zurück nach oben

Bibliotheken

Jiebeba - Python -Paket für Wörter Segmentierung Dienstprogramme in Chinesisch
Snownlp - Python -Paket für chinesisches NLP
Fudannlp - Java -Bibliothek für die chinesische Textverarbeitung
HANLP - Die mehrsprachige NLP -Bibliothek

Anthologie

Funnlp - Sammlung von NLP -Tools und Ressourcen hauptsächlich für Chinesisch

NLP auf Deutsch

Deutsch-NLP-Kuratierte Liste von Open-Access/Open-Source/Off-the-Shelf-Ressourcen und Tools, die mit einem besonderen Fokus auf Deutsch entwickelt wurden

NLP in Polnisch

Polnisch -NLP - Eine kuratierte Liste von Ressourcen, die sich der natürlichen Sprachverarbeitung (NLP) in Politur gewidmet haben. Modelle, Tools, Datensätze.

NLP auf Spanisch

Zurück nach oben

Bibliotheken

Spanlp - Python -Bibliothek zum Erkennen, Zensur und sauberer Obszönität, Vulgaritäten, hasserfüllten Wörtern, Rassismus, Fremdenfeindlichkeit und Mobbing in in Spanisch geschriebenen Texten. Es enthält Daten von 21 spanischsprachigen Ländern.

Daten

Kolumbianische politische Reden
Kopenhagen Treebank
Spanische Milliardenwörter Corpus mit Word2VEC -Einbettungen
Zusammenstellung von spanischen, unanbetierten Korpora

Wort- und Satzbettdings

Spanische Wort Einbettung mit unterschiedlichen Methoden und aus verschiedenen Korpora berechnet
Spanische Wort Einbettungen aus großen Korpora und unterschiedlichen Größen mit FastText
Spanische Satz Einbettungspunkte aus großen Korpora unter Verwendung von SENT2VEC berechnet
Beto - Bert für Spanisch

NLP in Indic -Sprachen

Zurück nach oben

Daten, Korpora und Baumbanks

Hindi-Abhängigkeitsbaumbank-eine mehrschichtige mehrschichtige Baumbank für Hindi und Urdu
Universelle Abhängigkeiten Baumbank in Hindi
- Parallele universelle Abhängigkeiten Baumbank in Hindi - Ein kleinerer Teil der oben genannten Baumbank.
ISI Fire Stopwords -Liste (Hindi und Bangla)
Peter Grahams Stopwords -Liste
NLTK Corpus 60k Wörter Pos Tagged, Bangla, Hindi, Marathi, Telugu
Hindi Movie Reviews Dataset ~ 1k Muster, 3 Polaritätsklassen
BBC News Hindi Dataset 4.3k Beispiele, 14 Klassen
IIT Patna Hindi ABSA -Datensatz 5.4K -Proben, 12 Domänen, 4K -Aspekt -Begriffe, Aspekt- und Satzpolarität in 4 Klassen
Bangla ABSA 5.5K -Proben, 2 Domänen, 10 Aspektbegriffe
IIT Patna Movie Review Sentiment Dataset 2K Proben, 3 Polaritätsbezeichnungen

Corpora/Datensätze, die einen Anmeldung/Zugriff benötigen, können per E -Mail erhalten werden

Sail 2015 Twitter und Facebook als Sentiment -Proben in Hindi, Bengali, Tamil, Telugu.
IIT Bombay NLP Resources Sentiwordnet, Film und Tourismus parallel mit Korpora, Polarität mit dem annotierten Corpus bezeichnet, Marathi Polarity bezeichnet Corpus.
Tdil-IC aggregiert viele nützliche Ressourcen und bietet Zugriff auf ansonsten geschlossene Datensätze

Sprachmodelle und Worteinbettungen

Hindi2Vec und NLP-für-Hindi Ulmfit Style Languge Model
Iit patna zweisprachiger Wort Einbettung hi-en
FastText -Wort -Einbettungen in eine ganze Reihe von Sprachen, die auf gemeinsamem Kriechen trainiert wurden
Hindi und Bengali Word2Vec
Hindi- und Urdu Elmo -Modell
Sanskrit Albert, der auf Sanskrit Wikipedia und Oscar Corpus ausgebildet ist

Bibliotheken und Werkzeuge

Multi-Task Deep Morphologic Analyzer Deep Network-basierte morphologische Parser für Hindi und Urdu
Anoop Kunchukuttan 18 Sprachen, ganze Vielzahl von Merkmalen von Tokenisierung bis Übersetzung
Sivareddys Abhängigkeitsparser -Abhängigkeits -Parser und POS -Tagger für Kannada, Hindi und Telugu. Python3 Port
INLTK - Ein natürliches Sprach -Toolkit für Indic -Sprachen (indische Subkontinentsprachen), das auf Pytorch/Fastai aufgebaut ist, das darauf abzielt, gemeinsame NLP -Aufgaben zu unterstützen.

NLP in Thai

Zurück nach oben

Bibliotheken

Pythainlp - Thai NLP im Python -Paket
JTCC - Eine Charakter -Cluster -Bibliothek in Java
Cutkum - Wortsegmentierung mit tiefem Lernen im Tensorflow
Thai Language Toolkit - Basierend auf einem Papier von Wirote Aroonmanakun im Jahr 2002 mit dem enthaltenen Datensatz
Synthai - Wortsegmentierung und POS -Tagging mit Deep Learning in Python

Daten

Inter -BEST - Ein Textkorpus mit 5 Millionen Wörtern mit Wortsegmentierung
Premierminister 29 - Datensatz mit Reden des aktuellen Premierministers von Thailand

NLP auf Dänisch

Genannte Entitätserkennung für Dänisch
Danlp - NLP -Ressourcen auf Dänisch
Awesome Dänisch - eine kuratierte Liste großartiger Ressourcen für die dänische Sprachtechnologie

NLP auf Vietnamesisch

Bibliotheken

Underthea - Vietnamesisches NLP -Toolkit
vn.vitk - ein vietnamesisches Textverarbeitungs -Toolkit
Vncorenlp - Ein vietnamesisches Toolkit für natürliche Sprachverarbeitung
Phobert - Vorausgebildete Sprachmodelle für Vietnamesisch
Pyvi - Python Vietnamesisches Kern -NLP -Toolkit

Daten

Vietnamesische Baumbank - 10.000 Sätze für die Wahlkreis -Parsingaufgabe
BKTREEBANK - Eine vietnamesische Abhängigkeitsbaumbank
Ud_vietnamese - vietnamesische universelle Abhängigkeitsbaumbank
Vivos - Ein freies vietnamesisches Sprachkorpus, das aus 15 Stunden Aufzeichnungsrede von Ailab besteht
Vntqcorpus (big) .txt - 1,75 Millionen Sätze in Nachrichten
Vitext2SQL-Ein Datensatz für vietnamesische Text-zu-SQL-Semantik-Parsing (EMNLP-2020-Ergebnisse)
EVB Corpus-20.000.000 Wörter (20 Millionen) aus 15 zweisprachigen Büchern, 100 parallel englisch-vietnamesische / vietnamesisch-englische Texte, 250 Parallelrecht und Verordnungstexte, 5.000 Nachrichtenartikel und 2.000 Filmuntertitel.

NLP für Niederländisch

Zurück nach oben

Python -Frog - Python -Bindung an Frog, eine NLP -Suite für Niederländer. (POS -Tagging, Lemmatisierung, Abhängigkeitsanalyse, NER)
SimpleNlg_NL - niederländischer Surface Realiser für natürliche Sprache in Niederländisch verwendet, basierend auf der SimpleNlg -Implementierung für Englisch und Französisch.
Alpino - Abhängigkeitsparser für Niederländisch (auch POS -Tagging und Lemmatisierung).
Kaldi NL - Niederländische Spracherkennungsmodelle basierend auf Kaldi.
Spacy - Niederländisches Modell verfügbar. - Industriestärke NLP mit Python und Cython.

NLP in Indonesisch

Datensätze

Kompas und Temposammlungen bei ILPs
Panl10n für POS -Tagging: 39k Sätze und 900k Word -Token
IDN für POS -Tagging: Dieser Korpus enthält 10K -Sätze und 250.000 Word -Token
Indonesischer Baumbank und universelle Abhängigkeiten-Indonesier
Indosum für die Textübersicht und -klassifizierung beides
Wordnet -Bahasa - Großes, freies, semantisches Wörterbuch
IndoBenchmark Indonlu umfasst das vorgebildete Sprachmodell (Indoberer), das FastText-Modell, das Indo4b Corpus und mehrere NLU-Benchmark-Datensätze

Bibliotheken & Einbettung

Natürliches Sprache Toolkit Bahasa
Indonesisches Wort Einbettung
Eingebetteter indonesischer FastText -Texteinbettung auf Wikipedia
IndoBenchmark Indonlu umfasst ein vorgespanntes Sprachmodell (Indoberer), FastText -Modell, Indo4b Corpus und mehrere NLU -Benchmark -Datensätze

NLP in Urdu

Datensätze

Sammlung von Urdu -Datensätzen für POS-, NER- und NLP -Aufgaben

Bibliotheken

Bibliothek für natürliche Sprachverarbeitungsbibliothek für (?) Urdu Sprache

NLP auf Persisch

Zurück nach oben

Bibliotheken

HAZM - Persisch NLP Toolkit.
Parsivar: Ein Sprachverarbeitungs -Toolkit für Persisch
PERKE: PERKE ist ein Python -Tastaturextraktionspaket für die persische Sprache. Es bietet eine End-to-End-Tastaturextraktionspipeline, in der jede Komponente leicht modifiziert oder erweitert werden kann, um neue Modelle zu entwickeln.
Pastem: Persischer Stemmer, Morphologischer Analysator, Transliterator und teilweise Teil des Speech-Taggers
Parsianalyzer: Persischer Analysator für Elasticsearch
Virastar: Aufräumen Sie den persischen Text!

Datensätze

Bijankhan Corpus: Bijankhan Corpus ist ein markiertes Korpus, das für die Forschung für natürliche Sprache zur Verarbeitung der Persischen Sprache (FARSI) geeignet ist. Diese Sammlung wird aus den täglichen Nachrichten und gemeinsamen Texten gesammelt. In dieser Sammlung werden alle Dokumente in verschiedene Themen wie politisch, kulturell usw. unterteilt. Insgesamt gibt es 4300 verschiedene Themen. Die Bijankhan -Sammlung enthält etwa 2,6 Millionen manuell markierte Wörter mit einem Tag -Set, das 40 persische POS -Tags enthält.
Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) ist ein großer, frei verfügbarer persischer Corpus. Der Korpus ist eine modifizierte Version des Bijankhan-Korpus mit zusätzlicher Satzsegmentierung und konsistenter Tokenisierung mit 2.704.028 Token und mit 31 Teil der Speech-Tags mit Annotierungen. Die Teil der Speech-Tags sind mit Erklärungen in dieser Tabelle aufgeführt.
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources

Lizenz

License - CC0

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-15
Größe 55.83KB
Kommt von Github

Ähnliche Anwendungen

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Tolles Teufelsspiel

2023-04-16
Die tolle Anzeige

2022-08-08