Téléchargement awesome nlp - Téléchargement du code source awesome nlp

awesome nlp

Autre code source

1.0.0

Télécharger

génial-nlp

Une liste organisée de ressources dédiées au traitement du langage naturel

Logo NLP génial

Lisez ceci en anglais, chinois traditionnel

Veuillez lire les directives de contribution avant de contribuer. Veuillez ajouter votre ressource NLP préférée en soulevant une demande de traction

Contenu

Résumé et tendances de la recherche
Labs de recherche NLP proéminents
Tutoriels
- Lecture de contenu
- Vidéos et cours
- Livres
Bibliothèques
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Se cacher
- Rubis
- Rouiller
- NLP ++
- Julia
Services
Outils d'annotation
Ensembles de données
PNL en coréen
PNL en arabe
PNL en chinois
PNL en allemand
PNL en polissage
PNL en espagnol
NLP dans les langues indic
PNL en thaï
PNL en danois
PNL en vietnamien
PNL pour néerlandais
PNL en indonésien
PNL en ourdou
PNL en persan
PNL en ukrainien
PNL en hongrois
PNL en portugais
Autres langues
Crédits

Résumé et tendances de la recherche

La PNL-Overview est un aperçu à jour des techniques d'apprentissage en profondeur appliquées à la PNL, y compris la théorie, les implémentations, les applications et les résultats de pointe. Il s'agit d'une grande introduction en PNL profonde pour les chercheurs.
PNLP-Progress suit les progrès du traitement du langage naturel, y compris les ensembles de données et l'état actuel de la technologie pour les tâches NLP les plus courantes
Le moment ImageNet de NLP est arrivé
ACL 2018 FAITES: Comprendre la représentation et l'évaluation dans des contextes plus difficiles
Quatre tendances d'apprentissage en profondeur à partir de l'ACL 2017. Première partie: structure linguistique et incorporation de mots
Quatre tendances d'apprentissage en profondeur de l'ACL 2017. Deuxième partie: interprétabilité et attention
Faits saillants de l'EMNLP 2017: ensembles de données passionnants, retour des clusters, et plus encore!
Apprentissage en profondeur pour le traitement du langage naturel (PNL): progrès et tendances
Enquête sur l'état de l'art en génération de langage naturel

Labs de recherche NLP proéminents

Retour en haut

Le groupe NLP de Berkeley - les contributions notables comprennent un outil pour reconstruire les langues mortes longues, référencées ici et en prenant les corpus de 637 langues actuellement parlées en Asie et dans le Pacifique et en recréant leur descendance.
Language Technologies Institute, Carnegie Mellon University - Les projets notables incluent Avenue Project, un système de traduction automatique axé sur la syntaxe pour les langues en voie de disparition comme Quechua et Aymara et auparavant, l'arche de Noah qui a créé AQMAR pour améliorer les outils PNL pour l'arabe.
NLP Research Group, Columbia University - responsable de la création de Bolt (gestion des erreurs interactives pour les systèmes de traduction de la parole) et un projet non nommé pour caractériser le rire en dialogue.
Le centre ou le traitement de la langue et de la parole, Université John Hopkins - récemment dans l'actualité pour développer des logiciels de reconnaissance vocale pour créer un test de diagnostic ou la maladie de Parkinson, ici.
Group de linguistique et de traitement de l'information computationnel, Université du Maryland - Les contributions notables comprennent la coopération des ordinateurs humains ou les questions mot-par mots répondant et modéliser le développement de représentations phonétiques.
Penn Natural Language Processing, Université de Pennsylvanie - célèbre pour avoir créé la Penn Treebank.
Le groupe de traitement du langage nautreux de Stanford - l'un des meilleurs laboratoires de recherche NLP au monde, remarquables pour créer Stanford Corenlp et leur système de résolution de coréférence

Tutoriels

Retour en haut

Lecture de contenu

Apprentissage automatique

Machine Learning 101 de l'ingénieur créatif senior de Google explique l'apprentissage automatique pour les ingénieurs et les cadres
AI Playbook - A16Z AI Playbook est un excellent lien vers vos managers ou votre contenu pour vos présentations
Blog de Ruder par Sebastian Ruder pour des commentaires sur le meilleur de la recherche NLP
Comment étiqueter le guide des données pour gérer des projets d'annotation linguistique plus importants
Cela dépend de la collection de définition des articles de blog couvrant un large éventail de sujets PNL avec une implémentation détaillée

Présentations et guides pour PNL

Comprendre et mettre en œuvre le traitement du langage naturel
NLP dans Python - Collection de cahiers GitHub
Traitement du langage naturel: une introduction - Oxford
Apprentissage en profondeur pour la PNL avec Pytorch
Tutoriel NLTK pratique - Tutoriels NLTK, cahiers Jupyter
Traitement du langage naturel avec Python - Analyse du texte avec la boîte à outils en langue naturelle - Un livre en ligne et imprimé présentant des concepts NLP utilisant NLTK. Les auteurs du livre ont également écrit la bibliothèque NLTK.
Former un nouveau modèle de langue à partir de zéro - le visage étreint?
Le Super Duper NLP Repo (SDNLPR): Collection de cadres Colab couvrant un large éventail d'implémentations de tâches NLP.

Blogs et newsletters

Apprentissage en profondeur, PNL et représentations
Le Bert illustré, Elmo et co. (Comment la NLP a craqué l'apprentissage du transfert) et le transformateur illustré
Traitement du langage naturel par Hal Daumé III
Arxiv: Traitement du langage naturel (presque) à partir de zéro
L'efficacité déraisonnable de la Karpathy des réseaux de neurones récurrents
Maîtrise de l'apprentissage automatique: apprentissage en profondeur pour le traitement du langage naturel
Résumé des documents visuels NLP

Vidéos et cours en ligne

Retour en haut

Traitement avancé du langage naturel - CS 685, UMass Amherst CS
Traitement du langage naturel profond - Série de conférences d'Oxford
Deep Learning for Natural Language Processing (CS224-N) - Richard Socher et le cours de Stanford de Christopher Manning
Réseaux de neurones pour NLP - Carnegie Mellon Language Technology Institute là-bas
Course Deep NLP par Yandex Data School, couvrant des idées importantes de l'intégration de texte à la traduction automatique, y compris la modélisation de séquences, les modèles de langage, etc.
Fast.ai Code-First Intro au traitement du langage naturel - Cela couvre un mélange de sujets NLP traditionnels (y compris Regex, SVD, Naive Bayes, Tokenisation) et les approches récentes du réseau neuronal (y compris RNNS, SEQ2SEQ, GRUS et le transformateur), ainsi que pour résoudre les problèmes éthiques urgents, tels que les biais et la désinformation. Trouvez les cahiers Jupyter ici
Université d'apprentissage automatique - Traitement accéléré du langage naturel - Les conférences passent de l'introduction à la PNL et du traitement de texte aux réseaux et transformateurs neuronaux récurrents. Le matériel peut être trouvé ici.
Série de traitement du langage naturel appliquée de l'IIT Madras qui tire des bases jusqu'aux autoencoders et tout. Les cahiers GitHub pour ce cours sont également disponibles ici

Livres

Traitement de la parole et du langage - gratuit, par le professeur Dan Jurafsy
Traitement du langage naturel - GRATUIT, notes NLP par le Dr Jacob Eisenstein chez Georgiatech
PNL avec Pytorch - Brian & Delip Rao
Extraction de texte en r
Traitement du langage naturel avec Python
Traitement pratique du langage naturel
Traitement du langage naturel avec Spark NLP
Apprentissage en profondeur pour la transformation du langage naturel par Stephan Raaijmakers
Traitement du langage naturel du monde réel - par Masato Hagiwara
Traitement du langage naturel en action, deuxième édition - par Hobson Lane et Maria Dyshel

Bibliothèques

Retour en haut

Node.js et javascript - Node.js Libaires pour NLP | Retour en haut
- Twitter-Text - Une implémentation JavaScript de la bibliothèque de traitement de texte de Twitter
- KNWL.JS - Un processeur de langage naturel dans JS
- Retext - Système extensible pour analyser et manipuler le langage naturel
- Compromis PNL - Traitement du langage naturel dans le navigateur
- Natural - Installations générales de langage naturel pour le nœud
- Poplar - Un outil d'annotation sur le Web pour le traitement du langage naturel (NLP)
- NLP.JS - Une bibliothèque NLP pour la construction de bots
- Node-Question-Answering - Question rapide et prête à la production répondant avec Distilbert dans Node.js
Python - Python NLP Libraries | Retour en haut
- Modèles de sentiment Sentimental-Onix pour Spacy en utilisant ONNX
- TextAttack - Attaques contradictoires, formation contradictoire et augmentation des données dans la PNL
- TextBlob - Fournir une API cohérente pour plonger dans les tâches de traitement du langage naturel (NLP) communes. Se tient sur les épaules géantes de la boîte à outils en langage naturel (NLTK) et le modèle, et joue bien avec les deux?
- Spacy - NLP de force industrielle avec python et cython?
- Speedster - Appliquez automatiquement les techniques d'optimisation SOTA pour atteindre la vitesse d'inférence maximale sur votre matériel
  - Texté - NLP de niveau supérieur construit sur Spacy
- Gensim - Python Library pour mener une modélisation sémantique non supervisée à partir de texte brut?
- ScatterText - Bibliothèque Python pour produire des visualisations D3 de la façon dont la langue diffère entre les corpus
- GluonnLP - Une boîte à outils d'apprentissage en profondeur pour la PNL, construite sur MXNET / GLUON, pour le prototypage de recherche et le déploiement industriel de modèles de pointe sur un large éventail de tâches PNL.
- ALLENNLP - Une bibliothèque de recherche NLP, construite sur Pytorch, pour développer des modèles d'apprentissage en profondeur de pointe sur une grande variété de tâches linguistiques.
- Pytorch-NLP - boîte à outils de recherche NLP conçue pour prendre en charge le prototypage rapide avec de meilleurs chargeurs de données, des chargeurs de vecteurs de mots, des représentations de couches de réseau neuronal, des mesures NLP communes telles que BLEU
- Rosetta - Outils de traitement de texte et emballages (par exemple, vowpal wabbit)
- Pynlpl - Python Natural Language Processing Library. Bibliothèque NLP à usage général pour Python, gère certains formats spécifiques comme les modèles de langage ARPA, les phrasétables Moses, les alignements Giza ++.
- Foliapy - Python Library pour travailler avec Folia, un format XML pour l'annotation linguistique.
- Pyss3 - Python Package qui implémente un nouveau modèle d'apprentissage automatique à boîte blanc pour la classification du texte, appelé SS3. Étant donné que SS3 a la capacité d'expliquer visuellement sa justification, ce package est également livré avec des outils de visualisations interactifs faciles à utiliser (démos en ligne).
- JPTDP - Une boîte à outils pour la partie de la partie du discours (POS) et l'analyse de dépendance. JPTDP fournit des modèles pré-formés pour plus de 40 langues.
- Bigartm - une bibliothèque rapide pour la modélisation de sujets
- SNIPS NLU - Une bibliothèque de production Ready pour l'analyse d'intention
- Chazutu - une bibliothèque pour télécharger et analyser les ensembles de données de recherche NLP standard
- Formes de mots - les formulaires de mots peuvent générer avec précision toutes les formes possibles d'un mot anglais
- Attribution multilingue de Dirichlet latente (LDA) - Un pipeline de regroupement de documents multilingue et extensible
- Natural Language Toolkit (NLTK) - Une bibliothèque contenant une grande variété de fonctionnalités NLP, prenant en charge plus de 50 corpus.
- Architecte NLP - Une bibliothèque pour explorer les topologies et techniques d'apprentissage en profondeur de pointe pour NLP et NLU
- FLAIR - Un cadre très simple pour la NLP multilingue de pointe construit sur Pytorch. Comprend des intérêts Bert, Elmo et Flair.
- Kashgari - Frame NLP multilingue simple et alimentée par Keras, vous permet de construire vos modèles en 5 minutes pour la reconnaissance de l'entité nommée (NER), les tâches de marquage (POS) et de classification de texte. Comprend Bert et Word2VEC INCHEDDING.
- Ferme - Apprentissage rapide et facile du transfert pour la PNL. Récolte des modèles de langue pour l'industrie. Concentrez-vous sur la réponse aux questions.
- Haystack - Frame de bout en bout Python pour créer des interfaces de recherche de langage naturel aux données. Exploite les transformateurs et l'état de l'art de la PNL. Prend en charge DPR, Elasticsearch, ModelHub de HuggingFace et bien plus encore!
- Rita DSL - A DSL, vaguement basé sur Ruta sur Apache Uima. Permet de définir des modèles de langage (NLP basés sur des règles) qui sont ensuite traduits en spacy, ou si vous préférez moins de fonctionnalités et de motifs regex légers.
- Transformers - Traitement du langage naturel pour TensorFlow 2.0 et Pytorch.
- Tokenisers - Tokenisers Optimized pour la recherche et la production.
- Fairseq Facebook AI Research Implémentations de modèles SOTA SEQ2SEQ dans Pytorch.
- Corex_Topic - Modélisation de sujets hiérarchiques avec une connaissance minimale de domaine
- Sockeye - Neural Machine Translation (NMT) Toolkit qui alimente Amazon traduire.
- DL TRADAGE - Une bibliothèque de traduction basée sur l'apprentissage en profondeur pour 50 langues, construite sur transformers et Mbart Large de Facebook.
- Jury - Évaluation des sorties du modèle NLP offrant diverses mesures automatisées.
- Tokenizer basé sur une expression régulière de Python-inucto - Unicode-Aware. Python se liant à la bibliothèque C ++, prend en charge le format Folia.

C ++ - Bibliothèques C ++ | Retour en haut
- INSNET - Une bibliothèque de réseaux neuronaux pour créer des modèles NLP dépendants des instances avec lots dynamiques sans rembourrage.
- MIT Information Extraction Toolkit - C ++ et Python Tools pour la reconnaissance et l'extraction de relations d'entité nommées
- CRF ++ - Implémentation open source de champs aléatoires conditionnels (CRF) pour la segmentation / étiquetage des données séquentielles et d'autres tâches de traitement du langage naturel.
- CRFSuite - CRFSuite est une implémentation de champs aléatoires conditionnels (CRFS) pour étiqueter les données séquentielles.
- Analyser Bllip - analyser en langage naturel de Bllip (également connu sous le nom de Charniak-Johnson Parser)
- Colibri-core - bibliothèque C ++, outils de ligne de commande et liaison Python pour extraire et travailler avec des constructions linguistiques de base telles que les n-grammes et les skipgrams d'une manière rapide et économe en mémoire.
- Tokenizer basé sur l'expression régulière UCTO - Awal-Aware Away pour diverses langues. Outil et bibliothèque C ++. Prend en charge le format Folia.
- Libfolia - Bibliothèque C ++ pour le format Folia
- Frog - Suite NLP basée sur la mémoire développée pour le Tagger Dutch: POS, lemmatiser, Parser Dependency, NER, Parser peu profond, analyseur morphologique.
- Meta - Meta: L'analyse de texte moderne est une boîte à outils C ++ Data Sciences qui facilite l'exploration de données sur les grosses grandes textes.
- Mecab (japonais)
- Moïse
- Starpace - Une bibliothèque de Facebook pour créer des intégres de niveau de mot, au niveau du paragraphe, au niveau du document et pour la classification du texte
Java - bibliothèques Java NLP | Retour en haut
- NLP de Stanford
- Opennlp
- NLP4J
- Word2vec en java
- Réverb Extraction d'informations ouvertes à l'échelle du web
- OpenRegex un langage et moteur réguliers à jeton efficaces et flexibles.
- CogCompnlp - Bibliothèques de base développées dans le groupe de calcul cognitif de l'UA de l'Illinois.
- MALLET - Machine Learning for Language Toolkit - Package pour le traitement statistique du langage naturel, la classification des documents, le clustering, la modélisation de sujets, l'extraction d'informations et d'autres applications d'apprentissage automatique vers le texte.
- RDRPOSTAGGER - Une boîte à outils de balisage de points de vente robuste disponible (dans Java & Python) ainsi que des modèles pré-formés pour plus de 40 langues.
Kotlin - Bibliothèques NLP Kotlin | Retour en haut
- Lingua une bibliothèque de détection de langue pour Kotlin et Java, adaptée à un texte long et court
- Kotidgy - Un générateur de données texte basé sur l'index écrit en Kotlin
Scala - bibliothèques NLP Scala | Retour en haut
- Saul - Library pour le développement de systèmes NLP, y compris des modules intégrés comme SRL, POS, etc.
- ATR4S - Toolkit avec des méthodes de reconnaissance de terme automatiques de pointe de pointe.
- TM - Mise en œuvre de la modélisation de sujets basée sur un PLSA multilingue régularisé.
- Interface Word2Vec-Scala - Scala avec le modèle Word2Vec; Comprend des opérations sur des vecteurs comme la distance de mots et l'analogie des mots.
- Epic - Epic est un analyseur statistique haute performance écrit à Scala, ainsi qu'un cadre pour construire des modèles de prédiction structurés complexes.
- Spark NLP - Spark NLP est une bibliothèque de traitement du langage naturel construite sur Apache Spark ML qui fournit des annotations NLP simples, performantes et précises pour les pipelines d'apprentissage automatique qui évoluent facilement dans un environnement distribué.
R - R Libraries NLP | Retour en haut
- Text2Vec - Vectorisation rapide, modélisation de sujets, distances et incorporation de mots gants dans R.
- Vectors Word - un package R pour créer et explorer Word2Vec et d'autres modèles d'intégration de mots
- Package RMALLET - R pour interface avec le maillet de l'outil d'apprentissage machine Java
- DFR-BROWSER - Crée des visualisations D3 pour la navigation sur des modèles de texte dans un navigateur Web.
- DFRTOPICS - R Package pour explorer les modèles de sujets de texte.
- Sentiment_classifier - Classification des sentiments en utilisant la désambiguïsation du sens des mots et le lecteur WordNet
- JPROCESSING - Bibliothèques de traitement des Langauge naturelles japonaises, avec classification des sentiments japonais
- CorporaExplorer - Un package R pour l'exploration dynamique des collections de texte
- Tidytex
- Spacyr - R Wrapper to Spacy NLP
- Vue de tâche CRAN: traitement du langage naturel
Clojure | Retour en haut
- Clojure-Opennlp - Traitement du langage naturel à Clojure (OpenNLP)
- Infections-Clj - Bibliothèque d'inflexion de type Rails pour Clojure et Clojurescript
- Postagga - Une bibliothèque pour analyser le langage naturel à Clojure et Clojurescript
Ruby | Retour en haut
- Les bibliothèques Ruby, les outils et les logiciels du traitement du langage naturel (NLP) de Kevin Dias
- Traitement pratique du langage naturel fait en rubis
Rouille | Retour en haut
- Whatlang - Bibliothèque de reconnaissance du langage naturel basé sur les trigrammes
- SNIPS-NLU-RS - Une bibliothèque de production Ready pour l'analyse d'intention
- Rust-Bert - Pipelines PNL et modèles basés sur les transformateurs prêts à l'emploi
NLP ++ - Langue NLP ++ | Retour en haut
- Extension du langage VScode - Extension du langage NLP ++ pour VScode
- NLP-moteur - moteur NLP ++ pour exécuter le code NLP ++ sur Linux, y compris un analyseur anglais complet
- VisualText - Page d'accueil pour la langue NLP ++
- NLP ++ Wiki - Entrée Wiki pour la langue NLP ++
Julia | Retour en haut
- Corpusloaders - une variété de chargeurs pour divers corpus PNL
- Langues - Un package pour travailler avec les langues humaines
- Textanalyse - Package Julia pour l'analyse de texte
- TextModels - Modèles basés sur le réseau de neurones pour le traitement du langage naturel
- WordTokenzers - Tokenisers de haute performance pour le traitement du langage naturel et d'autres tâches connexes
- Word2Vec - Julia Interface à Word2Vec

Services

NLP comme API avec des fonctionnalités de niveau supérieur telles que NER, le marquage de sujets, etc. Retour en haut

Interface de langue naturelle pour les applications et les appareils
Compréhension du langage naturel d'IBM Watson - API et démo GitHub
Amazon comprend - la suite NLP et ML couvre les tâches les plus courantes comme NER, le tagging et l'analyse des sentiments
API Language naturel de Google Cloud - L'analyse de syntaxe, le NER, l'analyse des sentiments et le marquage de contenu dans les langues au moins 9 incluent l'anglais et le chinois (simplifié et traditionnel).
ParallelDots - Service API d'analyse de texte de haut niveau allant de l'analyse des sentiments à l'analyse de l'intention
Service cognitif Microsoft
Textrazor
Rosette
TEXTALYTIQUE - Traitement du langage naturel dans le navigateur avec analyse des sentiments, extraction d'entité nommée, marquage de possession de points, fréquences de mots, modélisation de sujets, nuages de mots, et plus
NLP Cloud - Modèles NLP Spacy (personnalisés et pré-formés) a servi via une API RESTful pour la reconnaissance des entités nommés (NER), le marquage POS, et plus encore.
CloudMersive - API NLP unifiée et libre qui effectuent des actions telles que le marquage de la parole, le rephrasion du texte, la traduction / détection linguistique et l'analyse des phrases

Outils d'annotation

Gate - L'ingénierie générale de l'architecture et du texte a plus de 15 ans, gratuite et open source
Anafora est l'outil d'annotation de texte brut gratuit et open source et basé sur le Web
Brat - Brat Rapid Annotation Tool est un environnement en ligne pour l'annotation de texte collaboratif
Docano - Docano est gratuit, open-source et fournit des fonctionnalités d'annotation pour la classification du texte, l'étiquetage des séquences et la séquence à la séquence
Inception - Une plate-forme d'annotation sémantique offrant une assistance intelligente et une gestion des connaissances
Tagtog, équipe Web-First pour trouver, créer, maintenir et partager des ensembles de données - coûte $
Prodigy est un outil d'annotation propulsé par l'apprentissage actif, coûte $
Lighttag - outil d'annotation de texte hébergé et géré pour les équipes, coûte $
RSTWEB - outil local ou en ligne open source pour les annotations des arbres de discours
Gitdox - outil d'annotation du serveur open source avec contrôle et validation de la version GitHub pour les données XML et les grilles de feuille de calcul collaboratives
Étiquette Studio - outil d'annotation de texte hébergé et géré pour les équipes, basé sur Freemium, coûte $
Prise en charge de diverses tâches NLP pour les individus ou les équipes, Freemium
Konfuzio - Équipe First Hémordiale et sur site, Texte, image et outil d'annotation PDF propulsée par l'apprentissage actif, basé sur Freemium, coûte $
Ubiai - outil d'annotation de texte facile à utiliser pour les équipes avec des fonctionnalités d'auto-annulation les plus complètes. Prend en charge le NER, les relations et la classification des documents ainsi que l'annotation OCR pour l'étiquetage des factures, coûte $
Shoonya - Shoonya est une plate-forme d'annotation de données gratuite et open source avec des variétés de grande partie de l'organisation et du système de gestion du niveau de l'espace de travail. Shoonya est les données agnostiques, peut être utilisée par les équipes pour annoter les données avec divers niveaux de vérification à grande échelle.
Annotation Lab - plate-forme sans fin de bout en bout gratuite pour l'annotation de texte et la formation / réglage du modèle DL. Prise en charge prête à l'emploi pour la reconnaissance, la classification, l'extraction des relations et l'état d'assurance des modèles NLP de la classification, de l'extraction des relations et de l'état d'assurance. Support illimité pour les utilisateurs, les équipes, les projets, les documents. Pas se foss.
Flat - Flat est un environnement d'annotation linguistique sur le Web basé sur le format Folia, un riche format basé sur XML pour l'annotation linguistique. Gratuit et open source.

Techniques

Texte des intérêts

Incorporation de mots

Règle du pouce: FastText >> GLANT> Word2VEC
Word2Vec - Implémentation - Blog expliqueur
Glove - Blog expliqueur
FastText - Implémentation - Papier - Blog expliqueur

Les intérêts des mots basés sur le modèle de phrase et de langue

Retour en haut

Elmo - Représentations des mots contextualisés profonds - Implémentation Pytorch - Implémentation TF
Ulmfit - Modèle de langue universelle Fineur pour la classification du texte par Jeremy Howard et Sebastian Ruder
Infersent - Apprentissage supervisé des représentations universelles de phrases à partir des données d'inférence du langage naturel par Facebook
Cove - apprise en traduction: vecteurs de mots contextualisés
Vectors de paragraphe - des représentations distribuées des phrases et des documents. Voir le tutoriel DOC2VEC à Gensim
Sense2Vec - Sur les mots Sense Disambiguation
Sauter les vecteurs de pensée - Méthode de représentation des mots
Skip-Gram adaptatif - approche similaire, avec des propriétés adaptatives
Séquence à l'apprentissage de séquence - vecteurs de mots pour la traduction machine

Question Répondre et extraction des connaissances

Retour en haut

DRQA - Question ouverte de domaine Répondre au travail par Facebook Research on Wikipedia Data
Document-QA - Compréhension de lecture multi-paragraphe simple et efficace par Allenai
Extraction d'informations basée sur des modèles sans les modèles
Privee: une architecture pour analyser automatiquement les politiques de confidentialité du Web

Ensembles de données

Retour en haut

PNL-Datasets Grande collection d'ensembles de données NLP
Gensim-Data - Référentiel de données pour les modèles NLP pré-entraînés et les corpus NLP.

Cadres NLP multilingues

Retour en haut

UDPipe est un pipeline formable pour les tokenisants, le taggage, le lémmatisation et l'analyse des banques d'arbres universelles et d'autres fichiers conll-u. Écrit principalement en C ++, propose une solution rapide et fiable pour le traitement NLP multilingue.
NLP-Cube: Pipe de traitement du langage naturel - Fractionnement des phrases, tokenisation, lemmatisation, marquage de discours et analyse de dépendance. Nouvelle plate-forme, écrite en Python avec Dynet 2.0. Offre des fonctionnalités autonomes (CLI / Python) et les fonctionnalités du serveur (API REST).
L'Uralicnlp est une bibliothèque NLP principalement pour de nombreuses langues uraliques en voie de disparition telles que les langues Sami, les langues Mordvin, les langues mari, les langues Komi, etc. Certaines langues non dépendantes sont également soutenues telles que le finlandais ainsi que des langues non-naturelles telles que le suédois et l'arabe. L'uralicnlp peut effectuer une analyse morphologique, une génération, une lemmatisation et une désambiguïsation.

PNL en coréen

Retour en haut

Bibliothèques

Package Konlpy - Python pour le traitement coréen du langage naturel.
MECAB (coréen) - Bibliothèque C ++ pour NLP coréen
Koalanlp - Bibliothèque Scala pour le traitement coréen du langage naturel.
Package Konlp - R pour le traitement coréen du langage naturel

Blogs et tutoriels

Blog de Dsindex
Cours NLP de l'Université de Kangwon en coréen

Ensembles de données

Kaist Corpus - Un corpus du Corée Advanced Institute of Science and Technology en coréen.
Naver Sentiment Movie Corpus en coréen
Chosun Ilbo Archive - Dataset en coréen à partir de l'un des principaux journaux de Corée du Sud, le Chosun Ilbo.
Données de chat - données de chatbot en coréen
Pétitions - Collectez les données de pétition expirées sur le site de la pétition nationale de la Blue House.
Ensemble de données coréennes parallèles - Neural Machine Translation (NMT) pour coréen en français et coréen en anglais
Korquad - ensemble de données de l'équipe coréenne avec source Wiki HTML. Mentionne à la fois v1.0 et v2.1 au moment de l'ajout de NLP impressionnante

PNL en arabe

Retour en haut

Bibliothèques

Goarabic - GO Package pour le traitement de texte arabe
JSASTEM - Javascript pour l'arabe entièrement
Pyarabic - bibliothèques python pour l'arabe
RFTOKERIZER - Segmenteur Python formable pour l'arabe, l'hébreu et le copte

Ensembles de données

Ensembles de données multidomaines - Ressources multi-domaines les plus importantes pour l'analyse des sentiments arabes
LABR - Grands avis de livres arabes
Mottes d'arrêt arabe - Une liste des mots d'arrêt arabes de diverses ressources

PNL en chinois

Retour en haut

Bibliothèques

Jieba - Python Package pour les utilitaires de segmentation des mots en chinois
Snownlp - package Python pour la PNL chinois
Fudannlp - bibliothèque Java pour le traitement de texte chinois
HANLP - La bibliothèque NLP multilingue

Anthologie

FUNNLP - Collection d'outils et de ressources PNL principalement pour le chinois

PNL en allemand

Allemand-NLP - Liste organisée des ressources et outils et outils et outils Open-Access / Open-source / Off-the-Shelf.

PNL en polissage

POLOSID-NLP - Une liste organisée de ressources dédiées au traitement du langage naturel (NLP) en polonais. Modèles, outils, ensembles de données.

PNL en espagnol

Retour en haut

Bibliothèques

Spanlp - Python Library pour détecter, censurer et propre blasphème, vulgarités, mots haineux, racisme, xénophobie et intimidation dans les textes écrits en espagnol. Il contient des données de 21 pays hispanophones.

Données

Discours politiques colombiens
Copenhague Treebank
Corpus des milliards de mots espagnols avec Word2Vec Embeddings
Compilation des corpus espagnols non annotés

Les incorporations de mots et de phrases

Les incorporations de mot espagnol calculées avec différentes méthodes et de différentes corpus
Les incorporations de mot espagnol calculées à partir de grandes corpus et de différentes tailles à l'aide de FastText
Emballages de phrases espagnoles calculées à partir de grands corpus à l'aide de Sent2Vec
Beto - Bert pour l'espagnol

NLP dans les langues indic

Retour en haut

Données, corpus et banques d'arbres

Hindi Dependance Treebank - Un arbre multicouche multi-représentationnel pour l'hindi et l'ourdou
Dépendances universelles Treebank en hindi
- Dépendances universelles parallèles Treebank en hindi - une partie plus petite de la banque d'arbres susmentionnée.
Liste des mots d'arrêt ISI (Hindi et Bangla)
Liste des mots d'arrêt de Peter Graham
Nltk Corpus 60k mots pos taggés, bangla, hindi, marathi, telugu
Échantillons de données sur les critiques de films hindi ~ 1k échantillons, 3 classes de polarité
BBC News Hindi Dataset 4.3k échantillons, 14 classes
IIT Patna Hindi ABSA Dataset Échantillons 5.4k, 12 domaines, termes d'aspect 4K, polarité des aspects et au niveau de la phrase dans 4 classes
Échantillons de 5,5k Bangla Absa, 2 domaines, 10 termes d'aspect
IIT Patna Movie Review Sentiment Dataset Samples 2K, 3 Étiquettes de polarité

Les corpus / ensembles de données qui ont besoin d'une connexion / accès peuvent être acquis par e-mail

Sail 2015 Twitter et Facebook ont étiqueté des échantillons de sentiment en hindi, bengali, tamoul, telugu.
IIT Bombay NLP Resources SentiwordNet, film et tourisme parallèles étiquetés, Corpus annoté de polarité étiqueté, Marathi Polarity Corpus.
TDIL-IC agrége beaucoup de ressources utiles et donne accès à des ensembles de données autrement fermés

Modèles de langue et incorporation de mots

Hindi2Vec et NLP-for-Hindi UlmFit Style Languge Modèle
Iit patna mot bilingue incorporedds hi-en
FastText Word Embeddings dans un tas de langues, formé sur une rampe commune
Hindi et Bengali Word2Vec
Modèle d'Elmo en hindi et en ourdou
Sanskrit Albert s'est formé sur le sanskrit Wikipedia et le Corpus Oscar

Bibliothèques et outils

Analyseur morphologique profond multi-tâches Parser morphologique basé sur le réseau profond pour l'hindi et l'ourdou
Anoop Kunchukuttan 18 langues, hôte entier de fonctionnalités de la tokenisation à la traduction
L'analyseur de dépendance de la dépendance de la dépendance de Sivareddy et le tagger POS pour Kannada, Hindi et Telugu. Port python3
INLTK - Une boîte à outils en langue naturelle pour les langues indic (langues du sous-continent indien) construites au-dessus de Pytorch / Fastai, qui vise à fournir une prise en charge hors de la boîte pour les tâches PNLP communes.

PNL en thaï

Retour en haut

Bibliothèques

Pythainlp - thai nlp in python package
JTCC - Une bibliothèque de cluster de caractères à Java
Cutkum - Segmentation des mots avec apprentissage en profondeur dans Tensorflow
Toolkit de langue thaïlandaise - basée sur un article de Wirote Aroonmanakun en 2002 avec un ensemble de données inclus
Synthai - Segmentation des mots et étiquetage de POS à l'aide d'un apprentissage en profondeur dans Python

Données

Inter-Best - Un corpus de texte avec 5 millions de mots avec segmentation de mots
Premier ministre 29 - Ensemble de données contenant des discours du Premier ministre actuel de Thaïlande

PNL en danois

Reconnaissance d'entité nommée pour danois
DANLP - Ressources NLP en danois
Awesome Danish - Une liste organisée de ressources impressionnantes pour la technologie du langage danois

PNL en vietnamien

Bibliothèques

TRANSTHESEA - Vietnamise NLP Toolkit
VN.Vitk - Une boîte à outils de traitement de texte vietnamien
Vncorenlp - Une boîte à outils de traitement du langage naturel vietnamien
Phobert - Modèles de langue pré-formée pour les vietnamiens
Pyvi - Python Vietnamise Core NLP Toolkit

Données

Vietnamien Treebank - 10 000 phrases pour la tâche d'analyse de circonscription
Bktreebank - Une banque de dépendance à la dépendance vietnamienne
UD_VIETNAMEES - Vietnamien Universal Dependency Treebank
Vivos - Un corpus de discours vietnamien gratuit composé de 15 heures d'enregistrement du discours par Ailab
VNTQCORPUS (BIG) .TXT - 1,75 million de peines dans les nouvelles
VITEXT2SQL - Un ensemble de données pour l'analyse sémantique de texte à SQL vietnamien (résultats EMNLP-2010)
EVB Corpus - 20 000 000 mots (20 millions) de 15 livres bilingues, 100 textes parallèles anglais-vietnamien / vietnamien-anglais, 250 textes parallèles de droit et d'ordonnance, 5 000 articles de presse et 2 000 sous-titres de film.

PNL pour néerlandais

Retour en haut

Python-Frog - Python se liant à la grenouille, une suite NLP pour le néerlandais. (Tagging POS, lemmatisation, analyse de dépendance, NER)
Simplenlg_nl - Dutch Surface Realiser utilisé pour la génération de langage naturel en néerlandais, basé sur la mise en œuvre Simplenlg pour l'anglais et le français.
ALPINO - Parser de dépendance pour le néerlandais (fait également le marquage et la lemmatisation).
Kaldi NL - Modèles de reconnaissance de la parole néerlandais basés sur Kaldi.
Spacy - Modèle néerlandais disponible. - NLP de force industrielle avec python et cython.

PNL en indonésien

Ensembles de données

Collections de kompas et de tempo à ILPS
PANL10N pour le marquage de pos: 39k phrases et jetons de mot 900k
IDN pour le marquage POS: Ce corpus contient 10 000 phrases et 250k jetons de mots
Banque arbre indonésienne et dépendances universelles-indonesiennes
Indosum pour le résumé de texte et la classification
WordNet-Bahasa - Dictionnaire grand, gratuit et sémantique
IndoBenchmark Indonlu comprend un modèle de langue pré-formée (Indobert), un modèle FastText, un corpus Indo4b et plusieurs ensembles de données de référence NLU

Bibliothèques et intégrer

Boîte à outils en langue naturelle bahasa
Mot indonésien incorporation
Texte de texte rapide indonésien pré-entraîné formé sur Wikipedia
IndoBenchmark Indonlu comprend un modèle de langage prétrainé (Indobert), un modèle FastText, un corpus Indo4b et plusieurs ensembles de données de référence NLU

PNL en ourdou

Ensembles de données

Collection des ensembles de données ourdou pour les tâches POS, NER et NLP

Bibliothèques

Bibliothèque de traitement du langage naturel pour (??) Langue ourdou

PNL en persan

Retour en haut

Bibliothèques

Hazm - boîte à outils PNLP persan.
Parsivar: une boîte à outils de traitement des langues pour le persan
Perke: Perke est un package d'extraction Python KeyPhrase pour la langue persane. Il fournit un pipeline d'extraction de phrases de clé de bout en bout dans lequel chaque composant peut être facilement modifié ou étendu pour développer de nouveaux modèles.
Perstem: Persian STEMMER, Analyseur morphologique, transliterator et étiqueteur partielle de la parole
Parsianalyzer: Analyseur persan pour Elasticsearch
Virastar: nettoyer le texte persan!

Ensembles de données

Bijankhan Corpus: Bijankhan Corpus est un corpus étiqueté qui convient à la recherche de traitement du langage naturel sur la langue perse (FARSI). Cette collection est rassemblée sur les nouvelles quotidiennes et les textes communs. Dans cette collection, tous les documents sont classés en différents sujets tels que politique, culturel, etc. Totalement, il y a 4300 sujets différents. La collection Bijankhan contient environ 2,6 millions de mots marqués manuellement avec un ensemble de balises qui contient 40 balises POS persanes.
Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) est un grand corpus persan librement disponible. Le corpus est une version modifiée du corpus Bijankhan avec une segmentation de phrase supplémentaire et une tokenisation cohérente contenant 2 704 028 jetons et annotée avec 31 étiquettes de disposition. Les balises de la partie de la parole sont répertoriées avec des explications dans ce tableau.
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources