génial-nlp
Une liste organisée de ressources dédiées au traitement du langage naturel

Lisez ceci en anglais, chinois traditionnel
Veuillez lire les directives de contribution avant de contribuer. Veuillez ajouter votre ressource NLP préférée en soulevant une demande de traction
Contenu
- Résumé et tendances de la recherche
- Labs de recherche NLP proéminents
- Tutoriels
- Lecture de contenu
- Vidéos et cours
- Livres
- Bibliothèques
- Node.js
- Python
- C ++
- Java
- Kotlin
- Scala
- R
- Se cacher
- Rubis
- Rouiller
- NLP ++
- Julia
- Services
- Outils d'annotation
- Ensembles de données
- PNL en coréen
- PNL en arabe
- PNL en chinois
- PNL en allemand
- PNL en polissage
- PNL en espagnol
- NLP dans les langues indic
- PNL en thaï
- PNL en danois
- PNL en vietnamien
- PNL pour néerlandais
- PNL en indonésien
- PNL en ourdou
- PNL en persan
- PNL en ukrainien
- PNL en hongrois
- PNL en portugais
- Autres langues
- Crédits
Résumé et tendances de la recherche
- La PNL-Overview est un aperçu à jour des techniques d'apprentissage en profondeur appliquées à la PNL, y compris la théorie, les implémentations, les applications et les résultats de pointe. Il s'agit d'une grande introduction en PNL profonde pour les chercheurs.
- PNLP-Progress suit les progrès du traitement du langage naturel, y compris les ensembles de données et l'état actuel de la technologie pour les tâches NLP les plus courantes
- Le moment ImageNet de NLP est arrivé
- ACL 2018 FAITES: Comprendre la représentation et l'évaluation dans des contextes plus difficiles
- Quatre tendances d'apprentissage en profondeur à partir de l'ACL 2017. Première partie: structure linguistique et incorporation de mots
- Quatre tendances d'apprentissage en profondeur de l'ACL 2017. Deuxième partie: interprétabilité et attention
- Faits saillants de l'EMNLP 2017: ensembles de données passionnants, retour des clusters, et plus encore!
- Apprentissage en profondeur pour le traitement du langage naturel (PNL): progrès et tendances
- Enquête sur l'état de l'art en génération de langage naturel
Labs de recherche NLP proéminents
Retour en haut
- Le groupe NLP de Berkeley - les contributions notables comprennent un outil pour reconstruire les langues mortes longues, référencées ici et en prenant les corpus de 637 langues actuellement parlées en Asie et dans le Pacifique et en recréant leur descendance.
- Language Technologies Institute, Carnegie Mellon University - Les projets notables incluent Avenue Project, un système de traduction automatique axé sur la syntaxe pour les langues en voie de disparition comme Quechua et Aymara et auparavant, l'arche de Noah qui a créé AQMAR pour améliorer les outils PNL pour l'arabe.
- NLP Research Group, Columbia University - responsable de la création de Bolt (gestion des erreurs interactives pour les systèmes de traduction de la parole) et un projet non nommé pour caractériser le rire en dialogue.
- Le centre ou le traitement de la langue et de la parole, Université John Hopkins - récemment dans l'actualité pour développer des logiciels de reconnaissance vocale pour créer un test de diagnostic ou la maladie de Parkinson, ici.
- Group de linguistique et de traitement de l'information computationnel, Université du Maryland - Les contributions notables comprennent la coopération des ordinateurs humains ou les questions mot-par mots répondant et modéliser le développement de représentations phonétiques.
- Penn Natural Language Processing, Université de Pennsylvanie - célèbre pour avoir créé la Penn Treebank.
- Le groupe de traitement du langage nautreux de Stanford - l'un des meilleurs laboratoires de recherche NLP au monde, remarquables pour créer Stanford Corenlp et leur système de résolution de coréférence
Tutoriels
Retour en haut
Lecture de contenu
Apprentissage automatique
- Machine Learning 101 de l'ingénieur créatif senior de Google explique l'apprentissage automatique pour les ingénieurs et les cadres
- AI Playbook - A16Z AI Playbook est un excellent lien vers vos managers ou votre contenu pour vos présentations
- Blog de Ruder par Sebastian Ruder pour des commentaires sur le meilleur de la recherche NLP
- Comment étiqueter le guide des données pour gérer des projets d'annotation linguistique plus importants
- Cela dépend de la collection de définition des articles de blog couvrant un large éventail de sujets PNL avec une implémentation détaillée
Présentations et guides pour PNL
- Comprendre et mettre en œuvre le traitement du langage naturel
- NLP dans Python - Collection de cahiers GitHub
- Traitement du langage naturel: une introduction - Oxford
- Apprentissage en profondeur pour la PNL avec Pytorch
- Tutoriel NLTK pratique - Tutoriels NLTK, cahiers Jupyter
- Traitement du langage naturel avec Python - Analyse du texte avec la boîte à outils en langue naturelle - Un livre en ligne et imprimé présentant des concepts NLP utilisant NLTK. Les auteurs du livre ont également écrit la bibliothèque NLTK.
- Former un nouveau modèle de langue à partir de zéro - le visage étreint?
- Le Super Duper NLP Repo (SDNLPR): Collection de cadres Colab couvrant un large éventail d'implémentations de tâches NLP.
Blogs et newsletters
- Apprentissage en profondeur, PNL et représentations
- Le Bert illustré, Elmo et co. (Comment la NLP a craqué l'apprentissage du transfert) et le transformateur illustré
- Traitement du langage naturel par Hal Daumé III
- Arxiv: Traitement du langage naturel (presque) à partir de zéro
- L'efficacité déraisonnable de la Karpathy des réseaux de neurones récurrents
- Maîtrise de l'apprentissage automatique: apprentissage en profondeur pour le traitement du langage naturel
- Résumé des documents visuels NLP
Vidéos et cours en ligne
Retour en haut
- Traitement avancé du langage naturel - CS 685, UMass Amherst CS
- Traitement du langage naturel profond - Série de conférences d'Oxford
- Deep Learning for Natural Language Processing (CS224-N) - Richard Socher et le cours de Stanford de Christopher Manning
- Réseaux de neurones pour NLP - Carnegie Mellon Language Technology Institute là-bas
- Course Deep NLP par Yandex Data School, couvrant des idées importantes de l'intégration de texte à la traduction automatique, y compris la modélisation de séquences, les modèles de langage, etc.
- Fast.ai Code-First Intro au traitement du langage naturel - Cela couvre un mélange de sujets NLP traditionnels (y compris Regex, SVD, Naive Bayes, Tokenisation) et les approches récentes du réseau neuronal (y compris RNNS, SEQ2SEQ, GRUS et le transformateur), ainsi que pour résoudre les problèmes éthiques urgents, tels que les biais et la désinformation. Trouvez les cahiers Jupyter ici
- Université d'apprentissage automatique - Traitement accéléré du langage naturel - Les conférences passent de l'introduction à la PNL et du traitement de texte aux réseaux et transformateurs neuronaux récurrents. Le matériel peut être trouvé ici.
- Série de traitement du langage naturel appliquée de l'IIT Madras qui tire des bases jusqu'aux autoencoders et tout. Les cahiers GitHub pour ce cours sont également disponibles ici
Livres
- Traitement de la parole et du langage - gratuit, par le professeur Dan Jurafsy
- Traitement du langage naturel - GRATUIT, notes NLP par le Dr Jacob Eisenstein chez Georgiatech
- PNL avec Pytorch - Brian & Delip Rao
- Extraction de texte en r
- Traitement du langage naturel avec Python
- Traitement pratique du langage naturel
- Traitement du langage naturel avec Spark NLP
- Apprentissage en profondeur pour la transformation du langage naturel par Stephan Raaijmakers
- Traitement du langage naturel du monde réel - par Masato Hagiwara
- Traitement du langage naturel en action, deuxième édition - par Hobson Lane et Maria Dyshel
Bibliothèques
Retour en haut
C ++ - Bibliothèques C ++ | Retour en haut
- INSNET - Une bibliothèque de réseaux neuronaux pour créer des modèles NLP dépendants des instances avec lots dynamiques sans rembourrage.
- MIT Information Extraction Toolkit - C ++ et Python Tools pour la reconnaissance et l'extraction de relations d'entité nommées
- CRF ++ - Implémentation open source de champs aléatoires conditionnels (CRF) pour la segmentation / étiquetage des données séquentielles et d'autres tâches de traitement du langage naturel.
- CRFSuite - CRFSuite est une implémentation de champs aléatoires conditionnels (CRFS) pour étiqueter les données séquentielles.
- Analyser Bllip - analyser en langage naturel de Bllip (également connu sous le nom de Charniak-Johnson Parser)
- Colibri-core - bibliothèque C ++, outils de ligne de commande et liaison Python pour extraire et travailler avec des constructions linguistiques de base telles que les n-grammes et les skipgrams d'une manière rapide et économe en mémoire.
- Tokenizer basé sur l'expression régulière UCTO - Awal-Aware Away pour diverses langues. Outil et bibliothèque C ++. Prend en charge le format Folia.
- Libfolia - Bibliothèque C ++ pour le format Folia
- Frog - Suite NLP basée sur la mémoire développée pour le Tagger Dutch: POS, lemmatiser, Parser Dependency, NER, Parser peu profond, analyseur morphologique.
- Meta - Meta: L'analyse de texte moderne est une boîte à outils C ++ Data Sciences qui facilite l'exploration de données sur les grosses grandes textes.
- Mecab (japonais)
- Moïse
- Starpace - Une bibliothèque de Facebook pour créer des intégres de niveau de mot, au niveau du paragraphe, au niveau du document et pour la classification du texte
Java - bibliothèques Java NLP | Retour en haut
- NLP de Stanford
- Opennlp
- NLP4J
- Word2vec en java
- Réverb Extraction d'informations ouvertes à l'échelle du web
- OpenRegex un langage et moteur réguliers à jeton efficaces et flexibles.
- CogCompnlp - Bibliothèques de base développées dans le groupe de calcul cognitif de l'UA de l'Illinois.
- MALLET - Machine Learning for Language Toolkit - Package pour le traitement statistique du langage naturel, la classification des documents, le clustering, la modélisation de sujets, l'extraction d'informations et d'autres applications d'apprentissage automatique vers le texte.
- RDRPOSTAGGER - Une boîte à outils de balisage de points de vente robuste disponible (dans Java & Python) ainsi que des modèles pré-formés pour plus de 40 langues.
Kotlin - Bibliothèques NLP Kotlin | Retour en haut
- Lingua une bibliothèque de détection de langue pour Kotlin et Java, adaptée à un texte long et court
- Kotidgy - Un générateur de données texte basé sur l'index écrit en Kotlin
Scala - bibliothèques NLP Scala | Retour en haut
- Saul - Library pour le développement de systèmes NLP, y compris des modules intégrés comme SRL, POS, etc.
- ATR4S - Toolkit avec des méthodes de reconnaissance de terme automatiques de pointe de pointe.
- TM - Mise en œuvre de la modélisation de sujets basée sur un PLSA multilingue régularisé.
- Interface Word2Vec-Scala - Scala avec le modèle Word2Vec; Comprend des opérations sur des vecteurs comme la distance de mots et l'analogie des mots.
- Epic - Epic est un analyseur statistique haute performance écrit à Scala, ainsi qu'un cadre pour construire des modèles de prédiction structurés complexes.
- Spark NLP - Spark NLP est une bibliothèque de traitement du langage naturel construite sur Apache Spark ML qui fournit des annotations NLP simples, performantes et précises pour les pipelines d'apprentissage automatique qui évoluent facilement dans un environnement distribué.
R - R Libraries NLP | Retour en haut
- Text2Vec - Vectorisation rapide, modélisation de sujets, distances et incorporation de mots gants dans R.
- Vectors Word - un package R pour créer et explorer Word2Vec et d'autres modèles d'intégration de mots
- Package RMALLET - R pour interface avec le maillet de l'outil d'apprentissage machine Java
- DFR-BROWSER - Crée des visualisations D3 pour la navigation sur des modèles de texte dans un navigateur Web.
- DFRTOPICS - R Package pour explorer les modèles de sujets de texte.
- Sentiment_classifier - Classification des sentiments en utilisant la désambiguïsation du sens des mots et le lecteur WordNet
- JPROCESSING - Bibliothèques de traitement des Langauge naturelles japonaises, avec classification des sentiments japonais
- CorporaExplorer - Un package R pour l'exploration dynamique des collections de texte
- Tidytex
- Spacyr - R Wrapper to Spacy NLP
- Vue de tâche CRAN: traitement du langage naturel
Clojure | Retour en haut
- Clojure-Opennlp - Traitement du langage naturel à Clojure (OpenNLP)
- Infections-Clj - Bibliothèque d'inflexion de type Rails pour Clojure et Clojurescript
- Postagga - Une bibliothèque pour analyser le langage naturel à Clojure et Clojurescript
Ruby | Retour en haut
- Les bibliothèques Ruby, les outils et les logiciels du traitement du langage naturel (NLP) de Kevin Dias
- Traitement pratique du langage naturel fait en rubis
Rouille | Retour en haut
- Whatlang - Bibliothèque de reconnaissance du langage naturel basé sur les trigrammes
- SNIPS-NLU-RS - Une bibliothèque de production Ready pour l'analyse d'intention
- Rust-Bert - Pipelines PNL et modèles basés sur les transformateurs prêts à l'emploi
NLP ++ - Langue NLP ++ | Retour en haut
- Extension du langage VScode - Extension du langage NLP ++ pour VScode
- NLP-moteur - moteur NLP ++ pour exécuter le code NLP ++ sur Linux, y compris un analyseur anglais complet
- VisualText - Page d'accueil pour la langue NLP ++
- NLP ++ Wiki - Entrée Wiki pour la langue NLP ++
Julia | Retour en haut
- Corpusloaders - une variété de chargeurs pour divers corpus PNL
- Langues - Un package pour travailler avec les langues humaines
- Textanalyse - Package Julia pour l'analyse de texte
- TextModels - Modèles basés sur le réseau de neurones pour le traitement du langage naturel
- WordTokenzers - Tokenisers de haute performance pour le traitement du langage naturel et d'autres tâches connexes
- Word2Vec - Julia Interface à Word2Vec
Services
NLP comme API avec des fonctionnalités de niveau supérieur telles que NER, le marquage de sujets, etc. Retour en haut
- Interface de langue naturelle pour les applications et les appareils
- Compréhension du langage naturel d'IBM Watson - API et démo GitHub
- Amazon comprend - la suite NLP et ML couvre les tâches les plus courantes comme NER, le tagging et l'analyse des sentiments
- API Language naturel de Google Cloud - L'analyse de syntaxe, le NER, l'analyse des sentiments et le marquage de contenu dans les langues au moins 9 incluent l'anglais et le chinois (simplifié et traditionnel).
- ParallelDots - Service API d'analyse de texte de haut niveau allant de l'analyse des sentiments à l'analyse de l'intention
- Service cognitif Microsoft
- Textrazor
- Rosette
- TEXTALYTIQUE - Traitement du langage naturel dans le navigateur avec analyse des sentiments, extraction d'entité nommée, marquage de possession de points, fréquences de mots, modélisation de sujets, nuages de mots, et plus
- NLP Cloud - Modèles NLP Spacy (personnalisés et pré-formés) a servi via une API RESTful pour la reconnaissance des entités nommés (NER), le marquage POS, et plus encore.
- CloudMersive - API NLP unifiée et libre qui effectuent des actions telles que le marquage de la parole, le rephrasion du texte, la traduction / détection linguistique et l'analyse des phrases
Outils d'annotation
- Gate - L'ingénierie générale de l'architecture et du texte a plus de 15 ans, gratuite et open source
- Anafora est l'outil d'annotation de texte brut gratuit et open source et basé sur le Web
- Brat - Brat Rapid Annotation Tool est un environnement en ligne pour l'annotation de texte collaboratif
- Docano - Docano est gratuit, open-source et fournit des fonctionnalités d'annotation pour la classification du texte, l'étiquetage des séquences et la séquence à la séquence
- Inception - Une plate-forme d'annotation sémantique offrant une assistance intelligente et une gestion des connaissances
- Tagtog, équipe Web-First pour trouver, créer, maintenir et partager des ensembles de données - coûte $
- Prodigy est un outil d'annotation propulsé par l'apprentissage actif, coûte $
- Lighttag - outil d'annotation de texte hébergé et géré pour les équipes, coûte $
- RSTWEB - outil local ou en ligne open source pour les annotations des arbres de discours
- Gitdox - outil d'annotation du serveur open source avec contrôle et validation de la version GitHub pour les données XML et les grilles de feuille de calcul collaboratives
- Étiquette Studio - outil d'annotation de texte hébergé et géré pour les équipes, basé sur Freemium, coûte $
- Prise en charge de diverses tâches NLP pour les individus ou les équipes, Freemium
- Konfuzio - Équipe First Hémordiale et sur site, Texte, image et outil d'annotation PDF propulsée par l'apprentissage actif, basé sur Freemium, coûte $
- Ubiai - outil d'annotation de texte facile à utiliser pour les équipes avec des fonctionnalités d'auto-annulation les plus complètes. Prend en charge le NER, les relations et la classification des documents ainsi que l'annotation OCR pour l'étiquetage des factures, coûte $
- Shoonya - Shoonya est une plate-forme d'annotation de données gratuite et open source avec des variétés de grande partie de l'organisation et du système de gestion du niveau de l'espace de travail. Shoonya est les données agnostiques, peut être utilisée par les équipes pour annoter les données avec divers niveaux de vérification à grande échelle.
- Annotation Lab - plate-forme sans fin de bout en bout gratuite pour l'annotation de texte et la formation / réglage du modèle DL. Prise en charge prête à l'emploi pour la reconnaissance, la classification, l'extraction des relations et l'état d'assurance des modèles NLP de la classification, de l'extraction des relations et de l'état d'assurance. Support illimité pour les utilisateurs, les équipes, les projets, les documents. Pas se foss.
- Flat - Flat est un environnement d'annotation linguistique sur le Web basé sur le format Folia, un riche format basé sur XML pour l'annotation linguistique. Gratuit et open source.
Techniques
Texte des intérêts
Incorporation de mots
Règle du pouce: FastText >> GLANT> Word2VEC
Word2Vec - Implémentation - Blog expliqueur
Glove - Blog expliqueur
FastText - Implémentation - Papier - Blog expliqueur
Les intérêts des mots basés sur le modèle de phrase et de langue
Retour en haut
- Elmo - Représentations des mots contextualisés profonds - Implémentation Pytorch - Implémentation TF
- Ulmfit - Modèle de langue universelle Fineur pour la classification du texte par Jeremy Howard et Sebastian Ruder
- Infersent - Apprentissage supervisé des représentations universelles de phrases à partir des données d'inférence du langage naturel par Facebook
- Cove - apprise en traduction: vecteurs de mots contextualisés
- Vectors de paragraphe - des représentations distribuées des phrases et des documents. Voir le tutoriel DOC2VEC à Gensim
- Sense2Vec - Sur les mots Sense Disambiguation
- Sauter les vecteurs de pensée - Méthode de représentation des mots
- Skip-Gram adaptatif - approche similaire, avec des propriétés adaptatives
- Séquence à l'apprentissage de séquence - vecteurs de mots pour la traduction machine
Question Répondre et extraction des connaissances
Retour en haut
- DRQA - Question ouverte de domaine Répondre au travail par Facebook Research on Wikipedia Data
- Document-QA - Compréhension de lecture multi-paragraphe simple et efficace par Allenai
- Extraction d'informations basée sur des modèles sans les modèles
- Privee: une architecture pour analyser automatiquement les politiques de confidentialité du Web
Ensembles de données
Retour en haut
- PNL-Datasets Grande collection d'ensembles de données NLP
- Gensim-Data - Référentiel de données pour les modèles NLP pré-entraînés et les corpus NLP.
Cadres NLP multilingues
Retour en haut
- UDPipe est un pipeline formable pour les tokenisants, le taggage, le lémmatisation et l'analyse des banques d'arbres universelles et d'autres fichiers conll-u. Écrit principalement en C ++, propose une solution rapide et fiable pour le traitement NLP multilingue.
- NLP-Cube: Pipe de traitement du langage naturel - Fractionnement des phrases, tokenisation, lemmatisation, marquage de discours et analyse de dépendance. Nouvelle plate-forme, écrite en Python avec Dynet 2.0. Offre des fonctionnalités autonomes (CLI / Python) et les fonctionnalités du serveur (API REST).
- L'Uralicnlp est une bibliothèque NLP principalement pour de nombreuses langues uraliques en voie de disparition telles que les langues Sami, les langues Mordvin, les langues mari, les langues Komi, etc. Certaines langues non dépendantes sont également soutenues telles que le finlandais ainsi que des langues non-naturelles telles que le suédois et l'arabe. L'uralicnlp peut effectuer une analyse morphologique, une génération, une lemmatisation et une désambiguïsation.
PNL en coréen
Retour en haut
Bibliothèques
- Package Konlpy - Python pour le traitement coréen du langage naturel.
- MECAB (coréen) - Bibliothèque C ++ pour NLP coréen
- Koalanlp - Bibliothèque Scala pour le traitement coréen du langage naturel.
- Package Konlp - R pour le traitement coréen du langage naturel
Blogs et tutoriels
- Blog de Dsindex
- Cours NLP de l'Université de Kangwon en coréen
Ensembles de données
- Kaist Corpus - Un corpus du Corée Advanced Institute of Science and Technology en coréen.
- Naver Sentiment Movie Corpus en coréen
- Chosun Ilbo Archive - Dataset en coréen à partir de l'un des principaux journaux de Corée du Sud, le Chosun Ilbo.
- Données de chat - données de chatbot en coréen
- Pétitions - Collectez les données de pétition expirées sur le site de la pétition nationale de la Blue House.
- Ensemble de données coréennes parallèles - Neural Machine Translation (NMT) pour coréen en français et coréen en anglais
- Korquad - ensemble de données de l'équipe coréenne avec source Wiki HTML. Mentionne à la fois v1.0 et v2.1 au moment de l'ajout de NLP impressionnante
PNL en arabe
Retour en haut
Bibliothèques
- Goarabic - GO Package pour le traitement de texte arabe
- JSASTEM - Javascript pour l'arabe entièrement
- Pyarabic - bibliothèques python pour l'arabe
- RFTOKERIZER - Segmenteur Python formable pour l'arabe, l'hébreu et le copte
Ensembles de données
- Ensembles de données multidomaines - Ressources multi-domaines les plus importantes pour l'analyse des sentiments arabes
- LABR - Grands avis de livres arabes
- Mottes d'arrêt arabe - Une liste des mots d'arrêt arabes de diverses ressources
PNL en chinois
Retour en haut
Bibliothèques
- Jieba - Python Package pour les utilitaires de segmentation des mots en chinois
- Snownlp - package Python pour la PNL chinois
- Fudannlp - bibliothèque Java pour le traitement de texte chinois
- HANLP - La bibliothèque NLP multilingue
Anthologie
- FUNNLP - Collection d'outils et de ressources PNL principalement pour le chinois
PNL en allemand
- Allemand-NLP - Liste organisée des ressources et outils et outils et outils Open-Access / Open-source / Off-the-Shelf.
PNL en polissage
- POLOSID-NLP - Une liste organisée de ressources dédiées au traitement du langage naturel (NLP) en polonais. Modèles, outils, ensembles de données.
PNL en espagnol
Retour en haut
Bibliothèques
- Spanlp - Python Library pour détecter, censurer et propre blasphème, vulgarités, mots haineux, racisme, xénophobie et intimidation dans les textes écrits en espagnol. Il contient des données de 21 pays hispanophones.
Données
- Discours politiques colombiens
- Copenhague Treebank
- Corpus des milliards de mots espagnols avec Word2Vec Embeddings
- Compilation des corpus espagnols non annotés
Les incorporations de mots et de phrases
- Les incorporations de mot espagnol calculées avec différentes méthodes et de différentes corpus
- Les incorporations de mot espagnol calculées à partir de grandes corpus et de différentes tailles à l'aide de FastText
- Emballages de phrases espagnoles calculées à partir de grands corpus à l'aide de Sent2Vec
- Beto - Bert pour l'espagnol
NLP dans les langues indic
Retour en haut
Données, corpus et banques d'arbres
- Hindi Dependance Treebank - Un arbre multicouche multi-représentationnel pour l'hindi et l'ourdou
- Dépendances universelles Treebank en hindi
- Dépendances universelles parallèles Treebank en hindi - une partie plus petite de la banque d'arbres susmentionnée.
- Liste des mots d'arrêt ISI (Hindi et Bangla)
- Liste des mots d'arrêt de Peter Graham
- Nltk Corpus 60k mots pos taggés, bangla, hindi, marathi, telugu
- Échantillons de données sur les critiques de films hindi ~ 1k échantillons, 3 classes de polarité
- BBC News Hindi Dataset 4.3k échantillons, 14 classes
- IIT Patna Hindi ABSA Dataset Échantillons 5.4k, 12 domaines, termes d'aspect 4K, polarité des aspects et au niveau de la phrase dans 4 classes
- Échantillons de 5,5k Bangla Absa, 2 domaines, 10 termes d'aspect
- IIT Patna Movie Review Sentiment Dataset Samples 2K, 3 Étiquettes de polarité
Les corpus / ensembles de données qui ont besoin d'une connexion / accès peuvent être acquis par e-mail
- Sail 2015 Twitter et Facebook ont étiqueté des échantillons de sentiment en hindi, bengali, tamoul, telugu.
- IIT Bombay NLP Resources SentiwordNet, film et tourisme parallèles étiquetés, Corpus annoté de polarité étiqueté, Marathi Polarity Corpus.
- TDIL-IC agrége beaucoup de ressources utiles et donne accès à des ensembles de données autrement fermés
Modèles de langue et incorporation de mots
- Hindi2Vec et NLP-for-Hindi UlmFit Style Languge Modèle
- Iit patna mot bilingue incorporedds hi-en
- FastText Word Embeddings dans un tas de langues, formé sur une rampe commune
- Hindi et Bengali Word2Vec
- Modèle d'Elmo en hindi et en ourdou
- Sanskrit Albert s'est formé sur le sanskrit Wikipedia et le Corpus Oscar
Bibliothèques et outils
- Analyseur morphologique profond multi-tâches Parser morphologique basé sur le réseau profond pour l'hindi et l'ourdou
- Anoop Kunchukuttan 18 langues, hôte entier de fonctionnalités de la tokenisation à la traduction
- L'analyseur de dépendance de la dépendance de la dépendance de Sivareddy et le tagger POS pour Kannada, Hindi et Telugu. Port python3
- INLTK - Une boîte à outils en langue naturelle pour les langues indic (langues du sous-continent indien) construites au-dessus de Pytorch / Fastai, qui vise à fournir une prise en charge hors de la boîte pour les tâches PNLP communes.
PNL en thaï
Retour en haut
Bibliothèques
- Pythainlp - thai nlp in python package
- JTCC - Une bibliothèque de cluster de caractères à Java
- Cutkum - Segmentation des mots avec apprentissage en profondeur dans Tensorflow
- Toolkit de langue thaïlandaise - basée sur un article de Wirote Aroonmanakun en 2002 avec un ensemble de données inclus
- Synthai - Segmentation des mots et étiquetage de POS à l'aide d'un apprentissage en profondeur dans Python
Données
- Inter-Best - Un corpus de texte avec 5 millions de mots avec segmentation de mots
- Premier ministre 29 - Ensemble de données contenant des discours du Premier ministre actuel de Thaïlande
PNL en danois
- Reconnaissance d'entité nommée pour danois
- DANLP - Ressources NLP en danois
- Awesome Danish - Une liste organisée de ressources impressionnantes pour la technologie du langage danois
PNL en vietnamien
Bibliothèques
- TRANSTHESEA - Vietnamise NLP Toolkit
- VN.Vitk - Une boîte à outils de traitement de texte vietnamien
- Vncorenlp - Une boîte à outils de traitement du langage naturel vietnamien
- Phobert - Modèles de langue pré-formée pour les vietnamiens
- Pyvi - Python Vietnamise Core NLP Toolkit
Données
- Vietnamien Treebank - 10 000 phrases pour la tâche d'analyse de circonscription
- Bktreebank - Une banque de dépendance à la dépendance vietnamienne
- UD_VIETNAMEES - Vietnamien Universal Dependency Treebank
- Vivos - Un corpus de discours vietnamien gratuit composé de 15 heures d'enregistrement du discours par Ailab
- VNTQCORPUS (BIG) .TXT - 1,75 million de peines dans les nouvelles
- VITEXT2SQL - Un ensemble de données pour l'analyse sémantique de texte à SQL vietnamien (résultats EMNLP-2010)
- EVB Corpus - 20 000 000 mots (20 millions) de 15 livres bilingues, 100 textes parallèles anglais-vietnamien / vietnamien-anglais, 250 textes parallèles de droit et d'ordonnance, 5 000 articles de presse et 2 000 sous-titres de film.
PNL pour néerlandais
Retour en haut
- Python-Frog - Python se liant à la grenouille, une suite NLP pour le néerlandais. (Tagging POS, lemmatisation, analyse de dépendance, NER)
- Simplenlg_nl - Dutch Surface Realiser utilisé pour la génération de langage naturel en néerlandais, basé sur la mise en œuvre Simplenlg pour l'anglais et le français.
- ALPINO - Parser de dépendance pour le néerlandais (fait également le marquage et la lemmatisation).
- Kaldi NL - Modèles de reconnaissance de la parole néerlandais basés sur Kaldi.
- Spacy - Modèle néerlandais disponible. - NLP de force industrielle avec python et cython.
PNL en indonésien
Ensembles de données
- Collections de kompas et de tempo à ILPS
- PANL10N pour le marquage de pos: 39k phrases et jetons de mot 900k
- IDN pour le marquage POS: Ce corpus contient 10 000 phrases et 250k jetons de mots
- Banque arbre indonésienne et dépendances universelles-indonesiennes
- Indosum pour le résumé de texte et la classification
- WordNet-Bahasa - Dictionnaire grand, gratuit et sémantique
- IndoBenchmark Indonlu comprend un modèle de langue pré-formée (Indobert), un modèle FastText, un corpus Indo4b et plusieurs ensembles de données de référence NLU
Bibliothèques et intégrer
- Boîte à outils en langue naturelle bahasa
- Mot indonésien incorporation
- Texte de texte rapide indonésien pré-entraîné formé sur Wikipedia
- IndoBenchmark Indonlu comprend un modèle de langage prétrainé (Indobert), un modèle FastText, un corpus Indo4b et plusieurs ensembles de données de référence NLU
PNL en ourdou
Ensembles de données
- Collection des ensembles de données ourdou pour les tâches POS, NER et NLP
Bibliothèques
- Bibliothèque de traitement du langage naturel pour (??) Langue ourdou
PNL en persan
Retour en haut
Bibliothèques
- Hazm - boîte à outils PNLP persan.
- Parsivar: une boîte à outils de traitement des langues pour le persan
- Perke: Perke est un package d'extraction Python KeyPhrase pour la langue persane. Il fournit un pipeline d'extraction de phrases de clé de bout en bout dans lequel chaque composant peut être facilement modifié ou étendu pour développer de nouveaux modèles.
- Perstem: Persian STEMMER, Analyseur morphologique, transliterator et étiqueteur partielle de la parole
- Parsianalyzer: Analyseur persan pour Elasticsearch
- Virastar: nettoyer le texte persan!
Ensembles de données
- Bijankhan Corpus: Bijankhan Corpus est un corpus étiqueté qui convient à la recherche de traitement du langage naturel sur la langue perse (FARSI). Cette collection est rassemblée sur les nouvelles quotidiennes et les textes communs. Dans cette collection, tous les documents sont classés en différents sujets tels que politique, culturel, etc. Totalement, il y a 4300 sujets différents. La collection Bijankhan contient environ 2,6 millions de mots marqués manuellement avec un ensemble de balises qui contient 40 balises POS persanes.
- Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) est un grand corpus persan librement disponible. Le corpus est une version modifiée du corpus Bijankhan avec une segmentation de phrase supplémentaire et une tokenisation cohérente contenant 2 704 028 jetons et annotée avec 31 étiquettes de disposition. Les balises de la partie de la parole sont répertoriées avec des explications dans ce tableau.
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
Licence
License - CC0