La grande liste des analyses de texte de l'oncle Steve et des ressources PNL
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
Une liste organisée de ressources pour apprendre le traitement du langage naturel, l'analyse de texte et les données non structurées.
Table des matières
- Livres
- Blogs
- Articles de blog, articles, études de cas
- Général
- Biais dans la PNL
- Grattage
- Nettoyage
- Entièrement
- Réduction de la dimensionnalité
- Détection du sarcasme
- Classification des documents
- Entité et extraction d'informations
- Regroupement de documents et similitude des documents
- Analyse du concept / modélisation de sujet
- Analyse des sentiments
- Résumé de texte
- Traduction automatique
- Systèmes de questions et réponses, chatbots
- Correspondance floue, correspondance probabiliste, liaison d'enregistrement, etc.
- Word et document intégrés
- Transformers et modèles de langue
- Apprentissage en profondeur
- Graphiques de connaissances
- Conférences PNL majeures
- Repères
- Cours en ligne
- API et bibliothèques
- Produits
- Démos et outils en ligne
- Ensembles de données
- Mission
- Autres listes organisées
Livres
R
- Extraction de texte avec r
- Maîtriser l'extraction de texte avec r
- Extraction de texte en pratique avec r
Python
- Traitement du langage naturel avec transformateurs, édition révisée
- Commencer avec le traitement du langage naturel
- Blueprints for Text Analytics Using Python: Solutions basées sur l'apprentissage automatique pour les applications du monde réel (NLP)
- Traitement pratique du langage naturel
- Traitement du langage naturel avec Python
- Traitement du langage naturel avec pytorch
- Python Traitement du langage naturel
- Maîtriser le traitement du langage naturel avec Python
- Traitement du langage naturel: Python et NLTK
- Analyse de texte appliquée avec Python: activer des produits de données conscients du langage avec l'apprentissage automatique
- Traitement du langage naturel appliqué avec Python. 2018.
- Apprentissage en profondeur avec texte
Général
- Taming Text: comment le trouver, l'organiser et le manipuler. Un guide pratique pour apprendre des outils et des techniques innovants pour trouver, organiser et manipuler un texte non structuré.
- Traitement de la parole et du langage
- Fondations du traitement statistique du langage naturel
- Traitement linguistique avec Perl et Prolog: théories, implémentation et application (technologies cognitives)
- Une introduction pour la recherche d'informations
- Manuel de traitement du langage naturel
- Extraction de texte pratique et analyse statistique pour les applications de données texte non structurées
- Fondamentaux de l'exploration de texte prédictive
- Exploitation du Web social: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, et plus
- Méthodes de réseau neuronal pour le traitement du langage naturel
- Extraction de texte: un guide pour les sciences sociales
- Analyse de texte pratique: interpréter le texte et les données non structurées pour l'intelligence d'affaires
- Méthodes de réseau neuronal dans le traitement du langage naturel
- Machine Learning for Text (2018)
- Traitement du langage naturel en espagnol
- Fondements de la linguistique informatique Communication de l'ordinateur humain en langage naturel. Fournit des informations sur la façon de construire des robots parlants.
- Méthodes statistiques de reconnaissance vocale. Met en évidence des recherches importantes et des méthodes statistiques de reconnaissance de la parole.
- Comment étiqueter le guide étendu des données sur la gestion de grands projets d'annotation de texte
Blogs
- Probablement approximativement un blog scientifique
- Sebastian Ruder
- PNL-Progress
- Blog de traitement du langage naturel
Articles de blog, articles, études de cas
Général
- PNL dans les soins de santé. Comment la PNL peut être utilisée par les payeurs et les prestataires de soins de santé.
- AI Harvard Business Review. L'impact de l'amélioration de la PNL sur l'interaction humaine avec les machines.
- Pourquoi la précision du traitement du langage naturel est cruciale pour l'avenir de l'IA dans la vente au détail
- Le traitement du langage naturel est amusant! Comment les ordinateurs comprennent le langage humain. 2018.
- Campagne de WEF Live - Twitter Fed Global News Topics & Sentiment Tracker - Live Jan 2019
- Techniques d'apprentissage en profondeur modernes appliquées au traitement du langage naturel
- Le guide définitif du traitement du langage naturel. Monkeylearn. Aperçu non technique.
- Du langage naturel aux entrées de calendrier, avec Clojure. Mars 2015. NLP, Clojure
- Demandez à HN: Comment puis-je entrer dans la PNL (traitement du langage naturel)?
- Demandez à HN: Quels sont les meilleurs outils pour analyser de grands corps de texte?
- Quora: Comment apprendre le traitement du langage naturel ?. Bonne intro pour débutant avec une rupture d'estimation du temps et des liens avec les cours de Stanford CS.
- Quora Sujet: Traitement du langage naturel
- Le guide définitif du traitement du langage naturel en octobre 2015.
- Futures du texte février 2015. Une étude de toute l'innovation actuelle dans le texte en tant que support.
- R ou Python sur l'exploitation de texte août 2015. Comparaison de l'efficacité entre R et Python dans le domaine de l'exploitation de texte.
- Où commencer dans l'exploitation de texte en août 2012.
- Extraction de texte en R et Python: 8 conseils pour commencer. Octobre 2016
- Une introduction à l'analyse de texte avec Python, partie 1 avril 2012. Une procédure pas à pas du débutant sur l'idée de base de l'analyse des sentiments à Python.
- Miner les données de Twitter avec Python (partie 1: collection de données)
- Pourquoi l'extraction de texte peut être la prochaine grande chose. Mars 2012.
- Le PDG de SAS propose des analyses sur BI, révèle des cas d'utilisation pour l'analyse de texte en juin 2011.
- Valeur et avantages de l'exploration de texte. Sept. 2015.
- Texte Mining South Park Feb 2016 - Un blog d'extraction de texte qui couvre une variété de sujets.
- Traitement du langage naturel: une introduction
- Tutoriel de traitement du langage naturel. Juin 2013.
- Blog de traitement du langage naturel.
- Une introduction à l'exploitation de texte à l'aide de l'API de streaming Twitter et Python
- GitHub Repo avec code: https://github.com/adilmoujahid/twitter_analytics
- Comment entrer dans le traitement du langage naturel ». Intro de base non technique à la PNL.
- BETTY: Une interface amicale en anglais pour votre ligne de commande.
- Création de modèles d'apprentissage automatique pour analyser les nouvelles du démarrage - Part1. Partie 2. Partie 3.
- Comparaison des API de traitement de texte les plus utiles
- 100 papiers PNL à lire
- Guide Python pour gérer les données de texte
- La vérité du sol du crowdsourcing pour l'extraction des relations médicales
- Prévision financière basée sur le langage naturel: une enquête
- Prévision financière basée sur le langage naturel: une enquête. Un article qui clarifie l'étendue des prévisions financières du langage naturel.
- 5 outils héroïques pour le traitement du langage naturel
- Le traitement du langage naturel débloque des données cachées pour transformer l'efficacité, la qualité et le coût des soins de santé
- Extraction des problèmes médicaux des documents cliniques électroniques
- Traitement du langage naturel (PNL) pour l'apprentissage automatique. Comprend le prétraitement de base, facile à comprendre et compare quelques modèles de classificaiotn ML à Python.
- Comment écrire un correcteur d'orthographe - par Peter Norvig
- Utilisation de l'IA pour libérer le pouvoir des données gouvernementales non structurées: (W. Eggers, N. Malik et M. Gracie, janvier 2019). «Pensez au texte non structuré comme étant« piégé »dans des armoires de classement physiques et virtuelles. La promesse est claire: les gouvernements pourraient améliorer l'efficacité et empêcher de nombreuses catastrophes en améliorant leur capacité à« connecter les points »et identifier les modèles dans les données disponibles.» Cet article Deloitte fournit une amorce et un arrière-plan faciles à compréhension sur la PNL, et les différentes applications NLP pourraient être utilisées sur des données de texte gouvernemental non structurées. L'article comprend de nombreux exemples du gouvernement américain sur la façon dont la PNL est actuellement déployée dans différents domaines (par exemple, pour aider à analyser les commentaires du public / analyse des sentiments / modélisation de sujets, pour améliorer les enquêtes médico-légales, pour aider à l'élaboration des politiques et à la conformité réglementaire du gouvernement). Le point clé est d'appliquer différentes techniques de PNL pour explorer et découvrir des informations clés du renseignement gouvernemental.
- Extraction des caractéristiques des produits de divertissement: une approche d'allocation de Dirichlet latente guidée éclairée par la psychologie de la consommation des médias: (O. Toubia, G. Iyengar, R. Bunnell et A. Lemaire, février 2019). «Nous comptons sur la littérature PNL pour développer une méthode pour marquer les produits de divertissement de manière automatisée et évolutive. Dans le contexte des films, nous montrons d'abord que les fonctionnalités proposées améliorent notre capacité à prédire la consommation au niveau individuel… Nous montrons également que les fonctionnalités guidées de LDA ont le potentiel d'améliorer les performances des modèles qui prédisent les résultats des performances agrégées plutôt que sur la consommation de niveau individuel.» Cet article académique fournit à la fois un cadre et des implications managériales qui suggèrent l'application de LDA et de PNL pour l'extraction de fonctionnalités dans les produits de divertissement qui peuvent aider à des modèles traditionnels de comportement des consommateurs basés sur le contenu, et des modèles de marketing pertinents appliqués à l'industrie des médias et du divertissement.
- Les leçons apprises création de systèmes de traitement du langage naturel dans les soins de santé
- Comment les algorithmes savent ce que vous taperez ensuite
Biais dans la PNL
- Biais d'IA: il est de la responsabilité des humains d'assurer l'équité
- VentureBeat Blogpost - Biais de genre dans les ensembles de données - basés sur le document de recherche UCLA "Apprentissage des intégres de mots neutres de genre" août 2018.
- Examiner les biais de genre et de race dans deux cents systèmes d'analyse des sentiments. 2018
- L'homme est à un programmeur informatique comme la femme est à la femme au foyer? Débiasing Word Embeddings.
Grattage
- Stracing HTML en utilisant le tutoriel de scrapie sur l'utilisation du Scrapie du module Python pour une extraction facile de données à partir de sites Web HTML désordonnés.
- Extraire le texte de tout document; Pas de muss, pas de bruit. Juillet 2014.
- Utilisation de Scrapy pour créer votre propre ensemble de données sept 2017.
Nettoyage
- Comment résoudre 90% des problèmes de la PNL: un guide étape par étape janvier 2018. Un guide étape par étape sur le nettoyage et l'exploration des données pour un bâtiment de modèle NLP réussi.
- Prétraitement du texte dans Python: étapes, outils et exemples. Octobre 2018
- Comment nettoyer le texte pour l'apprentissage automatique avec Python octobre 2017. Guide étape par étape sur la façon d'effectuer le prétraitement des données texte.
- Extraction de fonctionnalités, prétraitement de base et traitement avancé
Mots d'arrêt
- Supprimer les mots d'arrêt avec NLTK dans Python
- Classification du texte pour l'analyse des sentiments - mots d'arrêt et collocations
Entièrement
- Article: Texte engelant: approches, applications et défis. Déc 2016.
- Quelle est la différence entre la tige et la lemmatisation ?. Février 2018. Différences et exemples d'utilisation de la tige et de la lemmatisation dans différentes langues.
- Engendré et la lemmatisation dans Python. Oct 2018. Comparaison de la tige et de la lemmatisation avec des algorithmes derrière, les résultats, les avantages et les inconvénients, le contexte à utiliser et la syntaxe de code.
- Tutoriel du Sentiment Symposium:
Réduction de la dimensionnalité
- Taming Text avec le SVD. SAS. Janvier 2004.
- Réduction de la dimensionnalité pour les modèles du sac de mots: PCA vs LSA
- Une introduction au sac de mots et comment le coder en python pour NLP
- Sac de mots et TF-IDF expliqué
Détection du sarcasme
- Détection automatique du sarcasme: un enquête sur les enquêtes sur ordinateur ACM, sept. 2017.
- Cascade: Détection contextuelle du sarcasme dans les forums de discussion en ligne 27e Conférence internationale sur la linguistique informatique, août 2018.
- Un aperçu plus approfondi des tweets sarcastiques utilisant des réseaux de neurones convolutionnels profonds International Journal of Advanced Research in Computer Engineering & Technology, Volume 6, numéro 1, janvier 2017.
- Détection du sarcasme avec des réseaux de neurones convolutionnels profonds. 30 avril 2018. Apprentissage contextuel à l'aide de CNNS pour une détection efficace du sarcasme.
Classification des documents
- Naive Bayes and Text Classification, 2014. Un aperçu approfondi de l'algorithme naïf de Bayes et comment il peut être utilisé dans le processus de classification des documents.
- Sac of Tricks for Efficient Text Classification, 2016. Un article de chercheurs Facebook qui présente FastText, un algorithme de classification de documents rapide et efficace.
- Algorithmes de classificateur de texte dans Machine Learning, 2017. Un article de blog qui montre comment appliquer plusieurs algorithmes d'apprentissage en profondeur pour documenter les problèmes de classification.
- Classification des documents dans l'ensemble de données Ruc-21578 R8, 2016. Un joli tutoriel en R qui montre comment classer les articles de presse à l'aide de trois algorithmes ML différents.
- Tidy Text Mining Beer Reviews, 2018. utilise l'algorithme KNN pour classer les critiques des produits de bière artisanale en styles de bière (par exemple, "Pilsner", "IPA" ou "Belge").
- Utilisation de FastText et Comet.ml pour classer les relations dans les graphiques de connaissances
- Classification de texte multi-classe avec Scikit-Learn, 2018. Un article qui montre comment faire face aux problèmes multi-classes, tels que la classification des plaintes des consommateurs dans l'une des 12 catégories.
- Apprentissage automatique avec texte dans Scikit-Learn (Pycon 2016), 2016. Un joli tutoriel vidéo qui explique comment utiliser Scikit-Learn dans le processus de classification des documents.
- Guide ultime pour gérer les données de texte (à l'aide de Python) - pour les data scientifiques et ingénieurs, 2018. Le titre dit tout.
- Classification de texte dans Python avec Scikit-Learn et NLTK, 2017. Un autre tutoriel montrant comment effectuer la classification du texte à l'aide de Scikit-Learn.
- Présentation de la classification du texte de pointe avec les modèles de langage universel, 2019. Présentation d'une méthode d'apprentissage transfert révolutionnaire pour la classification des documents.
- Apprentissage du document intégré en prédisant les n-grammes pour la classification des sentiments des longues critiques de films - document avec code sur github
- Vers une NLP explicable: un cadre d'explication génératif pour la classification du texte, 2019. Un article qui décrit une nouvelle approche pour expliquer le fonctionnement interne des modèles de classification de texte.
Entité et extraction d'informations
- Extraction des entités et analyse de réseau. Python,
StanfordCoreNLP - Traitement du langage naturel pour l'extraction d'informations
- Techniques de PNL pour extraire des informations. Exploration approfondie du cadre des sept étapes des outils et techniques d'exploration de données PNL.
Regroupement de documents et similitude des documents
- Clustering de texte: obtenez des informations rapides à partir de données non structurées. Juillet 2017.
- Clustering de documents. Thèse de MSC.
- Clustering de documents: une revue détaillée. Shah et Mahajan. Ijais 2012.
- Document Clustering with Python a GitHub Repository qui clusters IMDB Movie Descriptions. Basé sur ce tutoriel original, dont le repo GitHub est ici.
- Extraction de texte et analyse des sentiments sur les avis des utilisateurs de jeux vidéo à l'aide de SAS® Enterprise Miner
- Qui a écrit l'op-Times Anti-Trump New York Times? Utilisation de TidyText pour trouver la similitude des documents
Analyse du concept / modélisation de sujet
- Modèles de sujet: passé, présent et futur
- Vecteurs de mots utilisant LSA, partie - 2
- Modèles de sujet probabilistes
- Thèmes de couleur LEGO comme modèles de sujets sept. 2017.
- Comment notre startup est passée de LDA non supervisée à Guidedlda semi-supervise
- Modélisation de sujets avec LSA, PLSA, LDA & LDA2VEC août 2018.
- Description de Text2Vec des modèles de sujet
- Portail de modélisation de sujets
- Applications des modèles de sujets 2017.
- MACS 30500: Analyse du texte: modélisation du sujet
- COTA, Approche de modélisation du sujet d'Uber pour améliorer le support client
- En utilisant les modèles de sujets LDA comme entrée de modèle de classification
- NLP: extraire les principaux sujets de votre ensemble de données à l'aide de LDA en quelques minutes
- Modélisation du sujet Le sujet juridique et l'activité judiciaire de la Haute Cour d'Australie, 1903-2015
Analyse des sentiments
Méthodes
- CACM: Techniques and Applications for Sentiment Analysis, 2013. A Nelt Aperview of Sentiment Analysis from the Communications of the ACM Journal.
- Analyse des sentiments non supervisés avec les réseaux sociaux signés, 2017. Un document de conférence qui décrit les défis de l'application de l'analyse des sentiments aux réseaux sociaux et présente une nouvelle méthode non supervisée.
- Méthodes basées sur le lexique pour l'analyse des sentiments, 2010. utilise So-Cal (calculatrice d'orientation sémantique), une mesure de la subjectivité et de l'opinion pour l'analyse sentimentale.
- That Sentimental Feeling, 2015. Compare le résultat du package Syezhet de R avec des étiquettes humaines sur une série de romans. Une mise à jour 2016.
- Sentiment Neuron non supervisé, 2017. L'équipe d'Openai a développé une nouvelle façon d'utiliser des NN profonds pour effectuer une analyse des sentiments, sur beaucoup moins de données que d'habitude.
- État actuel de l'analyse des sentiments du texte De l'opinion à l'émotion minière, 2017. Un article de revue qui examine l'état actuel de recherche et d'outils de l'analyse des sentiments.
- Présentation des outils d'analyse des sentiments, partie 1. Bases de données de mots positifs et négatifs, 2017. Un article de blog qui décrit certaines bases de données du lexique.
- Analyse des sentiments, analyse des concepts et applications, 2018. Un aperçu de l'analyse des sentiments, avec une analyse des tweets sur Uber.
- Documents de recherche révolutionnaire et modèles d'analyse des sentiments, 2018. Un blog qui compare les performances de méthodes simples à avancées d'analyse des sentiments.
- Analyse des sentiments Twitter utilisant des modèles combinés LSTM-CNN, 2018. Un article de blog qui décrit une nouvelle méthode d'analyse des sentiments qui utilise l'apprentissage en profondeur.
- VADER: A PARSIMONIEUX RECLATAGE MODÈLE D'ANNALYSE DES SENTIMENTS OF SOCIAL METH Text, 2014. Un document de conférence qui présente Vader, un modèle simple basé sur des règles d'analyse des sentiments.
- Une comparaison des approches basées sur le lexique pour l'analyse des sentiments des publications de microblog, 2014. Un document de conférence qui présente une nouvelle approche basée sur le lexique pour l'analyse des sentiments des publications Twitter, basée sur des ressources lexicales telles que SentiWordNet.
Défis
- Sur la négativité de la négation, 2011. Un document de conférence qui discute des défis du traitement de la négativité dans le texte, avec une étude de cas sur les critiques de films IMDB.
- Défis dans l'analyse des sentiments, 2015. Un guide pratique du Conseil national de redéach du Canada qui décrit certains des principaux défis de l'analyse des sentiments.
- Une enquête sur les défis de l'analyse des sentiments, 2016. Un article de revue qui discute et compare les défis de l'analyse des sentiments entre quarante-sept articles.
Politique
- Analyse des sentiments sur les tweets de Trump à l'aide de Python, 2017. Analyse des sentiments sur les tweets de Trump à l'aide de Tweep et TextBlob pour le traitement des PNL.
- Donald Trump vs Hillary Clinton: Analyse des sentiments sur les mentions de Twitter, 2016. Compare le sentiment des tweets de Trump contre les tweets de Hillary menant à l'élection présidentielle américaine de 2016.
- L'analyse des sentiments fonctionne-t-elle? Une analyse bien rangée des revues de Yelp, 2016. Résultats de prédiction combinés et mots individuels dans les revues pour montrer que l'analyse des sentiments a bien fonctionné sur les revues Yelp.
- Des tweets aux sondages: liaison du sentiment du texte à la série chronologique d'opinion publique, 2010. Un document de conférence qui décrit comment l'analyse des sentiments sur Twitter est liée aux sondages d'opinion publique.
Marché boursier
- Twitter Mood prédit le marché boursier, 2010. Un article de revue qui mesure «l'humeur» de Twitter Feedsa quotidienne et montre que les humeurs peuvent prédire la DJIA.
- Un impact non linéaire: preuves des effets causaux des médias sociaux sur les prix du marché, 2016. Un article de revue qui montre que la relation des médias sociaux avec la DJIA est non linéaire.
- Forbes: Comment les traders quantiques utilisent le sentiment pour obtenir un avantage sur le marché, 2015. Un article qui montre comment les traders quantiques peuvent utiliser l'analyse des sentiments.
- Senddex: quantifier le qualitatif. Un outil en ligne qui mesure le sentiment global des différentes actions.
- Trump2Cash: un bot de négociation en actions propulsé par Trump Tweets. Un bot qui regarde le compte Twitter de Donald Trump et l'attend pour mentionner des entreprises cotées en bourse. Un article de blog connexe décrit un bot qui transforme les tweets de Trump en dons de Planned Parenthood.
Applications
- Lost en mer: comment les médias sociaux aident les lignes de croisière à attirer les milléniaux, 2016. Un livre blanc décrivant comment les lignes de croisière peuvent attirer un public différent.
- Harry Ploter: Célébrer le 20e anniversaire avec TidyText et The Tidyverse in R, 2015. Un article technique montrant comment appliquer l'analyse des sentiments au texte de la série Harry Potter.
- Data Science 101: Sentiment Analysis in R Tutorial, 2017. Un article technique décrivant comment utiliser le package TidyText en R pour analyser les discours présidentiels américains.
- Cannes Lions 2017: Hungerithm, Mars Chocolate Australia (Clemenger BBDO, Melbourne), 2017. Une vidéo qui montre comment Snickers a développé un outil pour modifier le prix du bar Snickers en fonction de l'humeur d'Internet.
- Analyse des sentiments: 10 applications et 4 services, 2018. Une introduction brève mais concise à l'analyse des sentiments, ses implications commerciales et quatre fournisseurs de services cloud d'analyse des sentiments, notamment Google, Amazon et Microsoft.
- Ce que votre patron pourrait apprendre en lisant l'ensemble des e-mails de l'entreprise, 2018. "La leçon: déterminez la vérité sur la façon dont le marché du travail ne se sent pas en écoutant la substance de ce que disent les employés, mais en examinant comment ils le disent." Cet article est centré sur le sujet de l'application de l'analyse des sentiments à de grands ensembles de données de texte non structurés internes (par exemple, les e-mails des employés). L'analyse de texte et la PNL sont devenues une approche de plus en plus populaire pour aider à rechercher des indices qui peuvent indiquer le niveau d'engagement des employés sur le lieu de travail, et tout «drapeau rouge» potentiel qui devrait recevoir une attention particulière d'une organisation et de ses implications éthiques.
- Analyse des sentiments basés sur les aspects des revues sur les produits Amazon, 2018. Un article montrant comment appliquer l'analyse des sentiments sur différents aspects d'une revue de produit sur Amazon.
- Analyse des sentiments de 2,2 millions de tweets du Super Bowl 51, 2017. Un article montrant comment appliquer l'analyse des sentiments aux tweets sur le Super Bowl.
- Analyse des émotions et des sentiments: un guide du praticien de la PNL, 2018. Un aperçu de l'analyse des sentiments, appliqué aux articles de presse.
Outils et technologie
- Tutoriel d'analyse en streaming sur Azure.
- Comment analyser le sentiment dans Azure.
- PREND-TO-PERFORM-SENSIMENT-ANALYSY-USING-PYTHON-TUTORAL /.
- Aperçu de l'analyse des sentiments Twitter, 2016. Aperçu de l'analyse des sentiments et une procédure pas à pas sur la façon d'effectuer l'analyse des sentiments à l'aide de TextBlob.
- Elmo Embeddings dans Keras à l'aide de TensorFlow Hub, 2018. Un guide pour utiliser l'Elmo de Google dans votre modèle Keras à l'aide de TensorFlow Hub.
- Twitter Sentiment Analysis in Python Using TextBlob, 2018.
Résumé de texte
- Résumé de texte avec Gensim
- Résumé de texte non supervisé à l'aide des intérêts de la phrase
- Amélioration de l'abstraction du résumé de texte proposant deux techniques d'amélioration
- Résumé de texte et catégorisation pour la résumé de texte scientifique et lié à la santé avec TensorFlow. 2016. Une étude de base sur le résumé de texte.
Traduction automatique
- Poste de blog: Trouvé dans la traduction: phrases plus précises et courantes dans Google Translate nov 2016
- NYTimes: The Great IA Awakening Dec 2016. Comment Google a utilisé l'intelligence artificielle pour transformer Google Translate, l'un de ses services les plus populaires - et comment l'apprentissage automatique est prêt à réinventer l'informatique elle-même.
- Traduction d'apprentissage automatique et algorithme Google Translate
- Tutoriel de traduction de la machine neurale (SEQ2SEQ)
- Document disséqué: «L'attention est tout ce dont vous avez besoin», expliquait l'explication d'un article important qui a introduit le «mécanisme d'attention» pour la première fois en 2017.
- Le transformateur annoté une implémentation ligne par ligne de "l'attention est tout ce dont vous avez besoin".
- Bert: pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage Un nouveau modèle de représentation linguistique publié en 2018. Code d'implémentation. Port Pytorch.
- Traduction machine non supervisée basée sur des phrases et neuronale a proposé deux variantes de modèle: le modèle neuronal et basé sur la phrase. Récompensé comme le meilleur prix de papier à EMNLP 2018. Code d'implémentation.
Systèmes de questions et réponses, chatbots
- Rencontrez Lucy: Création d'un prototype de chatbot
- Microsoft Bot Framework.
- Former des millions d'agents de dialogue personnalisés
- Guide ultime pour tirer parti de la PNL et de l'apprentissage automatique pour votre chatbot. 2016.
- Construire un chatbot simple à partir de zéro dans Python (en utilisant NLTK). Sept. 2018
- Une enquête sur les systèmes de dialogue: avancées récentes et nouvelles frontières janvier 2018.
- Examiner l'impact d'un chatbot de traduction automatisé sur la boîte de dialogue collaborative en ligne pour l'apprentissage l2 accidentel
- Créez un chatbot bancaire avec la découverte de la FAQ, la détection de la colère et la compréhension du langage naturel
- CHATBOTS GÉNÉRATIVES - MAI 2017
- Un guide pour construire un slackbot multi-fonctionnaires avec Python - mars 2017
- Construire un chatbot simple à partir de zéro dans Python (en utilisant NLTK) - septembre 2018
- La route vers une banque conversationnelle à l'avenir 2019
- Chatbots - Concevoir des intentions et des entités pour les modèles NLP janvier 2017
- Système de dialogue axé sur les tâches pour le diagnostic automatique. 2018. parle de l'utilisation de l'ensemble de données formé par le MDP et de ses applications de diagnostic médical.
- Li Deng chez AI Frontiers: trois générations de systèmes de dialogue parlé (bots). 2017. Diapositives du scientifique en chef de Microsoft pour l'IA.
- NLP - Construire un modèle de réponse aux questions. Mars 2018
Correspondance floue, correspondance probabiliste, liaison d'enregistrement, etc.
- Méthode d'accord dans R. correspondance approximative des cordes (correspondance floue)
- Package Fuzzywuzzy dans R. Exemple d'utilisation.
- Match des cordes floues - une compétence de survie pour lutter contre les informations non structurées
- Le package RecordLinkage: détection des erreurs de données
- R package FastLink: liaison de disques probabilistes rapides
- Fuzzy Merge dans R An R Fonction pour fusionner les fichiers en définissant un fichier clé
- Apprendre la similitude du texte avec les réseaux récurrents siamois
- Dedupe: une bibliothèque Python pour la correspondance floue précise et évolutive, l'enregistrement de la déduplication et la résolution de l'entité.
- RecordLinkage: une boîte à outils pour l'enregistrement de liaison et de déduplication écrite en python.
Word et document intégrés
- Le meilleur actuel des incorporations de mots universelles et des intérêts de phrases
- Une compréhension intuitive des incorporations de mots: des vecteurs de comte à word2vec
- Une évaluation empirique de DOC2VEC avec des informations pratiques sur la génération d'intégration des documents 2016. De IBM.
- Document Incorpore avec les vecteurs de paragraphe 2015. De Google.
- GLANT WORD ENGRESSEDS Demo 2017. De Fasti.
- Classification du texte avec Word2Vec 2016.
- Document Imbedding 2017
- Des intégres de mots pour documenter les distances 2015.
- Word Embeddings, Biais en ML, pourquoi vous n'aimez pas les mathématiques, et pourquoi l'IA a besoin de vous 2017. Rachel Thomas (Fastai)
- Vecteurs de mots dans le traitement du langage naturel: vecteurs mondiaux (gant). Août 2018.
- Tutoriel DOC2VEC sur l'ensemble de données Lee
- Les incorporations de mots dans Python avec Spacy et Gensim
- Représentes de mots contextualisés profonds. Elmo. Implémentation de Pytorch. Implémentation TF
- Modèle de langage universel ajusté pour la classification du texte. Code d'implémentation.
- Apprentissage supervisé des représentations de phrases universelles à partir des données d'inférence du langage naturel.
- Appris dans la traduction: vecteurs de mots contextualisés. Crique.
- Réprésentations distribuées des phrases et des documents. Vectors de paragraphe. Voir le tutoriel DOC2VEC à Gensim
- Sense2Vec. La désambiguïsation du sens des mots.
- Sauter les vecteurs de pensée. Méthode de représentation des mots.
- Séquence à l'apprentissage des séquences avec des réseaux de neurones
- Le pouvoir incroyable des vecteurs de mots. 2016.
- Embeddings de chaîne contextuels pour l'étiquetage des séquences. 2018.
- Une approche hiérarchique multi-tâches pour l'apprentissage des intérêts à partir de tâches sémantiques introduisant une approche d'apprentissage multi-tâches pour un ensemble de tâches NLP interdépendantes. Présenté à la conférence AAAI en janvier 2019. Code de mise en œuvre.
- Elmo Word Embeddings
- Guide d'un idiot sur le traitement du langage naturel Word2Vec
- Se profile avec les intégres de mots - une introduction (février 2018)
- Le moment ImageNet de NLP est arrivé. Juillet 2018. Présentation des modèles de langage NLP pré-formés, dessinant des parallèles aux contributions d'imageNet à la vision par ordinateur.
- Word2Vec: Fish + Music = Bass
- Un encodeur de phrase universel a expliqué visuellement. Juin 2020.
Transformers et modèles de langue
- Comprendre de grands modèles de langue. Sebastian Raschka. Février 2023.
- A Primer in Bertology: ce que nous savons sur le fonctionnement de Bert. Nov 2020.
- Un examen des modèles basés sur Bert. Juillet 2019.
- Bert a expliqué - modèle de langue de pointe pour la PNL. Une grande explication des principes fondamentaux du fonctionnement de Bert.
- Le Bert illustré, Elmo et co. (Comment la NLP a craqué l'apprentissage du transfert). Déc 2018.
- Les machines ont battu les humains lors d'un test de lecture. Mais comprennent-ils?
- Ce que chaque ingénieur de la PNL doit savoir sur les modèles de langue pré-formés. 2019.
- Le transformateur… «expliqué»?
- Le transformateur illustré
- Course de l'étreinte sur les modèles de transformateurs
- OpenAI: Modèles de linguistes et leurs implications: modèle de langage non supervisé basé sur un transformateur pré-formé qui réalise à l'état de l'art sur de nombreuses références linguistiques en mettant l'accent sur la génération de texte. Controversial Limited Release. 14 février 2019.
Chatte
- Blog de lancement de Chatgpt
- Invites impressionnantes de chatppt
... en éducation
- Expérience utilisateur de Chatgpt: implications pour l'éducation. XiaoMing Zhai (UNIVERSITY OF GEORGIE). Décembre 2022.
- Nouveaux modes d'apprentissage activés par les chatbots AI: trois méthodes et affectations Mollick et Mollick (Université de Pennsylvanie). Décembre 2022.
- Les éducateurs combattent le plagiat car 89% des étudiants admettent utiliser le chatpt d'Openai pour les devoirs. Forbes, janvier 2023
- Chatgpt: ami ou ennemi éducatif ?. Hirsh-Pasek et Blinkoff (Temple University). Janvier 2023.
- N'interdisez pas le chatppt dans les écoles. Enseigner avec ça .. New York Times (janvier 2023).
- Chatgpt et l'avenir de l'éducation commerciale. Février 2023.
- Cours Udemy (janvier 2023). Chatgpt pour les enseignants en éducation.
Apprentissage en profondeur
- Tutoriel Keras LSTM - Comment construire facilement un puissant modèle de langue d'apprentissage en profondeur.
- La première moitié de l'article décrit les RNN, l'anatomie d'une cellule LSTM, les réseaux LSTM. La seconde moitié est une procédure pas à pas des fonctionnalités de Keras pour l'implémentation LSTM à l'aide de générateurs pour l'entrée de données.
- Apprentissage en profondeur pour le traitement du langage naturel: tutoriels avec cahier Jupyter.
- Un court article contenant des liens et des descriptions pour d'autres didacticiels vidéo pour les approches DL des problèmes de PNL. Cinq leçons au total, y compris le prétraitement, les représentations des mots et le LSTM, entre autres sujets.
- Une enquête sur les usages de l'apprentissage en profondeur dans le traitement du langage naturel.
- Une revue de la littérature académique de 35 pages de DL dans la PNL (Université du Colorado, juillet 2018). Description détaillée des architectures de réseau neuronal suivies d'un ensemble complet d'applications.
- Classification des séquences avec l'attention humaine: en utilisant l'attention humaine dérivée des corpus de suivi des yeux pour régulariser l'attention dans les réseaux de neurones récurrents (RNN). Code d'implémentation.
- Tutoriel sur la classification du texte (NLP) à l'aide de la bibliothèque UlmFit et Fastai à Python
- Réseaux de neurones profonds multi-tâches pour la compréhension du langage naturel. Article académique détaillant l'algorithme MTDNN de Microsoft qui a surpassé Bert, Elmo & Bilstm en février 2019 dans la référence Glue.
- Tutoriel de traitement du langage naturel pour les chercheurs en profondeur: un référentiel de tutoriel NLP 2019 utilisant TensorFlow et Pytorch.
- Apprentissage en profondeur pour l'analyse des sentiments: une enquête
- Compréhension de la lecture neuronale et au-delà de décembre 2018 Stanford - Modèles de compréhension en lecture construits au-dessus des réseaux de neurones profonds.
- Microsoft: Réseau de neurones profonds multi-tâches (MT-DNN): l'amélioration de Microsoft sur Bert de Google en mettant l'accent sur la compréhension du langage naturel. Code à publier. 31 janvier 2019.
- Une phrase auto-attentive structurée incorporant
Réseaux de capsule
- Enquête sur les réseaux de capsule avec un routage dynamique pour la classification du texte. 2018.
- Réseaux de capsule basés sur l'attention avec un routage dynamique pour l'extraction des relations. 2018.
- Analyse du sentiment Twitter utilisant des filets capsule et GRU. 2018.
- Identification de l'agression et de la toxicité dans les commentaires à l'aide du réseau Capsule. 2018. Il est tôt pour Capsule Networks, qui a été introduit par Geoffrey Hinton, et al., En 2017, pour tentative d'introduire une architecture NN supérieure aux CNN classiques. L'idée vise à capturer les relations hiérarchinques dans la couche d'entrée grâce à un routage dynamique entre les "capsules" des neurones. En raison de la probabilité de l'affinité du thème de la lutte contre les complexités hiérarchiques, l'extension de l'idée dans le domaine de la PNL a depuis été un problème de recherche active, comme dans les articles énumérés ci-dessus.
- Routage dynamique entre les capsules. 2017.
- Capsules matricielles avec routage EM. 2018.
Graphiques de connaissances
- Utilisation de FastText et Comet.ml pour classer les relations dans les graphiques de connaissances
- WTF est un graphique de connaissances?
- Une étude des graphiques dans le traitement du langage naturel. Nastase et al, 2015.
Conférences PNL majeures
- Nezier
- Association pour la linguistique informatique (LCA)
- Méthodes empiriques dans le traitement du langage naturel (EMNLP)
- Chapitre nord-américain de l'Association for Computational Linguistics (NAACL)
- Chapitre européen de l'Association for Computational Linguistics (EACL)
- Conférence internationale sur la linguistique informatique (Coling)
Repères
- Classement de l'équipe. Une liste des modèles NLP les plus performants sur l'ensemble de données de réponse à la question de Stanford (Squad).
- Papier Squad 1.0 (dernier mis à jour en octobre 2016). Squad V1.1 comprend plus de 100 000 paires de questions et réponses basées sur des articles Wikipedia.
- Papier Squad 2.0 (octobre 2018). La deuxième génération d'équipe comprend des questions sans réponse que le modèle PNL doit identifier comme étant sans réponse des données de formation.
- Cédé classe.
- Document de colle (septembre 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
Autres
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- Natural Language Processing | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. Facebook.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
Produits
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- Grille
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
Nuage
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
Ensembles de données
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- Afinn
- Bing
- nrc
- vaderSentiment
Mission
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
Contribuer
Contributions are more than welcome! Please read the contribution guidelines first.
Licence
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.