
Ce pandect (πανδέκτης est le grec ancien pour l'encyclopédie) a été créé pour vous aider à trouver presque tout ce qui est lié au traitement du langage naturel disponible en ligne.
Remarque La légende rapide sur les types de ressources disponibles:
- Projet open source, généralement un référentiel GitHub avec son nombre d'étoiles
? - Ressource que vous pouvez lire, généralement un article de blog ou un document
- Une collection de ressources supplémentaires
? - outil de source non ouverte, cadre ou service payant
? ️ - une ressource que vous pouvez regarder
? ️ - une ressource que vous pouvez écouter
| ? Section principale | ? E échantillon de sous-sections |
|---|
| Ressources PNL | Résumé des documents, résumés de conférence, ensembles de données NLP |
| Podcasts PNL | Podcasts NLP uniquement, podcasts avec de nombreux épisodes de la PNL |
| Newsletters de la PNL | - |
| Meetups PNLP | - |
| Canaux YouTube NLP | - |
| Benchmarks PNL | Général NLU, réponse aux questions, multilingue |
| Ressources de recherche | Ressource sur les modèles de transformateurs, distillation et élagage, résumé automatisé |
| Ressources de l'industrie | Meilleures pratiques pour les systèmes NLP, MOPLS pour NLP |
| Reconnaissance de la parole | Ressources générales, texte à la parole, discours au texte, ensembles de données |
| Modélisation de sujets | Blogs, cadres, référentiels et projets |
| Extraction de mots clés | Classement de texte, râteau, autres approches |
| PNL responsable | Interprétabilité, éthique, biais et égalité des PNL et ML dans les attaques adversaires pour la PNL |
| Frameworks PNL | Objectif général, augmentation des données, traduction automatique, attaques contradictoires, systèmes de dialogue et parole, entité et correspondance de cordes, frameworks non anglais, annotation de texte |
| Apprendre la PNL | Cours, livres, tutoriels |
| Communautés PNL | - |
| Autres sujets PNL | Tokenisation, augmentation des données, reconnaissance des entités nommée, correction d'erreur, automlla / autonlp, génération de texte |

Remarque Mots-clés de la section: résumés de papier, recueil, liste impressionnante
Compendiums et listes impressionnantes sur le sujet de la PNL:
- L'indice NLP - Index consultable des articles NLP par Quantum Stat / NLP Cypher
- Awesome NLP de Keon [Github, 16528 étoiles]
- Liste impressionnante du traitement de la parole et du langage naturel par Elaboshira [Github, 2189 étoiles]
- Awesome Deep Learning for Natural Language Processing (NLP) [Github, 1274 étoiles]
- Extraction de texte et ressources de traitement du langage naturel par Stepthom [Github, 557 étoiles]
- Brainsources pour les amateurs de #NLP par Philip Vollet
- Awesome AI / ML / DL - Section NLP [GitHub, 1473 étoiles]
- Articles NLP par Devopedia
Conférences PNL, résumés de papier et recueil papier:
Documents et résumés de papier
- 100 papiers NLP à lecture à lire 100 papiers NLP à lire [Github, 3732 étoiles]
- Résumé des documents NLP par Dair-Ai [Github, 1475 étoiles]
- Collection organisée de papiers pour le praticien de la PNL [Github, 1075 étoiles]
- Documents sur l'attaque adversaire textuelle et la défense [Github, 1501 étoiles]
- Documents récents d'apprentissage en profondeur dans NLU et RL par Valentin Malykh [Github, 296 étoiles]
- Une enquête sur les enquêtes (NLP & ML): Collection des documents d'enquête NLP [Github, 1997 Stars]
- Une liste de papier pour le transfert de style dans le texte [Github, 1609 étoiles]
- ? Index des enregistrements vidéo pour les articles
Résumés de la conférence
- NLP Top 10 Conferences Compendium par Soulbliss [Github, 459 étoiles]
- ? Tendances ICLR 2020
- ? Conférence Spacyirl 2019 sur vue d'ensemble
- ? Paper Digest - Conférences et articles en vue d'ensemble
Progrès PNL et tâches NLP:
- Progrès de la PNL par Sebastianruder [Github, 22568 étoiles]
- Tâches NLP de Kyubyong [Github, 3017 étoiles]
Ensembles de données NLP:
- Ensembles de données NLP par Niderhoff [GitHub, 5741 étoiles]
- Ensembles de données par HuggingFace [Github, 19096 étoiles]
- Big Bad Bad NLP Database
- UWA Annotations de mots sans ambiguïté - ensemble de données de désambiguïsation des mots de mots
- MLDOC - Corpus pour la classification des documents multilingues en huit langues [github, 152 étoiles]
Les incorporations de mots et de phrases:
- Modèles d'intégration impressionnants par Hironsan [Github, 1752 Stars]
- Liste impressionnante de phrases intégrées par séparus [github, 2219 étoiles]
- Awesome Bert par Jiakui [Github, 1846 étoiles]
Cahiers, scripts et référentiels
- The Super Duper NLP Repo [Site Web, 2020]
Ressources et recueil non anglais
- Ressources NLP pour Bahasa Indonésien [Github, 480 étoiles]
- Catalogue NLP indic [github, 552 étoiles]
- Modèles de langue pré-formés pour le vietnamien [github, 653 étoiles]
- Boîte à outils en langage naturel pour les langues indic (INLTK) [GitHub, 814 étoiles]
- Bibliothèque NLP indic [github, 550 étoiles]
- Portail Ai4bharat-indicnlp
- ARBML - Mise en œuvre de nombreux projets arabes NLP et ML [GitHub, 387 étoiles]
- Zemberek-NLP - Outils NLP pour turc [github, 1146 étoiles]
- TDD AI - Une plate-forme open source pour tous les ensembles de données turques, les modèles de langue et les outils NLP.
- KLUE - Évaluation de la compréhension du langage coréen [Github, 560 étoiles]
- Benchmark PANSIn persan - Benchmark pour l'évaluation et la comparaison de diverses tâches NLP en langue persane [Github, 73 étoiles]
- NLP-Greek - Sources de langue grecque [Github, 5 étoiles]
- Ressources NLP impressionnantes pour Hongrois [Github, 221 étoiles]
Modèles PNL pré-formés
- Liste des modèles NLP pré-formés [Github, 170 étoiles]
- Modèles de langage pré-entraîné développés par Ark Lab de Huawei Noah [Github, 3019 Stars]
- Modèles et ressources en espagnol [Github, 251 étoiles]
Histoire de la PNL
Général
- Techniques modernes d'apprentissage en profondeur appliquées au traitement du langage naturel [Github, 1328 étoiles]
- ? Une revue de l'histoire neuronale du traitement du langage naturel [Blog, octobre 2018]
2020 Année en revue
- ? Traitement du langage naturel en 2020: L'année en revue [Blog, décembre 2020]
- ? Points forts de la recherche ML et NLP de 2020 [Blog, janvier 2021]
? Retour à la table des matières
Podcasts NLP uniquement
- ? ️ NLP Saids [années: 2017 - Maintenant, statut: actif]
- ? ️ Les épisodes de la zone NLP [années: 2021 - Maintenant, statut: actif]
De nombreux épisodes de la PNL
- ? ️ Twiml ai [années: 2016 - Maintenant, statut: actif]
- ? ️ AI pratique [années: 2018 - Maintenant, statut: actif]
- ? ️ L'échange de données [années: 2019 - Maintenant, statut: actif]
- ? ️ dissidence de gradient [années: 2020 - Maintenant, statut: actif]
- ? ️ Machine Learning Street Talk [Années: 2020 - Maintenant, statut: actif]
- ? ️ DataFramed - Dernières tendances et informations sur la façon de faire évoluer l'impact de la science des données dans les organisations [années: 2019 - Maintenant, statut: actif]
Certains épisodes de la PNL
- ? ️ Le podcast Super Data Science [années: 2016 - Maintenant, statut: actif]
- ? ️ Data Hack Radio [années: 2018 - Maintenant, statut: actif]
- ? ️ AI Changers de jeu [années: 2020, statut: actif]
- ? ️ L'analytique montre [années: 2019 - maintenant, statut: actif]
- ? News News de Sebastian Ruder
- ? Cette semaine en PNL par Robert Dale
- ? Papiers avec code
- ? Le lot de Deeplearning.ai
- ? Paper Digest par PaperDigest
- ? NLP Cypher par QuantumStat
- ? NLP Zurich [enregistrements YouTube]
- ? Hacking-machine-learning [enregistrements YouTube]
- ? NY-NLP (New York)
- ? Yannic Kilcher
- ? Étreinte
- ? Groupe de lecture de kaggle
- ? Lecture de papier rasa
- ? Stanford CS224N: NLP avec apprentissage en profondeur
- ? Nlpxing
- ? ML expliquée - Cercles Socratic Ai - AISC
- ? DeepLearning.ai
- ? Discours de rue d'apprentissage automatique
? Retour à la table des matières
Général NLU
- Glue - Benchmark d'évaluation générale de la compréhension du langage (GLUE)
- SuperGlue - Benchmark stylé après colle avec un nouvel ensemble de tâches de compréhension du langage plus difficiles
- DECANLP - The Natural Language Decathlon (DECANLP) pour étudier les modèles de PNL généraux
- Dialogle - Dialogle: une référence de compréhension du langage naturel pour le dialogue axé sur les tâches [Github, 280 étoiles]
- Dynabench - Dynabench est une plate-forme de recherche pour la collecte de données dynamiques et l'analyse comparative
- Big-Bench - Benchmark collaboratif pour mesurer et extrapoler les capacités des modèles de langue [Github, 2835 étoiles]
Récapitulation
- Wikiasp - Wikiasp: ensemble de données de résumé basé sur des aspects à plusieurs documents
- Wikilingua - un ensemble de données de résumé abstractif multilingue
Question Répondre
- Squad - Stanford Question répondant à un ensemble de données (Squad)
- Xquad - Xquad (question interdileuse répondant à l'ensemble de données) pour la réponse aux questions inter-greatoires
- GRAILQA - Question fortement généralisable Réponction (Gailqa)
- CSQA - Question séquentielle complexe Réponction
Benchmarks multilingues et non anglophones
- ? Xtreme - Benchmark multi-tâches massivement multilingues
- Gluecos - une référence pour la PNL à commutation de code
- Indiclue - Benchmark de compréhension du langage naturel pour les langues indic
- Lince - Benchmark d'évaluation linguistique du code de code
- Superglue russe - Benchmark de superglue russe
Bio, droit et autres domaines scientifiques
- Blurb - compréhension du langage biomédical et référence de raisonnement
- Blue - Biomédical Language Comprendre l'évaluation Benchmark
- Lexglue - Un ensemble de données de référence pour la compréhension de la langue légale en anglais
Efficacité du transformateur
- Arena à longue portée - Aréna à longue portée pour les transformateurs efficaces (pré-privé) [Github, 716 étoiles]
Traitement de la parole
- Superbe - Traitement de la parole Universal Performance Benchmark
Autre
- CodexGlue - un ensemble de données de référence pour l'intelligence du code
- Crossner - Crossner: Évaluation de la reconnaissance des entités nommées du domaine transversal
- Multinli - Corpus d'inférence du langage naturel multi-genres
- Isarcasme: un ensemble de données de sarcasme prévu - l'isarcasme est un ensemble de données de tweets, chacun étiqueté comme sarcastique ou non_sarcastiques
? Retour à la table des matières
Général
- ? Une recette de formation de réseaux de neurones par Andrej Karpathy [Mots-clés: recherche, formation, 2019]
- ? Avancées récentes dans la PNL via de grands modèles de langue pré-formés: une enquête [document, novembre 2021]
Incorporer
Référentiels
- Représentations pré-formées Elmo pour de nombreuses langues [Github, 1458 étoiles]
- SENSE2VEC - Vectors de mots à clé contextuelle [GitHub, 1617 étoiles]
- wikipedia2vec [github, 935 étoiles]
- Starpace [Github, 3938 étoiles]
- FastText [Github, 25871 étoiles]
Blogs
- ? Modèles linguistiques et incorporation de mots contextualisés par David S. Batista [Blog, 2018]
- ? Un guide essentiel des incorporations de mots pré-entraînés pour les praticiens de la PNL par Analyticsvidhya [Blog, 2020]
- ? Polyglot Word Embeddings Discover Language Clusters [Blog, 2020]
- ? The Illustrated Word2Vec de Jay Alammar [Blog, 2019]
Cross-lingual Word et phrases intégrés
- VECMAP - VECMAP (Mappings d'intégration des mots inter-gêniens) [Github, 644 étoiles]
- Transformateurs de phrases - incorporations de phrases et d'image multilingues avec bert [github, 14981 étoiles]
Encodage de la paire d'octets
- BPEMB - Embeddings de sous-mots pré-formés dans 275 langues, basé sur le codage des paires d'octets (BPE) [Github, 1179 étoiles]
- sous-mot-nmt - Segmentation des mots non supervisés pour la traduction de la machine et la génération de texte neuronaux [Github, 2185 étoiles]
- Python-bpe - paire d'octets codant pour python [github, 223 étoiles]
Architectures basées sur les transformateurs
Général
- ? La famille Transformer de Lilian Weng [Blog, 2020]
- ? Jouer à la loterie avec des récompenses et plusieurs langues - à propos de l'effet de l'initialisation aléatoire [ICLR 2020 Paper]
- ? Attention? Attention! par Lilian Weng [Blog, 2018]
- ? Le transformateur… «expliqué»? [Blog, 2019]
- ? ️ L'attention est tout ce dont vous avez besoin; Modèles de réseau neuronal attentionnel par łukasz Kaiser [Talk, 2017]
- ? L'attention est désactivée par un [juillet 2023]
- ? ️ Comprendre et appliquer l'auto-agence pour la PNL [Talk, 2018]
- ? Le livre de cuisine NLP: Recettes modernes pour les architectures d'apprentissage en profondeur basées sur les transformateurs [Paper, avril 2021]
- ? Modèles pré-formés: passé, présent et futur [document, juin 2021]
- ? Une enquête sur les transformateurs [document, juin 2021]
Transformateur
- ? Le transformateur annoté de Harvard NLP [Blog, 2018]
- ? Le transformateur illustré de Jay Alamm [Blog, 2018]
- ? Guide illustré des transformateurs par Hong Jing [Blog, 2020]
- ? Transformateur séquentiel avec une durée d'attention adaptative par Facebook. Blog [Blog, 2019]
- ? Évolution des représentations dans le transformateur par Lena Voita [Blog, 2019]
- ? Réformateur: le transformateur efficace [Blog, 2020]
- ? LongFormer - Le transformateur à long document de Viktor Karlsson [Blog, 2020]
- ? Transformers From Scratch [Blog, 2019]
- ? Transformers in Natural Language Processing - Une brève enquête de George Ho [Blog, mai 2020]
- Transformateur Lite - Transformer Lite avec une attention longue de la plage [Github, 596 étoiles]
- ? Transformers From Scratch [Blog, octobre 2021]
Bert
- ? Un guide visuel pour utiliser Bert pour la première fois par Jay Alamm [Blog, 2019]
- ? The Dark Secrets of Bert par Anna Rogers [Blog, 2020]
- ? Comprendre les recherches mieux que jamais [Blog, 2019]
- ? DemystifiedSitify Bert: A Comprehensive Guide to the Found Rivelle NPP Framework [Blog, 2019]
- Sembert - Sémantique - Aware Bert pour la compréhension du langage [Github, 286 étoiles]
- Bertweet - Bertweet: un modèle de langue pré-formée pour les tweets anglais [github, 574 étoiles]
- Extraction optimale de subarchitecture pour Bert [github, 470 étoiles]
- Caractéristique: réconcilier Elmo et Bert [Github, 195 étoiles]
- ? Lorsque Bert joue à la loterie, tous les billets gagnent [Blog, décembre 2020]
- Documents liés à Bert Une liste de papiers liés à Bert [Github, 2032 étoiles]
Autres variantes de transformateur
T5
- ? T5 Comprendre les architectures auto-supervisées basées sur les transformateurs [Blog, août 2020]
- ? T5: Le transformateur de transfert de texte à texte [Blog, 2020]
- T5 multilingue-T5 - T5 multilingue (MT5) est un modèle de transformateur de texte à texte prétrainé massivement multilingue [Github, 1245 étoiles]
Bigbird
- ? Big Bird: Transformers for Long Sequences Paper Original By Google Research [Paper, juillet 2020]
Reformier / linformer / longFormer / interprètes
- ? Çons reformier: le transformateur efficace - [Paper, février 2020] [Vidéo, octobre 2020]
- ? ️ LongFormer: le transformateur à long document - [Paper, avril 2020] [Vidéo, avril 2020]
- ? ️ Linformer: Auto-agent avec complexité linéaire - [Paper, juin 2020] [Vidéo, juin 2020]
- ? ️ Repenser l'attention avec les artistes - [Paper, septembre 2020] [Vidéo, septembre 2020]
- Performer-Pytorch - Une implémentation de Performer, un transformateur linéaire basé sur l'attention, dans Pytorch [Github, 1084 étoiles]
Transformateur de commutateur
- ? Transformeurs de commutation: mise à l'échelle des modèles de paramètres de milliards de documents originaux par Google Research [Paper, janvier 2021]
Gpt-famille
Général
- ? Le GPT-2 illustré par Jay Alamm [Blog, 2019]
- ? Le GPT-2 annoté par Aman Arora
- ? GPT-2 d'Openai: Le modèle, le battage médiatique et la controverse de Ryan Lowe [Blog, 2019]
- ? Comment générer du texte par Patrick von Platen [Blog, 2020]
GPT-3
Ressources d'apprentissage
- ? Apprentissage zéro pour la classification du texte par Amit Chaudhary [Blog, 2020]
- ? GPT-3 Un bref résumé de Leo Gao [Blog, 2020]
- ? GPT-3, une étape géante pour Deep Learning et NLP de Yoel Zeldes [Blog, juin 2020]
- ? Modèle de langue GPT-3: un aperçu technique de Chuan Li [blog, juin 2020]
- ? Est-il possible pour les modèles de langage d'atteindre la compréhension du langage? par Christopher Potts
Applications
- GRAND GPT-3 - Liste de toutes les ressources liées à GPT-3 [GitHub, 4589 Stars]
- Projets GPT-3 - une carte de toutes les start-ups et projets commerciaux GPT-3
- GPT-3 Demo Showcase - GPT-3 Demo Showcase, 180+ applications, exemples et ressources
- ? API OpenAI - Demo API pour utiliser Openai GPT pour les applications commerciales
Efforts open source
- ? GPT-NEO - In-Progress GPT-3 Open Source Replication Huggingface Hub
- GPT-J - Un paramètre de 6 milliards, un modèle de génération de texte autorégressif formé sur la pile
- ? Utilisation efficace de GPT-J avec un apprentissage à quelques coups [blog, juillet 2021]
Autre
- ? Qu'est-ce que l'auto-attention à deux couleurs dans XLNET par Xu Liang [Blog, 2019]
- ? Résumé du papier visuel: Albert (A Lite Bert) par Amit Chaudhary [Blog, 2020]
- ? Turing nlg par Microsoft
- ? Classification de texte multi-étiquettes avec XLNET par Josh Xin Jie Lee [Blog, 2019]
- Electra [Github, 2326 étoiles]
- Implémentation de l'interprète de Perterner, un transformateur basé sur l'attention linéaire, dans Pytorch [Github, 1084 étoiles]
Distillation, élagage et quantification
Matériel de lecture
- ? Distillant les connaissances des réseaux de neurones pour construire des modèles plus petits et plus rapides de Floydhub [Blog, 2019]
- ? Compression des modèles d'apprentissage en profondeur pour le texte: une enquête [document, avril 2021]
Outils
- Bert-Squeeze - Code pour réduire la taille des modèles basés sur le transformateur ou diminuer leur latence au moment de l'inférence [github, 79 étoiles]
- Xtremedistil - xtremedistiltransformateurs pour distiller les réseaux de neurones multilingues massifs [github, 153 étoiles]
Résumé automatisé
- ? Pegasus: un modèle de pointe pour la résumé de texte abstrait par Google AI [Blog, juin 2020]
- Ctrlsum - Ctrlsum: Vers une résumé de texte contrôlable générique [github, 146 étoiles]
- XL-SUM - XL-SUM: Résumé abstrait multilingue à grande échelle pour 44 langues [Github, 252 étoiles]
- Summertime - Une boîte à outils de résumé de texte open source pour les non-experts [github, 265 étoiles]
- Primer - Amorce: une phrase masquée à base de pyramide pré-entraînement pour la résumé multi-documents [Github, 151 étoiles]
- Summarus - Modèles de résumé abstractif automatique [Github, 170 étoiles]
Graphiques de connaissances et PNL
- ? Fusion des connaissances dans le modèle de langue [Présentation, octobre 2021]
Remarque Mots-clés de la section: meilleures pratiques, mlops
? Retour à la table des matières
Meilleures pratiques pour construire des projets PNL
- ? À la recherche de meilleures pratiques pour les projets PNL [diapositives, décembre 2020]
- ? EMNLP 2020: Traitement du langage naturel à haute performance par Google Research, enregistrement, novembre 2020]
- ? Traitement pratique du langage naturel - Un guide complet pour construire des systèmes de PNL du monde réel [livre, juin 2020]
- ? Comment structurer et gérer les projets PNL [Blog, mai 2021]
- ? Pensée NLP appliquée - Pensée NLP appliquée: Comment traduire les problèmes en solutions [Blog, juin 2021]
- ? Introduction à la PNL pour l'utilisation de l'industrie - DatatalksClub Présentation sur l'introduction à la PNL pour l'utilisation de l'industrie [Enregistrement, décembre 2021]
- ? Mesurer la dérive d'intégration - meilleures pratiques pour surveiller la dérive des modèles PNL [blog, décembre 2022]
Mlops pour PNL
Les MLOPS, en particulier lorsqu'ils sont appliqués à la PNL, sont un ensemble de meilleures pratiques concernant l'automatisation de diverses parties du flux de travail lors de la construction et du déploiement de pipelines NLP.
En général, les MLOPS pour la PNL comprennent la mise en place des processus suivants:
- Versioning de données - Assurez-vous que votre formation, votre annotation et d'autres types de données sont versés et suivis
- Suivi des expériences - Assurez-vous que toutes vos expériences sont automatiquement suivies et enregistrées là où elles peuvent être facilement reproduites ou retracées
- Registre des modèles - Assurez-vous que tous les modèles de neurones que vous entraînez sont versés et suivis et il est facile de revenir à l'un d'eux
- Tests automatisés et tests comportementaux - Outre les tests réguliers de l'unité et de l'intégration, vous souhaitez subir des tests comportementaux qui vérifient le biais ou les attaques adversaires potentielles
- Déploiement et service du modèle - Automatiser le déploiement du modèle, idéalement également avec des déploiements de temps à bas en forme comme le bleu / vert, les déploiements Canary, etc.
- Données et observabilité du modèle - Suivre la dérive des données, la dérive de précision du modèle, etc.
De plus, il y a deux autres composants qui ne sont pas aussi répandus pour la PNL et sont principalement utilisés pour la vision par ordinateur et d'autres sous-champs de l'IA:
- Store de fonctionnalités - Stockage centralisé de toutes les fonctionnalités développées pour les modèles ML que ce qui peut être facilement réutilisé par tout autre projet ML
- Gestion des métadonnées - Stockage pour toutes les informations liées à l'utilisation des modèles ML, principalement pour la reproduction du comportement des modèles ML déployés, du suivi des artefacts, etc.
Compilations Mlops et listes impressionnantes
- Awesome-mlops [github, 12526 stars]
- Best-of-ML-Python [Github, 16309 Stars]
- Mlops.toys - Une liste organisée de projets MOPL
Matériel de lecture
- ? Opérations d'apprentissage automatique (MLOPS): Présentation, définition et architecture [document, mai 2022]
- ? Exigences et architecture de référence pour les MLOPS: Insights From Industry [Paper, octobre 2022]
- ? MOPLOP: Ce que c'est, pourquoi c'est important, et comment le mettre en œuvre par Neptune AI [Blog, juillet 2021]
- ? Meilleurs outils Mlops que vous devez connaître en tant que scientifique des données de Neptune AI [blog, juillet 2021]
- ? État de MOPLS 2021 par Valohai [Blog, août 2021]
- ? La pile Mlops par Valohai [blog, octobre 2020]
- ? Contrôle de version de données pour les applications d'apprentissage automatique par Megagon AI [Blog, juillet 2021]
- ? L'évolution rapide de la pile canonique pour l'apprentissage automatique [Blog, juillet 2021]
- ? MOLPS: Guide complet du débutant [blog, mars 2021]
- ? Ce que j'ai appris sur les MLOPS de parler avec plus de 100 ml de praticiens [Blog, mai 2021]
- ? Modèles de Datarobot Challenger - MOLOPS Champion / Challenger Modèles
- ? Blog d'état de Mlops par le Dr Ori Cohen
- ? Présentation de l'écosystème de Mlops [Blog, 2021]
Matériel d'apprentissage
- ? Les mlops couvrent par Made with Ml
- ? GitHub Mlops - Collection de ressources sur la façon de faciliter les opérations d'apprentissage automatique avec GitHub
- ? ML Observability Fundamentals Course Apprenez à surveiller et les problèmes de cause profonde avec les modèles de production de production de production
Communautés Mlops
- La communauté Mlops - Blogs, Slack Group, Newsletter et plus encore sur MOPS
Version de données
- DVC - Data Version Control (DVC) suit les modèles ML et les ensembles de données [lien gratuit et open source] vers GitHub
- ? Poids et biais - Outils pour le suivi des expériences et le versioning de l'ensemble de données [Service payant]
- ? PACHYDERM - Contrôle de version pour les données avec les outils pour créer des pipelines ML / AI de bout en bout évolutifs [Service payant avec niveau gratuit]
Suivi d'expérience
- MLFlow - Plate-forme open source pour le cycle de vie de l'apprentissage automatique [lien gratuit et open source] vers GitHub
- ? Poids et biais - Outils pour le suivi des expériences et le versioning de l'ensemble de données [Service payant]
- ? Neptune AI - Suivi des expériences et registre des modèles construits pour les équipes de recherche et de production [Service payant]
- ? COMET ML - Permet aux scientifiques des données et aux équipes de suivre, comparer, expliquer et optimiser les expériences et les modèles [service payant]
- ? SIGOPT - Automatiser la formation et le réglage, visualisez et comparez les exécutions [service payant]
- Optuna - Cadre d'optimisation de l'hyperparamètre [GitHub, 10650 Stars]
- Clear ML - Expérimenter, orchestrer, déploier et construire des magasins de données, le lien [gratuit et open source] vers GitHub
- Metaflow - Bibliothèque Python / R respectueuse de l'homme qui aide les scientifiques et les ingénieurs à construire et à gérer des projets de science des données réels [Github, 8093 étoiles]
Registre des modèles
- DVC - Data Version Control (DVC) suit les modèles ML et les ensembles de données [lien gratuit et open source] vers GitHub
- MLFlow - Plate-forme open source pour le cycle de vie de l'apprentissage automatique [lien gratuit et open source] vers GitHub
- ModelDB - Système open-source pour le modèle de modèle d'apprentissage automatique, les métadonnées et la gestion des expériences [Github, 1696 étoiles]
- ? Neptune AI - Suivi des expériences et registre des modèles construits pour les équipes de recherche et de production [Service payant]
- ? Valohai - Pipelines ML de bout en bout [Service payant]
- ? PACHYDERM - Contrôle de version pour les données avec les outils pour créer des pipelines ML / AI de bout en bout évolutifs [Service payant avec niveau gratuit]
- ? Polyaxon - Reproduire, automatiser et mettre à l'échelle vos workflows de science des données avec des outils Mlops de qualité de production [Service payant]
- ? COMET ML - Permet aux scientifiques des données et aux équipes de suivre, comparer, expliquer et optimiser les expériences et les modèles [service payant]
Tests automatisés et tests comportementaux
- Liste de contrôle - Au-delà de la précision: tests comportementaux des modèles NLP [GitHub, 2003 Stars]
- TextAttack - Cadre pour les attaques contradictoires, l'augmentation des données et la formation des modèles en PNL [GitHub, 2922 étoiles]
- Wildnlp - corrompre un texte d'entrée pour tester la robustesse des modèles NLP [github, 76 étoiles]
- Grands attentes - Écrivez des tests pour vos données [Github, 9874 étoiles]
- Deepchecks - package Python pour valider de manière globale vos modèles d'apprentissage automatique et vos données [github, 3582 étoiles]
Modèle de déploiement et de service
- MLFlow - Plate-forme open source pour le cycle de vie de l'apprentissage automatique [lien gratuit et open source] vers GitHub
- ? Amazon Sagemaker [Service payant]
- ? Valohai - Pipelines ML de bout en bout [Service payant]
- ? NLP Cloud - API NLP prêt pour la production [Service payant]
- ? Saturn Cloud [Service payant]
- ? Seldon - Déploiement d'apprentissage automatique pour l'entreprise [Service payant]
- ? COMET ML - Permet aux scientifiques des données et aux équipes de suivre, comparer, expliquer et optimiser les expériences et les modèles [service payant]
- ? Polyaxon - Reproduire, automatiser et mettre à l'échelle vos workflows de science des données avec des outils Mlops de qualité de production [Service payant]
- Torchserve - outil flexible et facile à utiliser pour servir les modèles Pytorch [github, 4174 étoiles]
- ? Kubeflow - La boîte à outils d'apprentissage automatique pour Kubernetes [github, 10600 étoiles]
- KFSERVing - Inférence sans serveur sur Kubernetes [GitHub, 3504 étoiles]
- ? TFX - TensorFlow Extended - Plate-forme de bout en bout pour déployer des pipelines ML de production [Service payant]
- ? PACHYDERM - Contrôle de version pour les données avec les outils pour créer des pipelines ML / AI de bout en bout évolutifs [Service payant avec niveau gratuit]
- ? Cortex - conteneurs en tant que service sur AWS [service payant]
- ? Azure Machine Learning - cycle de vie de l'apprentissage automatique de bout en bout [Service payant]
- Transformers sans serveur End2end sur AWS Lambda [Github, 121 étoiles]
- NLP-Service - Échantillon de démo de PNL en tant que plate-forme de service construite à l'aide de Fastapi et de face étreintes [Github, 13 étoiles]
- ? Dagster - Orchestrateur de données pour l'apprentissage automatique [gratuit et open source]
- ? Verta - AI et déploiement et opérations d'apprentissage automatique [Service payant]
- Metaflow - Bibliothèque Python / R respectueuse de l'homme qui aide les scientifiques et les ingénieurs à construire et à gérer des projets de science des données réels [Github, 8093 étoiles]
- Flyte - Plateforme d'automatisation du flux de travail pour des données complexes et critiques et des processus ML à grande échelle [Github, 5525 étoiles]
- MLRUN - Automatisation et suivi de l'apprentissage automatique [GitHub, 1425 étoiles]
- ? Datarobot Mlops - Datarobot Mlops fournit un centre d'excellence pour votre production AI
Débogage du modèle
- IModels - Package pour modélisation prédictive concise, transparente et précise [Github, 1375 étoiles]
- Cockpit - Un outil de débogage pratique pour la formation de réseaux de neurones profonds [Github, 474 étoiles]
Prédiction de précision du modèle
- Weightwatcher - Outil Weightwatcher pour prédire la précision des réseaux de neurones profonds [Github, 1453 étoiles]
Données et observabilité du modèle
Général
- Arize Ai - Incorporer la surveillance de la dérive pour les modèles NLP
- Arize-Phoenix - ML Observabilité pour les modèles LLMS, Vision, Language et Tabular
- WhyLogs - Standard open source pour les données et la journalisation ML [GitHub, 2636 étoiles]
- Rubrix - Outil open-source pour explorer et itération sur les données pour les projets d'intelligence artificielle [Github, 3843 étoiles]
- MLRUN - Automatisation et suivi de l'apprentissage automatique [GitHub, 1425 étoiles]
- ? Datarobot Mlops - Datarobot Mlops fournit un centre d'excellence pour votre production AI
- ? Cortex - conteneurs en tant que service sur AWS [service payant]
Modèle centré
- ? Algorithmia - Minimiser les risques avec les rapports avancés et la sécurité et la gouvernance de qualité entreprise dans toutes les données, modèles et infrastructures [service payant]
- ? DataiKu - DataiKu est destiné aux équipes qui souhaitent fournir des analyses avancées en utilisant les dernières techniques à l'échelle Big Data [Service payant]
- De toute évidence, IA - Outils pour analyser et surveiller les modèles d'apprentissage automatique [lien gratuit et open source] vers GitHub
- ? Fiddler - Tool de gestion des performances du modèle ML [Service payant]
- ? Hydrosphère - Plateforme open source pour gérer les modèles ML [service payant]
- ? Verta - AI et déploiement et opérations d'apprentissage automatique [Service payant]
- ? Domino Model OPS - Déployer et gérer les modèles pour stimuler l'impact commercial [Service payant]
Centric sur les données
- ? Datafold - Qualité des données par Diffs, profilage et détection d'anomalies [Service payant]
- ? Acceldata - Améliorer la fiabilité, accélérer l'échelle et réduire les coûts dans tous les pipelines de données [service payant]
- ? Bigeye - Surveillance et alerte de vos ensembles de données en minutes [service payant]
- ? DATAKIN - Solution de lignée de données de bout en bout en temps réel [Service payant]
- ? Monte Carlo - Intégrité des données, dérives, schéma, lignée [service payant]
- ? Soda - surveillance des données, tests et validation [service payant]
Magasins de fonctionnalités
- ? TECTON - ENTREPRISE FEUTHS STOCK POUR L'APPRENTISSAGE MACHINE [SERVICE PAYÉ]
- FEAST - Open Source Feature Store pour le site Web d'apprentissage automatique [GitHub, 5525 étoiles]
- ? HopSworks Feature Store - Système de gestion des données pour la gestion des fonctionnalités d'apprentissage automatique [Service payant]
Gestion des métadonnées
- Metadata ML - Une bibliothèque d'enregistrement et de récupération des métadonnées associées au développeur ML et aux flux de travail scientifiques des données [Github, 617 étoiles]
- ? Neptune AI - Suivi des expériences et registre des modèles construits pour les équipes de recherche et de production [Service payant]
Frameworks MOPL
- Metaflow - Bibliothèque Python / R respectueuse de l'homme qui aide les scientifiques et les ingénieurs à construire et à gérer des projets de science des données réels [Github, 8093 étoiles]
- KEDRO - Framework Python pour la création du code scientifique des données reproductible, maintenable et modulaire [Github, 9883 étoiles]
- Seldon Core - Framework Mlops pour emballer, déployer, surveiller et gérer des milliers de modèles d'apprentissage automatique de production [GitHub, 4353 étoiles]
- Framework ZenML - MOPLOP pour créer des pipelines ML reproductibles pour l'apprentissage automatique de production [Github, 3972 étoiles]
- ? Google Vertex AI - Créer, déploier et mettre à l'échelle les modèles ML plus rapidement, avec des outils pré-formés et personnalisés dans une plate-forme d'IA unifiée [Service payant]
- Diffgram - plate-forme de données de formation complète pour l'apprentissage automatique livrée en une seule application [Github, 1834 étoiles]
- ? Continual.ai - construire, déployer et opérationnaliser les modèles ML plus faciles et plus rapides avec une interface déclarative sur les entrepôts de données cloud comme Snowflake, BigQuery, Redshift et Databricks. [Service payant]
Architectures basées sur les transformateurs
? Retour à la table des matières
Général
- ? Pourquoi Bert échoue dans les environnements commerciaux par Intel AI [Blog, 2020]
- ? Fine Tuning Bert pour la classification du texte avec la ferme par Sebastian Guggisberg [Blog, 2020]
- Modèles de transformateurs prétraités en pytorch en utilisant des transformateurs de visage étreintes [github, 254 étoiles]
- ? ️ PNL pratique pour le monde réel [présentation, 2019]
- ? Çons du papier au produit - Comment nous avons mis en œuvre Bert par Christoph Henkelmann [Talk, 2020]
Transformers multi-GPU
- Paralformers: une boîte à outils de parallélisation du modèle efficace pour le déploiement [github, 776 étoiles]
TRAPACTION ENTRÉEMENT
- Former Bert avec le budget de calcul / temps (académique) [Github, 309 étoiles]
Intégres comme service
- incorporer en tant que service [github, 204 étoiles]
- Bert-as-Service [Github, 12399 étoiles]
Recettes NLP Applications industrielles:
- Recettes NLP par Microsoft [Github, 6367 étoiles]
- NLP avec Python par Susanli2016 [Github, 2721 étoiles]
- Utilitaires de base pour Pytorch NLP par Petrochukm [Github, 2210 Stars]
Applications PNL dans les industries bio, finances, juridiques et autres
- Blackstone - un pipeline spacy et un modèle pour la PNL sur un texte juridique non structuré [Github, 636 étoiles]
- SCI Spacy - Pipeline spacy et modèles pour les documents scientifiques / biomédicaux [Github, 1688 étoiles]
- Finbert: Pré-formation des dépôts de la SEC pour les tâches Financières NLP [Github, 197 étoiles]
- LEXNLP - RETROCATION D'INFORMATION ET EXTRACTION d'un texte juridique réel et non structuré [Github, 692 étoiles]
- Nerdl et Nercrf - Tutoriel sur la reconnaissance de l'entité nommée pour les soins de santé avec Sparknlp
- Analyse de texte juridique - Une liste de ressources sélectionnées dédiées à l'analyse de texte juridique [Github, 613 étoiles]
- BIOIE - Une liste organisée de ressources pertinentes pour faire de l'extraction d'informations biomédicales [Github, 338 étoiles]
Remarque la section Mots-clés: reconnaissance de la parole
? Retour à la table des matières
Reconnaissance générale de la parole
- Wav2letter - boîte à outils de reconnaissance vocale automatique [Github, 6370 étoiles]
- DeepSpeech - Architecture DeepSpeech de Baidu [Github, 25166 étoiles]
- ? Les intégres acoustiques de mot par Maria Obedkova [Blog, 2020]
- Kaldi - Kaldi est une boîte à outils pour la reconnaissance de la parole [Github, 14177 étoiles]
- Awesome-Kaldi - Ressources pour l'utilisation de Kaldi [github, 532 étoiles]
- ESPNET - boîte à outils de traitement de la parole de bout en bout [GitHub, 8355 étoiles]
- ? Hubert - Représentation auto-supervisée Apprentissage pour la reconnaissance de la parole, la génération et la compression [Blog, juin 2021]
Texte à la génération de la parole / de la parole
- FastSpeech - L'implémentation de FastSpeech basée sur Pytorch [Github, 857 étoiles]
- TTS - Une boîte à outils d'apprentissage en profondeur pour le texte-vocation [GitHub, 34356 étoiles]
- ? Notebooklm - Générateur d'assistant / podcast personnel alimenté par Google Gemini
Discours au texte
- Whisper - Robust Recognition vocale via une faible supervision faible, par Openai [Github, 68884 Stars]
- VIBE - outil GUI pour travailler avec le support Whisper, multilingue et CUDA inclus [Github, 931 étoiles]
Ensembles de données
- Voxpopuli - Corpus de parole multilingue à grande échelle pour l'apprentissage de la représentation [Github, 507 étoiles]
Remarque Mots-clés de la section: Modélisation du sujet
? Retour à la table des matières
Blogs
- ? Modélisation de sujets avec Pyspark et Spark NLP par Maria Obedkova [Spark, Blog, 2020]
- ? Une approche unique du clustering de texte court (théorie algorithmique) de Brittany Bowers [Blog, 2020]
Cadres de modélisation de sujets
- Gensim - Framework pour la modélisation des sujets [Github, 15597 étoiles]
- Spark NLP [Github, 3826 étoiles]
Référentiels
- Top2vec [github, 2924 étoiles]
- Modélisation du sujet d'explication de corrélation ancrée [Github, 303 étoiles]
- Modélisation des sujets dans les espaces d'intégration [Github, 540 étoiles] papier
- TopicNet - Une interface de haut niveau pour la bibliothèque Bigartm [Github, 140 étoiles]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Dès la lecture
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
Général
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
But général
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Phonétique
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morphologie
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
Traduction automatique
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
japonais
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
thaïlandais
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
Chinois
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
ukrainien
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
Autre
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
Général
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Cours
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
Livres
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
Tutoriels
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenisation
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
Extraction de relation
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Coreference Resolution
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
Analyse des sentiments
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Génération de texte
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
Ressources
- All linked resources belong to original authors
Icons
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Polices
The Pandect Series also includes