bibliothèque PNL
Il s'agit d'une liste organisée d'articles que j'ai rencontrés dans une certaine mesure et de la valeur de l'inclusion dans la bibliothèque du praticien de la PNL. Certains articles peuvent apparaître dans plusieurs sous-catégories, s'ils ne s'intègrent pas facilement dans l'une des boîtes.
Les PR sont absolument les bienvenus! Diriger toute correspondance / questions à @mihail_eric.
Quelques désignations spéciales pour certains papiers:
Légende: Ceci change la donne dans la littérature PNL et mérite d'être lue.
? Ressource: Cet article présente un ensemble de données / ressource et peut donc être utile à des fins d'application.
Tagging de dispositif
- (2000) un étiqueteur statistique de la parole
- TLDR : Papier séminal démontrant un puissant étiqueteur POS basé sur HMM. De nombreux conseils et astuces pour la construction de ces systèmes classiques inclus.
- (2003) Taging d'une partie du discours riche en fonctionnalités avec un réseau de dépendance cyclique
- TLDR : propose un certain nombre de caractéristiques linguistiques puissantes pour la construction d'un système de marasme Sota POS (alors)
- (2015) Modèles LSTM-CRF bidirectionnels pour le marquage de séquence
- TLDR : propose un modèle de marquage de séquence d'éléments combinant des réseaux de neurones avec des champs aléatoires conditionnels, réalisant SOTA dans le point de repli, le NER et le groupe.
Analyse
- (2003) Analyse précise non indiquée
- TLDR : Beau article démontrant que les grammaires libres de contexte probabiliste non indiquées peuvent dépasser les performances des PCFG lexicalisés.
- (2006) Apprenant l'annotation des arbres précis, compacte et interprétable
- TLDR : Résultat fascinant montrant que l'utilisation de la maximisation des attentes, vous pouvez automatiquement apprendre des symboles non terminaux latentes précis et compacts pour l'annotation des arbres, la réalisation de SOTA.
- (2014) Un analyseur de dépendance rapide et précis à l'aide de réseaux de neurones
- TLDR : Un travail très important inaugurant une nouvelle vague d'architectures d'analyse de réseau neuronal, atteignant les performances SOTA ainsi que des vitesses d'analyse flamboyantes.
- (2014) Grammaire comme langue étrangère
- TLDR : L'une des premières démonstrations de l'efficacité des architectures SEQ2SEQ avec une attention sur l'analyse de la circonscription, la réalisation de SOTA sur le corpus WSJ. A également montré l'importance de l'augmentation des données pour la tâche d'analyse.
- (2015) Analyse de dépendance basée sur la transition avec une mémoire à court terme à long terme
- TLDR : présente Stack LSTMS, un analyseur neuronal qui a réussi à neuraliser les opérations push-pop traditionnelles des analyseurs de dépendance basés sur la transition, réalise le SOTA dans le processus.
Reconnaissance d'entité nommée
- (2005) incorporant des informations non locales dans les systèmes d'extraction d'informations par l'échantillonnage de Gibbs
- TLDR : En utilisant des méthodes Cool Monte Carlo combinées à un modèle de champ aléatoire conditionnel, ce travail réalise une énorme réduction d'erreur dans certaines références d'extraction d'informations.
- (2015) Modèles LSTM-CRF bidirectionnels pour le marquage de séquence
- TLDR : propose un modèle de marquage de séquence d'éléments combinant des réseaux de neurones avec des champs aléatoires conditionnels, réalisant SOTA dans le point de repli, le NER et le groupe.
Résolution de coreférence
- (2010) un tamis multi-pass pour la résolution de la coreférence
- TLDR : propose une approche basée sur le tamis de la résolution de la coreférence qui pendant de nombreuses années (jusqu'à des approches d'apprentissage en profondeur) était SOTA.
- (2015) Résolution de coreférence centrée sur l'entité avec empilement de modèles
- TLDR : Ce travail offre une approche astucieuse pour construire des chaînes de coréférence de manière itérative à l'aide de fonctionnalités au niveau de l'entité.
- (2016) Améliorer la résolution de la coreférence par des représentations distribuées au niveau de l'entité d'apprentissage
- TLDR : L'une des premières approches efficaces de l'utilisation de réseaux de neurones pour la résolution de la coreférence, surpassant considérablement la SOTA.
Analyse des sentiments
(2012) Bâlines et Bigrams: classification simple, bon sentiment et sujet
- TLDR : Papier très élégant, illustrant que les modèles naïfs de Bayes naïfs avec des caractéristiques BigRam peuvent surpasser des méthodes plus sophistiquées comme les machines vectorielles de support sur des tâches telles que l'analyse des sentiments.
(2013) Modèles profonds récursifs pour la compositionnalité sémantique sur une banque d'arbre de sentiment?
- TLDR : présente le sentiment de Stanford Treebank, une merveilleuse ressource pour l'annotation du sentiment à grains fins sur les phrases. Présent également le réseau de tenseur neural récursif, une architecture d'apprentissage en profondeur motivé linguistiquement.
(2014) ont distribué des représentations de phrases et de documents
- TLDR : Présente le paragraphvecteur un non supervisé qui apprend des représentations fixes des paragraphes, en utilisant des idées inspirées de Word2Vec . Atteint ensuite SOTA sur l'analyse des sentiments sur Stanford Sentiment Treebank et l'ensemble de données IMDB.
(2019) Augmentation des données non supervisées pour une formation de cohérence
- TLDR : introduit l'augmentation des données non supervisées , une méthode pour une formation efficace sur un petit nombre d'exemples de formation. Le papier applique UDA à l'ensemble de données d'analyse des sentiments IMDB, réalisant SOTA avec seulement 30 exemples de formation.
Logique / inférence naturelle
- (2007) Logique naturelle pour l'inférence textuelle
- TLDR : propose une approche logique rigoureuse du problème de l'inférence textuelle appelée logique naturelle. Des transformations motivées mathématiquement très cool sont utilisées pour déduire la relation entre les phrases.
- (2008) Un modèle étendu de logique naturelle
- TLDR : étend des travaux antérieurs sur la logique naturelle pour l'inférence, ajoutant des phénomènes tels que l'exclusion sémantique et l'implicativité pour améliorer le processus de transformation de l'hypothèse de la prémisse.
- (2014) Les réseaux de neurones récursifs peuvent apprendre la sémantique logique
- TLDR : démontre que les architectures d'apprentissage en profondeur telles que les réseaux de tenseur neuronal peuvent être appliqués efficacement à l'inférence du langage naturel.
- (2015) Un grand corpus annoté pour apprendre l'inférence du langage naturel?
- TLDR : Présentation du Stanford Natural Language Inference Corpus, une merveilleuse ressource NLI plus grande de deux ordres de grandeur par rapport aux ensembles de données précédents.
Traduction automatique
- (1993) Les mathématiques de la traduction automatique statistique
- TLDR : Présentation des modèles de traduction machine IBM, plusieurs modèles séminaux dans MT statistique.
- (2002) Bleu: une méthode d'évaluation automatique de la traduction automatique?
- TLDR : Propose Bleu, la technique d'évaluation Defacto utilisée pour la traduction automatique (même aujourd'hui!)
- (2003) Traduction basée sur des phrases statistiques
- TLDR : introduit un modèle de traduction basé sur des phrases pour MT, faisant une analyse agréable qui montre pourquoi les modèles basés sur des phrases surpassent ceux basés sur les mots.
- (2014) Séquence à l'apprentissage des séquences avec des réseaux de neurones
- TLDR : introduit l'architecture de réseau neuronal de séquence à séquence. Bien qu'il ne soit appliqué qu'au MT dans cet article, il est depuis devenu l'une des architectures de pierre angulaire du traitement moderne du langage naturel.
- (2015) Traduction de machine neuronale en apprenant conjointement à aligner et à traduire
- TLDR : étend les architectures de séquence à séquence précédentes pour MT en utilisant le mécanisme d'attention, un outil puissant pour permettre à un mot cible de rechercher doucement un signal important de la phrase source.
- (2015) Approches efficaces de la traduction de la machine neuronale basée sur l'attention
- TLDR : introduit deux nouveaux mécanismes d'attention pour MT, en les utilisant pour réaliser SOTA sur les systèmes de MT neuronaux existants.
- (2016) Traduction de machine neurale de mots rares avec des unités de sous-mots
- TLDR : introduit le codage des paires d'octets, une technique efficace pour permettre aux systèmes MT neuronaux de gérer (plus) une traduction de vocabulaire ouvert.
- (2016) pointant les mots inconnus
- TLDR : propose un mécanisme de copie pour permettre aux systèmes MT de copier plus efficacement les mots à partir d'une séquence de contexte source.
- (2016) Système de traduction machine neurale de Google: combler l'écart entre la traduction humaine et la traduction automatique
- TLDR : Une merveilleuse étudiée de cas démontrant à quoi ressemble un système de traduction automatique de la capacité de production (dans ce cas celui de Google).
Analyse sémantique
- (2013) Analyse sémantique sur Freebase à partir de paires de questions-réponses?
- TLDR : propose une technique élégante pour l'analyse sémantique qui apprend directement à partir de paires de questions-réponses, sans avoir besoin de formes logiques annotées, permettant au système de se mettre à la base.
- (2014) Analyse sémantique via paraphraser
- TLDR : Développe un modèle de paraphrase unique pour apprendre les formulaires logiques candidats appropriés à partir de paires de réponses aux questions, améliorant SOTA sur les ensembles de données Q / A existants.
- (2015) Construire un analyseur sémantique du jour au lendemain?
- TLDR : Papier soigné montrant qu'un analyseur sémantique peut être construit à partir de zéro en commençant sans exemples d'entraînement!
- (2015) réunissant l'apprentissage automatique et la sémantique informatique ensemble
- TLDR : Un bel aperçu d'un cadre de sémantique informatique qui utilise l'apprentissage automatique pour apprendre efficacement les formes logiques pour l'analyse sémantique.
Question Répondre / compréhension de la lecture
(2016) Un examen approfondi de la tâche de compréhension de la lecture CNN / Daily Mail
- TLDR : Un excellent document de réveil, démontrant que les performances SOTA peuvent être réalisées sur certains ensembles de données de compréhension en lecture à l'aide de systèmes simples avec des fonctionnalités soigneusement choisies. N'oubliez pas les méthodes d'apprentissage non profondes!
(2017) Squad: 100 000+ questions pour la compréhension des machines du texte?
- TLDR : Présentation de l'ensemble de données d'escouade, un corpus de réponse aux questions qui est devenu l'un des repères Defacto utilisés aujourd'hui.
(2019) Regardez avant de sauter: Question conversationnelle Répondre aux graphiques de connaissances en utilisant l'expansion du contexte judicieux
- TLDR : introduit une méthode non supervisée qui peut répondre à des questions incomplètes sur le graphique de connaissances en maintenant le contexte de conversation à l'aide d'entités et de prédicats observés jusqu'à présent et de déduisant automatiquement des pièces manquantes ou ambiguës pour des questions de suivi.
(2019) Apprendre à récupérer les chemins de raisonnement sur le graphique Wikipedia pour répondre à des questions
- TLDR : présente une nouvelle approche de récupération récurrente basée sur des graphiques, qui récupère les chemins de raisonnement sur le graphique Wikipedia pour répondre aux questions du domaine ouvert multi-HOP.
(2019) Raisonnement abductif de bon sens
- TLDR : introduit un ensemble de données et conceptualise deux nouvelles tâches pour le raisonnement abductif: inférence abductive du langage naturel et génération de langage naturel abductif.
(2020) Raisonnement différent sur une base de connaissances virtuelle
- TLDR : introduit un module neuronal pour la réponse à des questions multi-HOP, qui est différenciable et peut être formé de bout en bout.
(2020) Tirer parti de la récupération de passage avec des modèles génératifs pour la question de la question du domaine ouvert
- TLDR : présente une approche de la réponse aux questions du domaine ouvert qui repose sur la récupération des passages de support avant de les traiter avec un modèle génératif
(2020) Déformateur: décomposer les transformateurs pré-formés pour répondre à des questions plus rapides
- TLDR : présente un transformateur décomposé, qui substitue la pleine agence d'auto-atténuation par des auto-agents à l'échelle de la question et à l'échelle du passage dans les couches inférieures réduisant le calcul d'exécution.
(2020) Récupération de preuves itératives basées sur l'alignement non supervisé pour répondre à des questions multi-HOP
- TLDR : Presents introduire une méthode de récupération de preuves itérative simple, rapide et non supervisée pour la réponse aux questions multi-HOP.
(2020) Apprendre à demander plus: génération de questions séquentielles semi-autorégressives sous interaction à double graphique
- TLDR : présente une approche pour générer une question en semi-autorégressive à l'aide de deux graphiques basés sur des passages et des réponses.
(2020) Quelle question de réponse peut apprendre des nerds des anecdotes
- TLDR : présente des informations sur la question de la tâche de réponse à la question des tournois Trivia.
(2020) Amélioration des questions multi-HOP Réponse sur les graphiques de connaissances en utilisant des incorporations de base de connaissances
- TLDR : présente une approche efficace pour effectuer des KGQA multi-HOP sur des graphiques de connaissances clairsemés.
Génération / résumé du langage naturel
- (2004) Rouge: un package pour l'évaluation automatique des résumés?
- TLDR : présente Rouge, une métrique d'évaluation pour le résumé qui est utilisée à ce jour sur une variété de tâches de transduction de séquence.
- (2004) Textrank: apporter l'ordre dans les textes
- TLDR : En appliquant des techniques d'analyse de texte basées sur des graphiques basées sur PageRank, les auteurs obtiennent des résultats SOTA sur l'extraction de mots clés et les résultats de résumé extractif très forts de manière non supervisée.
- (2015) Génération de langage naturel basé sur LSTM conditionné sémantiquement pour les systèmes de dialogue parlées
- TLDR : propose un générateur de langage naturel neuronal qui optimise conjointement la planification des phrases et la réalisation de surface, surpassant d'autres systèmes sur Human Ev.
- (2016) pointant les mots inconnus
- TLDR : propose un mécanisme de copie pour permettre aux systèmes MT de copier plus efficacement les mots à partir d'une séquence de contexte source.
- (2017) Atteignez le point: Résumé avec les réseaux de générateur de pointeur
- TLDR : Ce travail offre un élégant mécanisme de copie souple, qui surpasse considérablement la SOTA sur le résumé abstractif.
- (2020) Un modèle génératif pour la compréhension et la génération conjointes du langage naturel
- TLDR : Ce travail présente un modèle génératif qui couple NLU et NLG à travers une variable latente partagée, atteignant des performances de pointe sur deux ensembles de données de dialogue avec des représentations formelles à la fois plates et structurées d'arbres
- (2020) BART: Féquence à la séquence à la séquence pour la formation de la génération, de la traduction et de la compréhension du langage naturel
- TLDR : Ce travail présente un modèle génératif qui couple NLU et NLG à travers une variable latente partagée, atteignant des performances de pointe sur deux ensembles de données de dialogue avec des représentations formelles à la fois plates et structurées arborescentes.
Systèmes de dialogue
- (2011) Génération de réponse de données de données dans les médias sociaux
- TLDR : propose d'utiliser des méthodes de traduction statistique basées sur des phrases au problème de la génération de réponse.
- (2015) Génération de langage naturel basé sur LSTM conditionné sémantiquement pour les systèmes de dialogue parlées
- TLDR : propose un générateur de langage naturel neuronal qui optimise conjointement la planification des phrases et la réalisation de surface, surpassant d'autres systèmes sur Human Ev.
- (2016) Comment ne pas évaluer votre système de dialogue: une étude empirique des mesures d'évaluation non supervisées pour la génération de réponse du dialogue
- TLDR : Un travail important démontrant que les mesures automatiques existantes utilisées pour le dialogue ne sont pas très corrélées avec le jugement humain.
- (2016) Un système de dialogue axé sur les tâches de bout en bout de bout en bout
- TLDR : propose une architecture soignée pour décomposer un système de dialogue en un certain nombre de composants de réseau de neurones formés individuellement.
- (2016) Une fonction objective favorisant la diversité pour les modèles de conversation neuronale
- TLDR : introduit une fonction d'objectif d'informations mutuelles maximale pour la formation des systèmes de dialogue.
- (2016) The Dialog State Tracking Challenge Series: A Review
- TLDR : Un bel aperçu des défis de suivi des états de dialogue pour les systèmes de dialogue.
- (2017) Une architecture de séquence à séquence à la séquence de copie donne de bonnes performances sur le dialogue axé sur les tâches
- TLDR : montre que les architectures simples de séquence à séquence avec un mécanisme de copie peuvent fonctionner de manière compétitive sur les ensembles de données de dialogue orientés tâches existants.
- (2017) Réseaux de récupération des valeurs clés pour le dialogue axé sur les tâches?
- TLDR : présente un nouvel ensemble de données multidomaines pour un ensemble de données axé sur les tâches ainsi qu'une architecture pour incorporer doucement les informations à partir de bases de connaissances structurées dans des systèmes de dialogue.
- (2017) Apprentissage des agents de dialogue collaboratif symétrique avec des incorporations de graphiques de connaissances dynamiques?
- TLDR : présente un nouvel ensemble de données de dialogue collaboratif, ainsi qu'une architecture pour représenter des connaissances structurées via des incorporations de graphiques de connaissances.
- (2017) Réseaux de code hybride: contrôle de dialogue pratique et efficace avec apprentissage supervisé et renforcé
- TLDR : introduit une architecture de dialogue hybride qui peut être formée conjointement via l'apprentissage supervisé ainsi que l'apprentissage du renforcement et combine des techniques de réseau neuronal avec des approches basées sur des règles à grain fin.
Apprentissage interactif
- (1971) Procédures en tant que représentation des données dans un programme informatique pour comprendre le langage naturel
- TLDR : L'un des articles séminaux de l'informatique, présentant Shrdlu un premier système pour les ordinateurs comprenant les commandes du langage humain.
- (2016) Apprentissage des jeux de langue par interaction
- TLDR : introduit un cadre nouveau pour interagir avec les ordinateurs pour accomplir une tâche où seul le langage naturel peut être utilisé pour communiquer avec le système!
- (2017) Naturaliser un langage de programmation via l'apprentissage interactif
- TLDR : Travail très cool permettant à une communauté de travailleurs de naturaliser itérativement une langue commençant par un ensemble central de commandes dans une tâche interactive.
Modélisation des langues
- (1996) Une étude empirique des techniques de lissage pour la modélisation du langage
- TLDR : effectue une étude approfondie des techniques de lissage dans les systèmes de modélisation des langues traditionnelles.
- (2003) un modèle de langue probabiliste neuronale
- TLDR : Un travail fondateur en Deep Learning for NLP, introduisant l'un des premiers modèles efficaces pour la modélisation du langage basé sur les réseaux neuronaux.
- (2014) Un milliard de référentiels de mots pour mesurer les progrès dans la modélisation des langues statistiques?
- TLDR : présente le benchmark de modélisation de la langue des mots de Google un milliard de mots.
- (2015) Modèles de langage neuronal conscient des personnages
- TLDR : propose un modèle de langue utilisant des réseaux de neurones convolutionnels qui peuvent utiliser des informations au niveau des caractères, effectuant des systèmes LSTM au niveau des mots.
- (2016) Exploration des limites de la modélisation du langage
- TLDR : présente un système de modèle de langue méga utilisant un apprentissage en profondeur qui utilise une variété de techniques et effectue considérablement la SOTA sur la référence One Billion Words.
- (2018) Représentations de mots contextualisés profonds?
- TLDR : Cet article présente Elmo, une collection super puissante de mots incorporés tirés des représentations intermédiaires d'un modèle de langage LSTM bidirectionnel profond. A réalisé SOTA sur 6 tâches NLP diverses.
- (2018) Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage
- TLDR : L'un des articles les plus importants de 2018, introduisant Bert une architecture puissante pré-entraînée à l'aide de la modélisation du langage qui est ensuite transférée efficacement vers d'autres tâches spécifiques au domaine.
- (2019) XLNET: pré-entraînement autorégressif généralisé pour la compréhension du langage
- TLDR : Méthode de pré-formation autorégressive généralisée qui améliore Bert en maximisant la probabilité attendue sur toutes les permutations de l'ordre de factorisation.
MISCELLANEA
- (1997) Mémoire à court terme
- TLDR : présente l'unité récurrente LSTM, une pierre angulaire de NLP basé sur un réseau de neurones modernes
- (2000) Entropie maximale Modèles Markov pour l'extraction et la segmentation des informations
- TLDR : Présentation des modèles Markov Entropy Markov pour l'extraction d'informations, une technique ML couramment utilisée dans la PNL classique.
- (2010) de la fréquence au sens: modèles d'espace vectoriel de la sémantique
- TLDR : Une merveilleuse étude des modèles d'espace vectoriel existants pour l'apprentissage de la sémantique dans le texte.
- (2012) Une introduction aux champs aléatoires conditionnels
- TLDR : Un joli aperçu approfondi des champs aléatoires conditionnels, un modèle d'étiquette de séquence couramment utilisé.
- (2013) ont distribué la représentation des mots et des phrases et leur compositionnalité
- TLDR a introduit Word2Vec, une collection de représentations de vecteurs distribuées qui ont été couramment utilisées pour initialiser les incorporations de mots dans essentiellement toutes les architectures PNL des cinq dernières années. ?
- (2014) Glove: Vecteurs mondiaux pour la représentation des mots?
- TLDR : introduit des incorporations de mots gants, l'une des techniques d'incorporation de mots pré-entraînés les plus couramment utilisés dans toutes les saveurs des modèles NLP
- (2014) Ne comptez pas, prédisez! Une comparaison systématique des vecteurs sémantiques de comptage contextuel vs
- TLDR : Document important démontrant que les approches de sémantique de distribution pré-prédictoires surpassent les techniques basées sur le nombre.
- (2015) Amélioration de la similitude distributionnelle avec les leçons apprises des intérêts des mots
- TLDR : démontre que les techniques traditionnelles de sémantique distributionnelle peuvent être améliorées avec certains choix de conception et optimisations d'hyperparamètre qui font de leur performance rivale de celle des méthodes d'intégration basées sur le réseau neuronal.
- (2018) Modèle de langage universel ajusté pour la classification du texte
- TLDR : Fournit un smorgasbord de techniques sympas pour les modèles de langage de financement qui peuvent être transférés efficacement aux tâches de classification de texte.
- (2019) Les analogies ont expliqué: vers la compréhension des intérêts des mots
- TLDR : Très beau travail offrant un formalisme mathématique pour comprendre certaines des propriétés de paraphrase des intérêts modernes des mots.