NLP a rendu facile
Notes de code simples pour expliquer les blocs de construction NLP
- Techniques de segmentation des sous-mots
- Comparons divers tokenzers, c'est-à-dire NLTK, BPE, phrase et tokenizer Bert.
- Décodage de faisceau
- Le décodage du faisceau est essentiel pour les tâches SEQ2SEQ. Mais c'est notoirement compliqué à mettre en œuvre. En voici une relativement facile, les candidats à lots.
- Comment obtenir correctement le dernier vecteur caché des RNN
- Nous verrons comment obtenir les derniers états cachés des RNN dans TensorFlow et Pytorch.
- TensorFlow SEQ2SEQ Template basé sur la tâche G2P
- Nous rédigerons un modèle simple pour SEQ2SEQ à l'aide de TensorFlow. Pour la démonstration, nous attaquons la tâche G2P. Le G2P est une tâche de conversion de graphiques (orthographe) en phonèmes (prononciation). C'est une très bonne source à cet effet car il est assez simple pour que vous puissiez couler et courir.
- Modèle pytorch seq2seq basé sur la tâche G2P
- Nous rédigerons un modèle simple pour SEQ2SEQ à l'aide de Pytorch. Pour la démonstration, nous attaquons la tâche G2P. Le G2P est une tâche de conversion de graphiques (orthographe) en phonèmes (prononciation). C'est une très bonne source à cet effet car il est assez simple pour que vous puissiez couler et courir.
- [Mécanisme d'attention] (travail en cours)
- Taggage de postes avec bert fin
- Bert est connu pour être bon dans les tâches de marquage de séquence comme la reconnaissance de l'entité nommée. Voyons si c'est vrai pour le marquage des postes de point de vente.
- Abandon en une minute
- L'abandon est sans doute la technique de régularisation la plus populaire dans l'apprentissage en profondeur. Vérifions à nouveau comment cela fonctionne.
- Ngram LM contre RNNLM (WIP)
- Augmentation des données pour les paires de questions Quora
- Voyons s'il est efficace d'augmenter les données de formation dans la tâche des paires de questions Quora.