Apprentissage en profondeur pour la PNL
Ce tutoriel est une introduction de l'utilisation de l'algorithme d'apprentissage en profondeur dans le domaine du traitement du langage naturel.
Et il est préparé en utilisant du contenu (théorie et code) à partir des sources suivantes:
- Deep Learning with Python, livre de François Chollet
- Méthodes de réseau neuronal en traitement du langage naturel, livre de yoav goldberg
- CS224D: Apprentissage en profondeur pour le traitement du langage naturel
Code de pratique sur l'ensemble de données du défi de classification des commentaires toxiques de Kaggle
Table des matières
Cas d'utilisation
- Classification des séquences
- Détection des langues
- Classification des catégories (sentiment, sujets, etc.)
- Classification des mots clés (nom de nom, place / nom de personne)
- Séquence à la séquence (seq2seq)
- Traduction
- Réponse intelligente de Gmail
- AI conversationnel: bots de chat
- Autres
- Nom, histoire, poème, générateur de dialogue
- Sous-titrage d'image
- Partie du marquage de la parole
- Nom de la reconnaissance des entités
Configuration du système
- Python 3.6
- pépin
- Virtualv
- Bibliothèques:
- Kéras
- Tensorflow
- Jupyter
- matplotlib
Ensembles de données à jouer
- Ensemble de données de révision IMDB
- Kaggle (Toxic Commentaire Classification Challenge) Wikipedia Commentaire de commentaires de commentaires
- Ubuntu Dialog Corpra
- Ensemble de données de traduction
- Autres ensembles de données
Analyse des données
- Analyse générale
Représentation de séquence
- Représentation
- Un encodage chaud
- Incorporation de mots
Modèles
- Incorporer le modèle de classe 1
- Intégration connectée à 1 couche RNN (réseau neuronal récurrent) modèle 2 et modèle 2 étendu
- Bidirectional RNN modèle 3 et modèle 3 étendu
Architecture RNN moderne
- Mémoire à court terme (LSTM)
- Gater Recurrent Unit (GRU)
- SEQ2SEQ
- Attention
- Recherche de faisceau
Kéras
- API et mots clés
- Optimisateurs
- Perte
- Activation
- Métrique
- Déployer le modèle à la production et à l'inférence
Techniques d'optimisation du modèle
- Abandonner
- TRONNÉ DANS PROPAPAGATION À travers le temps (TBPTT)
- Problème de dégradé de disparition