f lm - f lm Téléchargement du code source

f lm

Code Source AI

1.0.0

Télécharger

F-lm

Modélisation linguistique. Cette base de code contient l'implémentation des cellules G-LSTM et F-LSTM de [1]. Il pourrait également contenir des expériences en cours.

Ce code a été fourché à partir de https://github.com/rafaljozefowicz/lm et contient le modèle de modèle de langue "biglstm" de [2].

Le code actuel s'exécute sur TensorFlow R1.5 et prend en charge le parallélisme de données multi-GPU à l'aide des mises à jour de gradient synchronisées.

Perplexité

~~Sur un milliard de mots de référence utilisant 8 GPU dans un DGX-1, le Big G-LSTM G4 a pu atteindre 24,29 après 2 semaines de formation et 23,36 après 3 semaines.~~

Le 02/06/2018, nous avons trouvé un problème avec notre configuration expérimentale qui rend les numéros de perplexité répertoriés dans le document invalide.

Voir les numéros actuels dans le tableau ci-dessous.

Sur la station DGX, après 1 semaine de formation en utilisant les 4 GPU (Tesla V100) et une taille de lot de 256 par GPU:

Modèle	Perplexité	Mesures	WPS
Biglstm	35.1	~ 0,99 m	~ 33,8k
Big F-LSTM F512	36.3	~ 1,67m	~ 56,5k
GRAND G-LSTM G4	40.6	~ 1,65 m	~ 56K
GRAND G-LSTM G2	36	~ 1,37m	~ 47.1k
GRAND G-LSTM G8	39.4	~ 1,7 m	~ 58,5

Dépendances

Tensorflow R1.5
Python 2.7 (devrait aussi fonctionner avec Python 3)
Ensemble de données de référence 1B Word (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark pour obtenir des données)

Courir

En supposant que le répertoire de données est dans: /raid/okuchaiev/Data/LM1B/1-billion-word-language-modeling-benchmark-r13output/ , exécuter:

 export CUDA_VISIBLE_DEVICES=0,1,2,3

SECONDS=604800
LOGSUFFIX=FLSTM-F512-1week

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=4 --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=256,fact_size=512  >> train_$LOGSUFFIX.log 2>&1

python /home/okuchaiev/repos/f-lm/single_lm_train.py --logdir=/raid/okuchaiev/Workspace/LM/GLSTM-G4/$LOGSUFFIX --num_gpus=1 --mode=eval_full --datadir=/raid/okuchaiev/Data/LM/LM1B/1-billion-word-language-modeling-benchmark-r13output/ --hpconfig run_profiler=False,float16_rnn=False,max_time=$SECONDS,num_steps=20,num_shards=8,num_layers=2,learning_rate=0.2,max_grad_norm=1,keep_prob=0.9,emb_size=1024,projected_size=1024,state_size=8192,num_sampled=8192,batch_size=1,fact_size=512

Pour utiliser la cellule G-LSTM Spécifiez le paramètre num_of_groups .
Pour utiliser la cellule F-LSTM Spécifiez le paramètre fact_size .

Notez que le lecteur de données actuel peut manquer des jetons lors de la construction de mini-lots qui peuvent avoir un effet mineur sur la perplexité finale.

Pour les résultats les plus précis , utilisez Batch_size = 1 et num_steps = 1 dans l'évaluation. Merci à CiPrian d'avoir remarqué cela.

Changer les hyper-paramètres

La commande accepte et l'argument supplémentaire --hpconfig qui permet de remplacer divers hyper-paramètres, notamment:

Batch_size = 128 - Taille du lot par GPU . Taille globale du lot = Batch_size * num_gpus
num_steps = 20 - Nombre de pas de temps de cellule LSTM
num_shards = 8 - Les matrices d'intégration et de softmax sont divisées en autant de fragments
num_layers = 1 - Numer des couches LSTM
apprentissage_rate = 0,2 - Taux d'apprentissage pour Optimizer
max_grad_norm = 10,0 - Norgage de gradient maximal acceptable pour les couches LSTM
keep_prob = 0,9 - Dépannage de la probabilité
Optimizer = 0 - Quel Optimizer utiliser: Adagrad (0), Momentum (1), Adam (2), RMSProp (3), SGD (4)
vocab_size = 793470 - Taille du vocablue
emb_size = 512 - taille de l'incorporation (devrait être la même que projetée_size)
state_size = 2048 - Taille de la cellule LSTM
projeté_size = 512 - Taille de la projection LSTM
num_sampled = 8192 - La formation utilise Softmax échantillonné, nombre d'échantillons)
do_summaries = false - générer du poids et des statistiques gradues pour Tensorboard
max_time = 180 - temps maximum (en secondes) pour fonctionner
fact_size - Pour utiliser la cellule F-LSTM, cela devrait être défini sur la taille du facteur
num_of_groups = 0 - Pour utiliser la cellule G-LSTM, cela devrait être défini sur le nombre de groupes
Save_Model_Every_Min = 30 - À quelle fréquence
Save_Summary_Every_Min = 16 - À quelle fréquence pour enregistrer des résumés
use_residual = false - s'il faut utiliser les connexions résiduelles LSTM