Téléchargement ngram language model - Téléchargement du code source ngram language model

ngram language model

Code Source AI

1.0.0

Télécharger

Modèle de langue n-gram

Implémentation Python d'un modèle de langue N-gram avec le lissage de Laplace et la génération de phrases.

Certaines fonctions NLTK sont utilisées ( nltk.ngrams , nltk.FreqDist ), mais presque tout est implémenté à la main.

Remarque: La classe LanguageModel prévoit de recevoir des données qui sont déjà tokenisées par des phrases. Si vous utilisez la fonction load_data incluse, les fichiers train.txt et test.txt doivent déjà être traités de telle sorte que:

La ponctuation est supprimée
Chaque phrase est sur sa propre ligne

Voir les data/ répertoires pour les exemples.

Exemple de sortie pour un modèle Trigram formé sur data/train.txt et testé contre data/test.txt :

 Loading 3-gram model...
Vocabulary size: 23505
Generating sentences...
...
<s> <s> the company said it has agreed to sell its shares in a statement </s> (0.03163)
<s> <s> he said the company also announced measures to boost its domestic economy and could be a long term debt </s> (0.01418)
<s> <s> this is a major trade bill that would be the first quarter of 1987 </s> (0.02182)
...
Model perplexity: 51.555

Les nombres entre parenthèses à côté des phrases générées sont les probabilités cumulatives de ces phrases.

Informations sur l'utilisation:

 usage: N-gram Language Model [-h] --data DATA --n N [--laplace LAPLACE] [--num NUM]

optional arguments:
  -h, --help         show this help message and exit
  --data DATA        Location of the data directory containing train.txt and test.txt
  --n N              Order of N-gram model to create (i.e. 1 for unigram, 2 for bigram, etc.)
  --laplace LAPLACE  Lambda parameter for Laplace smoothing (default is 0.01 -- use 1 for add-1 smoothing)
  --num NUM          Number of sentences to generate (default 10)

Initialement rédigé par Josh Loehr et Robin Cosbey, avec de légères modifications. Dernière édité le 8 février 2018.

Développer

Informations supplémentaires