Download des ngram language model ngram language model

ngram language model

AI-Quellcode

1.0.0

Herunterladen

N-Gram-Sprachmodell

Python-Implementierung eines N-Gramm-Sprachmodells mit Laplace-Glättung und Satzgenerierung.

Einige NLTK -Funktionen werden verwendet ( nltk.ngrams , nltk.FreqDist ), aber fast alles wird von Hand implementiert.

HINWEIS: Die LanguageModel -Klasse erwartet, Daten zu erhalten, die bereits durch Sätze tokenisiert werden. Wenn die Funktion der mitgelieferten load_data -Funktion verwendet wird, sollten die Dateien train.txt und test.txt bereits verarbeitet werden, sodass:

Zeichensetzung wird entfernt
Jeder Satz befindet sich in seiner eigenen Zeile

Beispiele finden Sie im data/ Verzeichnis.

Beispielausgabe für ein auf data/train.txt trainierter Trigrammmodell und gegen data/test.txt getestet:

 Loading 3-gram model...
Vocabulary size: 23505
Generating sentences...
...
<s> <s> the company said it has agreed to sell its shares in a statement </s> (0.03163)
<s> <s> he said the company also announced measures to boost its domestic economy and could be a long term debt </s> (0.01418)
<s> <s> this is a major trade bill that would be the first quarter of 1987 </s> (0.02182)
...
Model perplexity: 51.555

Die Zahlen in Klammern neben den generierten Sätzen sind die kumulativen Wahrscheinlichkeiten dieser Sätze.

Nutzungsinformationen:

 usage: N-gram Language Model [-h] --data DATA --n N [--laplace LAPLACE] [--num NUM]

optional arguments:
  -h, --help         show this help message and exit
  --data DATA        Location of the data directory containing train.txt and test.txt
  --n N              Order of N-gram model to create (i.e. 1 for unigram, 2 for bigram, etc.)
  --laplace LAPLACE  Lambda parameter for Laplace smoothing (default is 0.01 -- use 1 for add-1 smoothing)
  --num NUM          Number of sentences to generate (default 10)

Ursprünglich von Josh Loehr und Robin Cosbey verfasst, mit leichten Modifikationen. Zuletzt bearbeitet 8. Februar 2018.

Expandieren

Zusätzliche Informationen