Descarga ngram language model - Descargar el código fuente ngram language model

ngram language model

Código Fuente de IA

1.0.0

Descargar

Modelo de idioma n-gram

Implementación de Python de un modelo de lenguaje N-Gram con suavizado de Laplace y generación de oraciones.

Se utilizan algunas funciones NLTK ( nltk.ngrams , nltk.FreqDist ), pero la mayoría de todo se implementa a mano.

Nota: La clase LanguageModel espera que reciban datos que ya están tocando por las oraciones. Si se usa la función load_data incluida, los archivos train.txt y test.txt ya deben procesarse de tal manera que:

Se elimina la puntuación
Cada oración está en su propia línea

Consulte los data/ directorio para ver ejemplos.

Ejemplo de salida para un modelo Trigram entrenado en data/train.txt y probado contra data/test.txt :

 Loading 3-gram model...
Vocabulary size: 23505
Generating sentences...
...
<s> <s> the company said it has agreed to sell its shares in a statement </s> (0.03163)
<s> <s> he said the company also announced measures to boost its domestic economy and could be a long term debt </s> (0.01418)
<s> <s> this is a major trade bill that would be the first quarter of 1987 </s> (0.02182)
...
Model perplexity: 51.555

Los números entre paréntesis al lado de las oraciones generadas son las probabilidades acumulativas de esas oraciones.

Información de uso:

 usage: N-gram Language Model [-h] --data DATA --n N [--laplace LAPLACE] [--num NUM]

optional arguments:
  -h, --help         show this help message and exit
  --data DATA        Location of the data directory containing train.txt and test.txt
  --n N              Order of N-gram model to create (i.e. 1 for unigram, 2 for bigram, etc.)
  --laplace LAPLACE  Lambda parameter for Laplace smoothing (default is 0.01 -- use 1 for add-1 smoothing)
  --num NUM          Number of sentences to generate (default 10)

Originalmente escrito por Josh Loehr y Robin Cosbey, con ligeras modificaciones. Última edición el 8 de febrero de 2018.

Expandir

Información adicional