Descarga character level language model - Descargar código fuente character level language model

character level language model

Código Fuente de IA

1.0.0

Descargar

Modelo de lenguaje a nivel de personaje

Un modelo de idioma es el que se le da una oración de entrada, el modelo genera una probabilidad de cuán correcta es esa oración. Esto se usa ampliamente en el reconocimiento de voz, la generación de oraciones y los sistemas de traducción automática, donde genera las oraciones que sean probables.

Pasos para construir un modelo de idioma:

Construya un conjunto de entrenamiento utilizando un gran corpus de texto en inglés
Tocar cada oración para construir un vocabulario
Mapee cada palabra en la oración utilizando cualquier mecanismo de codificación
Reemplace las palabras poco comunes con, en cuyo caso modelo la posibilidad de la palabra desconocida en lugar de la palabra específica.
Construya un modelo RNN donde la salida sea la probabilidad de Softmax para cada palabra en el diccionario

Capacitar a un modelo de idioma

En el paso de tiempo T, RNN está estimando p (y | y <1>, y <2>, ..., y <t - 1>). El conjunto de entrenamiento se forma de una manera donde x <2> = y <1> y x <3> = y <2> y así sucesivamente. En resumen, la oración de salida se queda atrás de la oración de entrada en un paso de tiempo. El algoritmo de optimización seguido es siempre un descenso de gradiente estocástico (una secuencia a la vez).

Para obtener la probabilidad de una secuencia aleatoria, descomponga la distribución de probabilidad conjunta P (Y1, Y2, Y3, ...) como producto de condicionales, p (y1) * p (y2 | y1) * p (y3 | y1, y2).

Nota : En el modelo de lenguaje de vainilla como se describe anteriormente, Word es un bloque básico de construcción. En el modelo de lenguaje de nivel de caracteres, la unidad básica/ nivel más bajo es un personaje, lo que hace que construir un diccionario sea muy fácil (número finito de caracteres)

Generar texto nuevo

Una vez que el modelo está entrenado, podemos probar el nuevo texto (caracteres). El proceso de generación se explica a continuación:

Pasos:

Pase la red la primera entrada "ficticia" x⟨1⟩ = 0 ⃗ (el vector de ceros). Esta es la entrada predeterminada antes de que hayamos generado cualquier caracteres. También establecemos A⟨0⟩ = 0 ⃗
Use la salida de probabilidades por el RNN para probar aleatoriamente una palabra elegida (usando np.random.Choice) para ese paso de tiempo como y
Pase esta palabra seleccionada al siguiente paso de tiempo como x <2>

Resultados

Algunos de los nombres generados:

Macaersaurio
Condahosaurio
Trodonosaurio
Ivusanon
Trocemitetes

Si observa con cuidado, nuestro modelo ha aprendido a capturar saurus , don , aura , tor al final de cada nombre de dinosaurio TODO : Use LSTM en el lugar de RNN con la ayuda de Keras