Descargar tying wv and wc - Atar el código fuente tying wv and wc Descargar el código fuente

tying wv and wc

Código Fuente de IA

1.0.0

Descargar

Atar vectores de palabras y clasificadores de palabras: un marco de pérdida para el modelado de idiomas

Implementación para "Vectores de palabras y clasificadores de palabras: un marco de pérdida para el modelado de idiomas"

Este documento intenta utilizar la diversidad de la palabra que significa capacitar a la red neuronal profunda.

Resumen de papel

Motivación

En el modelado de idiomas (predicción de la secuencia de la palabra), queremos expresar la diversidad del significado de la palabra.
Por ejemplo, al predecir la palabra junto a "el plátano está delicioso ___", la respuesta es "fruta", pero "dulces", "comida" también está bien. Pero la enseñanza vectorial ordinaria no es adecuada para lograrlo. Porque se ignoró cualquier palabra similar, pero la palabra de respuesta exacta.

Si podemos usar no un solo candente sino "distribución", podemos enseñar esta variedad.

Método

Entonces usamos "distribución de la palabra" para enseñar el modelo. Esta distribución adquirida de la palabra de respuesta e incrustación de la matriz de búsqueda.

formulación.png

Si usamos esta pérdida de tipo de distribución, entonces podemos probar la equivalencia entre la incrustación de entrada y la matriz de proyección de salida.

Usar la pérdida del tipo de distribución y la incrustación de entrada y la restricción de equivalencia de proyección de salida mejora la perplejidad del modelo.

Experimentos

Implementación

Keras: para implementar el modelo
Chazutsu: para descargar el conjunto de datos

Resultado

Ejecute la época 15 en el conjunto de datos Penn Treebank.
- El puntaje perplexity es grande, no podría confiar en su implementación. ¡Estoy esperando la solicitud de extracción!
augmentedmodel funciona mejor que la línea de base ( onehotmodel ), y augmentedmodel_tying supera la línea de base!
Puedes ejecutar este experimento de python train.py

Implementé la versión LSTM de estado. Su resultado según lo siguiente.

Se mejora la perplejidad (pero Zaggy), y el método de atado pierde un poco su efecto.
Usar LSTM en estado en Keras es demasiado difícil (especialmente reset_states en el conjunto de validación), por lo que puede haber algún límite incluido.

Validación adicional

Al comienzo de la capacitación, la incrustación de matriz para producir "distribución de maestros" aún no está capacitado. Entonces, el método propuesto tiene un poco de discapacidad al principio.
- Pero no se observó el retraso del entrenamiento
Aumentar la temperatura (alfa) gradualmente puede mejorar la velocidad de entrenamiento.
Usar el vector de palabras previamente capacitado, o fijar el peso de la matriz de incrustación para algún intervalo (técnica de objetivo fijo en el aprendizaje de refuerzo (consulte el aprendizaje de refuerzo profundo )) también tendrá efecto en la capacitación.

Por cierto, ¡el ejemplo de Pytorch ya usa el método de atado! ¡No tengas miedo de usarlo!

Expandir

Información adicional