Descargar awd lstm tensorflow - awd lstm tensorflow Código fuente de descarga

awd lstm tensorflow

Código Fuente de IA

1.0.0

Descargar

AWD-LSTM (Peso Drop LSTM) con cuantización por el premio de entrenamiento en TensorFlow

AWD-LSTM de ("regularizando y optimización de modelos de lenguaje LSTM") para TensorFlow.

La cuantización del premio para el entrenamiento para la inferencia entera-aritmética solo ("Cuantización y capacitación de redes neuronales para una inferencia eficiente-aritmética de solo aritmética") también se proporciona.

AWD-LSTM (Peso Drop LSTM)

Ambiente

Este código se implementa y se prueba con TensorFlow 1.11.0. y 1.13.0.

Uso

Simplemente AWD-LSTM inicial, es una LayerRNNCell estándar.

 from weight_drop_lstm import WeightDropLSTMCell

lstm_cell = WeightDropLSTMCell(
    num_units=CELL_NUM, weight_drop_kr=WEIGHT_DP_KR, 
    use_vd=True, input_size=INPUT_SIZE)

Los argumentos se definen de la siguiente manera:

num_units : el número de celda en la capa LSTM. [INTS]
weight_drop_kr : el número de pasos que avanzan los pesos rápidos. [int]
use_vd : si es verdadero, usando la caída variacional en la conexión de caída de peso, abandono estándar de lo contrario. [bool]
input_size : si use_vd=True , input_size (dimensión del último canal) se debe proporcionar. [int]

Los argumentos de palabras clave restantes son exactamente los mismos que tf.nn.LSTMCell .

Observó que, si el peso_drop_kr no se proporciona o se proporciona con 1.0, WeightDropLSTMCell se reduce como LSTMCell .

Inserte la operación de actualización del núcleo de abandono al lugar que desee.

 # By simply sess.run in each training step
sess.run(lstm_cell.get_vd_update_op())

# Or use control_dependencies
vd_update_ops = lstm_cell.get_vd_update_op() 
with tf.control_dependencies(vd_update_ops):
    tf.train.AdamOptimizer(learning_rate).minimize(loss)

También puede agregar get_vd_update_op() a GraphKeys.UPDATE_OPS al llamar WeightDropLSTMCell .

Observó que, si usa control_dependencies , tenga cuidado con el orden de ejecución.
El núcleo de deserción variacional no debe actualizarse antes del paso optimizador.

Detalles de implementación

La idea principal de AWD-LSTM son los pesos de conexión de caída y las entradas concatinadas. La conexión de caída del peso y las entradas concatinadas

Si is_vd=True , se utilizarán variables para guardar el núcleo de abandono. La operación de actualización para la descarga variacional

Resultados experimentales

Tengo experimentos de conducta en una tarea recursiva de muchos a muchos esta implementación y lleva a cabo mejores resultados que LSTMCell simple.

Cuantificación del premio al entrenamiento

En una palabra

 lstm_cell = WeightDropLSTMCell(
    num_units=CELL_NUM, weight_drop_kr=WEIGHT_DP_KR, 
    is_quant=True, is_train=True)
    
tf.contrib.quantize.create_training_graph(sess.graph, quant_delay=0)

La explicación detallada se actualizará pronto.

Señaló que: se producirá algún problema de cuantización en `tf.while` que con una versión superior a 1.12.0

Adicción: abandono variacional

También proporcioné una implementación de tensorflow de deserción variacional, que es más flexible que DropoutWrapper en tensorflow.

El uso es similar al uso de WeightDropLSTMCell :

 from variational_dropout import VariationalDropout

vd = VariationalDropout(input_shape=[5], keep_prob=0.5)

# Directly sess.run() to update
sess.run(vd.get_update_mask_op())

# Or use control_dependencies
with tf.control_dependencies(vd.get_update_mask_op()):
    step, results_array = tf.while_loop(
        cond=lambda step, _: step < 5,
        body=main_loop,
        loop_vars=(step, results_array))
"""
    This is just a simple example. 
    Usually, control_dependencies will be placed where optimizer stepping.
"""

También puede agregar get_update_mask_op() a GraphKeys.UPDATE_OPS cuando llame VariationalDropout .

Una vez más, si usa control_dependencies , tenga cuidado con el orden de ejecución.

HACER

Proporcione los servicios de regulación mencionados en el documento.
Tal vez haya una forma más elegante de implementar la deserción variacional.
Extraer retraso de cuantización.
Proporcione interfaz para el modelo no cuantizado y el modo cuantificado.
Documentación para la capacitación de cuantificación.

Si tiene alguna sugerencia, hágamelo saber. ¡Estaré bastante agradecido!

Contacto y copia a la derecha

Trabajo en código de Jia-Yau Shiau [email protected].
Se recomienda y bifurcado el trabajo del código de cuantificación de Peter Huang [email protected]

Expandir

Información adicional