Descarga universal distillation - Descargar el código fuente universal distillation

universal distillation

Código Fuente de IA

1.0.0

Descargar

Destilación del modelo de idioma universal

Prueba de CI

Descripción

Cree modelos destilados a partir de cada modelo de lenguaje enmascarado en el Hubgingface Hub con solo un comando Bash.

Características:

Destilación del lenguaje y la destilación de los modelos Bert.
Capacitación automática distribuida y multi-GPU.
Evalúe el uso de medidas estándar y más avanzado, como la pseudoplexidad.
Agregue restricciones para reducir los estereotipos utilizando nuestra técnica de FairDistillation.
Próximamente : Destilla múltiples modelos en un modelo, con traducción de token automatizado.

Cómo correr

Primero, clone el proyecto e instale las dependencias.

 # clone project   
git clone https://github.com/iPieter/universal-distillation

# install project   
cd universal-distillation
pip install -e .   
pip install -r requirements.txt

Destilación utilizando la interfaz de línea de comandos

En este tutorial, le mostraremos cómo configurar una tarea de destilación desde la línea de comandos. Necesitarás dos cosas:

Un modelo de maestro que desea destilar. Todos los modelos del repositorio del modelo Hugginface con un cabezal de máscara de relleno / MLM funcionarán. En este tutorial, utilizaremos el modelo estándar bert-base-uncased .
Un conjunto de datos que desea usar para la destilación. En este tutorial, somos un conjunto de datos 'pequeño', pero de alta calidad, Europarl.

Paso 1: Obtenga su conjunto de datos

Usaremos la sección inglesa del Corpus Europarl. Este es un corpus paralelo de muy alta calidad del parlamento europeo creado por intérpretes y traductores profesionales. También es bastante pequeño para un corpus de idiomas hoy en día, solo 114 MB, pero para nuestro tutorial de destilación está bien.

wget https://opus.nlpl.eu/download.php ? f = Europarl/v8/mono/en.txt.gz -O en.txt.gz
gunzip en.txt.gz

Los datos ahora están descomprimidos y almacenados en el archivo en.txt .

Paso 2: Empiece a entrenar

Ahora tenemos los datos, podemos comenzar a entrenar. La descarga del modelo de maestro sucederá automáticamente, por lo que no es necesario hacerlo manualmente. Si siente que esto lleva demasiado tiempo y solo desea probar el entrenamiento, por ejemplo, para tener una sensación de horarios, puede agregar --limit_train_batches N . Esto limita cada época a N lotes durante el entrenamiento.

python universal_distillation/distillation.py 
    --batch_size 8 
    --gpus 1 
    --max_epochs 3 
    --save_dir my_distilled_model/ 
    --teacher bert-base-uncased 
    --data en.txt

Hay algunas cosas que suceden en el fondo una vez que ejecuta ese comando. Primero, esta biblioteca crea un estudiante y un modelo de maestro. El maestro es bert-base-uncased y el alumno usará la misma arquitectura que el maestro de forma predeterminada, solo el número de cabezas es menor: 6 en lugar de 12. Dado que estamos entrenando en un dominio específico (Europarl), esto debería ser suficiente. Por supuesto, puede mezclar y combinar maestros diferentes y más grandes con estudiantes más pequeños, pero el rendimiento variará mucho.

En segundo lugar, la biblioteca Huggingface descarga el modelo de maestro y el tokenizer. En tercer lugar, el conjunto de datos se carga desde el disco y se inicializa con el tokenizador, observe que la tokenización en sí ocurre más tarde por defecto. Finalmente, comienza el bucle de destilación.

Paso 3: usa tu modelo

¡Finalmente, puede usar el modelo con la biblioteca Huggingface! Todos los archivos del estudiante (modelo pytorch y tokenizer) se guardan en la carpeta que definimos anteriormente: my_distilled_model/ . Puede importar el modelo desde esta carpeta directamente y probar la tarea de modelado de lenguaje enmascarado con solo 3 líneas:

 from transformers import pipeline
p = pipeline ( "fill-mask" , model = "my_distilled_model/" )

p ( "This is a [MASK]." )

Aunque este fue un ejemplo de estrecho, esto a menudo es suficiente para crear su propio modelo adaptado al dominio. En este caso, es

Evaluación de modelos de idiomas

También puede ejecutar una evaluación intrínseca utilizando la pseudoplexidad. Debe especificar el maestro y el modelo destilado, pero si solo ejecuta la evaluación, puede dar el modelo objetivo para ambos argumentos.

python universal_distillation/evaluation.py 
    --gpus=0 
    --limit_test_batches=500 
    --teacher=pdelobelle/robbert-v2-dutch-base
    --data=data/oscar_dutch/nl_dedup_part_2.txt 
    --checkpoint=DTAI-KULeuven/robbertje-39-gb-non-shuffled

Fairdistillation

Esta base de código también se usa para nuestro documento ECML-PKDD 2022, donde combinamos la destilación de conocimiento de los modelos de idiomas con restricciones de equidad. Las restricciones que probamos en el documento son la sustitución del estrecho de los pronombres de género, pero el código admite cualquier sustitución de solo token. Estos se pueden agregar al proceso de destilación definiendo qué tokens desea igualar. Por ejemplo, he y she tienen Token IDS 2016 y 2002, por lo que podemos definir un par de sustitución con ambos tokens. Las probabilidades sobre ambos tokens se igualan.

BaseTransformer agregar tokens modificando universal-distillation/distillation.py

 constraints = [[ 2016 , 2002 ]]  # she  # he
model = BaseTransformer ( args . teacher , constraints = constraints , ** vars ( args ))

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 27.56KB
Proviene de Github

Aplicaciones relacionadas

Universal Downloader

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Sitio web universal de UWA como este

2013-12-24

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo