Descargar t2t tuner - Descargar el código fuente t2t tuner

t2t tuner

Código Fuente de IA

1.0.0

Descargar

T2t-Tuner

Capacitación conveniente de texto a texto para transformadores

pip install t2t-tuner

Requiere Pytorch: siga las instrucciones de instalación de Pytorch o use un contenedor de Pytorch.

Características

Tareas fáciles de entrenamiento para texto a texto (y generación de texto)
Métodos/características de entrenamiento:
- Supervisado ajustado
- Punta de control de gradiente
- Paralelismo modelo
- Ajuste de inmediato suave (basado en este documento)
- Congelamiento codificador/decodificador/incrustaciones
- Mueva incrustaciones a CPU
- Resumen del modelo de impresión
- Velocidad profunda

Basado en la maravillosa Biblioteca de Transformers de Huggingface. Probado en los modelos T5 y GPT. En teoría, debería funcionar con otros modelos que también admiten AutomodEfforseq2SEQLM o Automodelforcausallm.

El entrenador en esta biblioteca aquí es una interfaz de nivel superior para funcionar basado en el script run_translation.py de Huggingface para tareas de generación de texto a texto. Decidí que quería una interfaz más conveniente para la capacitación y la inferencia, junto con el acceso a cosas como el punto de control de gradiente y el modelo paralelo para adaptarse a modelos más grandes, estos ya están en la biblioteca Huggingface pero no están expuestas en el guión. También agregué algunas características que quería (ajuste de inmediato, resumen del modelo), la integré con el entrenamiento Autorregresivo LM y la envolví como una sola biblioteca que se puede instalar PIP.

Ejemplos

Modelos de entrenamiento

 import t2t

trainer_arguments = t2t . TrainerArguments ( model_name_or_path = "t5-small" ,
                                         train_file = YOUR_DATASET )

trainer = t2t . Trainer ( arguments = trainer_arguments )

# train without validation
trainer . train ( valid = False )

Para obtener más ejemplos concretos, consulte los cuadernos vinculados a continuación:

Ejemplo simple
Ejemplo simple en Colab
Ajuste de inmediato suave
Punta de control de gradiente
Paralelismo modelo

Formato de datos

SEQ2SEQ Training

{ "translation" : { "s" : " TEXT " , "t" : " LABEL " }}

El formato de datos es JSON-Lines, siguiendo el script original de Huggingface. Cada ejemplo es una línea.
Defina los ID de origen y de destino en TrainingArguments.source_id y TrainingArguments.target_id (predeterminado a s y t ).
Incluya el prefijo en el archivo de datos o defina el prefijo para prevenir el texto en TrainingArguments.prefix .
Ejemplo de cuaderno para el preprocesamiento de datos desde el archivo CSV

Entrenamiento Autorregresivo LM

Cualquier archivo de texto funcionará

Entrenamiento de modelos grandes

Esta sección describirá cómo entrenar modelos de idiomas grandes (> 1 parámetros BIL) en configuraciones relativamente simples.

Algunas notas para las configuraciones informadas a continuación:

GradCheckPoint: punto de control de gradiente para reducir el uso de VRAM, pero aumente el cálculo (establecer TrainerArguments.gradient_checkpointing ).
Freezeembeds: Freeze (no entrena) la capa de incrustación para reducir el uso y el cálculo de VRAM (set trainer.freeze(embeddings=True) ).
AdaFactor usa menos VRAM que Adam, pero es ligeramente más lento y puede converger de manera ligeramente diferente.
Puede usar la acumulación de gradiente ( TrainingArguments.gradient_accumulation_steps ) para recuperar un tamaño de lote más grande si es necesario. Los tamaños de lotes informados son sin acumulación de gradiente.
Mover incrustaciones a CPU parece casi no tener impacto tanto en el uso como en el rendimiento de VRAM, por lo tanto, no se usa.

Modelos GPT

Algunas configuraciones de GPT que se probaron para capacitar en una sola tarjeta RTX 3090 (24 GB) (sin Speedspeed):

Modelo	Parámetros	Precisión	Optimizador	Entrada	Lotes por lotes	Otro
GPT2	1.5b	FP16	Adafactor	128	4	Ninguno
GPT2	1.5b	FP16	Adafactor	512	1	Ninguno
GPT2	1.5b	FP16	Adafactor	1024	4	Gradcheckpoint
gpt-neo	1.3b	FP16	Adafactor	1024	1	Ninguno
gpt-neo	1.3b	FP16	Adafactor	2048	4	Gradcheckpoint
gpt-neo	2.7b	FP16	Adafactor	2048	4	GradCheckpoint, congeladas

Modelos T5

Algunas configuraciones T5 que se probaron para capacitar en una sola tarjeta RTX 3090 (24 GB) (sin Speedspeed):

Modelo	Parámetros	Precisión	Optimizador	Seq2seqlen	Lotes por lotes	Otro
t5	3B	FP32	Adafactor	128-> 128	1	Congelados
t5	3B	FP32	Adafactor	128-> 128	1	Gradcheckpoint
t5	3B	FP32	Adafactor	128-> 128	128	GradCheckpoint, congeladas
t5	3B	FP32	Adafactor	512-> 512	32	GradCheckpoint, congeladas

Paralelismo del modelo para modelos T5-11B

Usando esta biblioteca, también puede ajustar los puntos de control T5-11B con bastante facilidad (nodo único) con la siguiente configuración (sin Speed de Deepeed):

Punto de control sugerido: T5-11B
Tamaño del lote 1 + Acumulación de gradiente para compensar el tamaño de lote que necesite.
El tamaño de lotes de 8 es posible con el punto de control de gradiente, pero no mejora la velocidad.
Modelo paralelo en múltiples GPU:
- Al menos ~ 90 GB de VRAM
- Ejemplos: 8x 16 GB o 4x 32GB GPU (V100), o 2x 48GB (RTX8000/A6000)
FP32 (sin necesidad de precisión mixta/FP16)
- FP16 en realidad sería mejor, pero los puntos de control T5 previos al detenido no juegan bien con FP16.
- En las tarjetas Ampere (RTX30XX, A100, A6000), se usa TF32, que es más rápido que FP32 y no sufre los mismos problemas que FP16.
- Probable Razón: las activaciones existentes son demasiado grandes (seguimiento de problemas de GitHub, algo más de información)

Modelo paralelo T5-11B

Tenga en cuenta que, dependiendo de su sistema, el tiempo de carga para el punto de control (46 GB) puede ser muy largo. Necesitará una amplia RAM CPU (al menos ~ 90 GB) para cargarlo con éxito.

ONNX RT

ONNX RT funciona con algunos modelos (no T5, todavía) y puede proporcionar un pequeño impulso en la velocidad.

Instale ORT, luego configure TrainingArguments.torch_ort=True

pip install torch-ort -f https://onnxruntimepackages.z14.web.core.windows.net/onnxruntime_stable_torch190.cu111.html

python -m torch_ort.configure

Desarrollo

Paquete de construcción

python3 -m pip install --upgrade build twine
python3 -m build
python3 -m twine upload dist/ *

Renuncias

Esta biblioteca se desarrolló como un proyecto personal para mi propio uso. No dude en tener la bifurcación o usarlo para sus propios fines también. No asumiré la responsabilidad de ningún contratiempo que ocurra como resultado del uso de esta biblioteca.

Nota para las tarjetas 3090 Fe, si sus fanáticos alcanzaron el 100%, significa que sus temperaturas VRAM son altas (> 100 grados C). El entrenamiento durante largas horas a estas temperaturas en teoría debería estar bien, pero si desea tranquilidad (como yo), puede reducir el límite de potencia incurla en un impacto menor en las velocidades de entrenamiento. Mientras tus fanáticos nunca alcancen el 100%, tus temperaturas VRAM deberían ser buenas. Por ejemplo, para reducir el límite de potencia a 300W (desde 350W):