Descarga de felafax - Descargar el código fuente felafax

felafax

Otro código fuente

1.0.0

Descargar

FELAFAX - Tune Llama3.1 en Google Cloud TPUS por un costo y una escala 30% más bajos sin problemas.

imagen

Felafax es un marco para el entrenamiento continuo y el ajuste de código abierto de código abierto que usa el tiempo de ejecución XLA . Nos encargamos de la configuración de tiempo de ejecución necesaria y proporcionamos un cuaderno Jupyter fuera de caja para comenzar.

Fácil de usar.
Fácil de configurar todos los aspectos de la capacitación (diseñado para investigadores y piratas informáticos de ML).
¡Entrenamiento fácil de escalar desde una sola VM TPU con 8 núcleos a una cápsula TPU completa que contiene 6000 núcleos TPU ( 1000X )!

Nuestro objetivo en Felafax es construir infra para que sea más fácil ejecutar cargas de trabajo de IA en hardware no nvidia (TPU, AWS Entrenium, AMD GPU e Intel GPU).

Finetune gratis

Agregue su conjunto de datos, haga clic en "Ejecutar todo" y se ejecutará en el recurso TPU gratuito en Google Colab.

Felafax es compatible	Cuadernos gratis
Llama 3.1 (1b, 3b)	▶ ️ Comience de forma gratuita en Google Colab TPU

Modelos compatibles actualmente

Llama-3.1 Implementación de Jax $$ { color {rojo} nuevo!} $$
- Convertido de Pytorch a Jax para mejorar el rendimiento
- Soporte de capacitación de precisión completa y Lora para 1B, 3B, 8B, 70B, 405B .
- Ejecute de manera eficiente a través de diversos hardware (TPUS, AWS Entrenium, NVIDIA, AMD) a través del backend XLA optimizado de hardware de Jax
- Escala sin problemas para manejar longitudes de contexto y conjuntos de datos más grandes fragmentando a través de múltiples aceleradores
Llama-3/3.1 Pytorch XLA
- Lora y apoyo de capacitación de precisión completa
- CodePointer

Ejecutando ajuste a través de Felafax CLI $$ { color {rojo} nuevo!} $$

Comience con el ajuste de sus modelos utilizando la CLI de Felafax en algunos simples pasos.

Paso 1. Instale la CLI y la autentica

Comience instalando la CLI.

pip install pipx
pipx install felafax-cli

Luego, genere un token de autenticación:

Visite Felafax.ai y cree/inicie sesión en su cuenta.
Navegue a la página de tokens y cree un nuevo token.

Finalmente, autentique su sesión de CLI usando su token:

felafax-cli auth login --token < your_token >

Paso 2. Configure la configuración de ajuste fino

Primero, genere un archivo de configuración predeterminado para ajuste fino. Este comando genera un archivo config.yml en el directorio actual con valores predeterminados de hiperparameter.

felafax-cli tune init-config

En segundo lugar, actualice el archivo de configuración con sus hiperparámetros:

Bandillas de Huggingface:
- Proporcione su Token de Huggingface e ID de repositorio para cargar el modelo ajustado.
Cubierte de datos y parámetros de capacitación:
- Ajuste batch_size , max_seq_length para usar para ajustar el conjunto de datos.
- Establezca num_steps en null si desea que Trainig se ejecute a través del conjunto de datos completo. Si num_steps se establece en un número, el entrenamiento se detendrá después del número especificado de pasos.
- Establezca learning_rate y lora_rank para usar para ajustar.
- eval_interval es el número de pasos entre evaluaciones.

Paso 3. Comience la carrera de ajuste fino

Ejecute el siguiente comando para ver la lista de modelos base que puede ajustar, apoyamos todas las variantes de LLAMA-3.1 a partir de ahora.

felafax-cli tune start --help

Ahora, puede iniciar el proceso de ajuste con su modelo seleccionado de la lista anterior y el nombre del conjunto de datos de Huggingface (como yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Ejemplo de comando para comenzar:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

Después de comenzar el trabajo de ajuste, Felafax CLI se encarga de hacer girar las TPU, ejecutar el entrenamiento, y carga el modelo ajustado al Hub Huggingface.

Otros comandos útiles

Monitorear el trabajo de ajuste

Puede transmitir registros en tiempo real para monitorear el progreso de su trabajo ajustado:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Enumere sus modelos ajustados

Después de completar el ajuste, puede enumerar todos sus modelos ajustados:

felafax-cli model list

Chatea con tu modelo ajustado (¡se ejecuta en TPU nuevamente!):

Puede iniciar una sesión de terminal interactivo para chatear con su modelo ajustado:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

¡Use ayuda para explorar más comandos!

La CLI se divide en tres grupos de comando principales:

tune : para comenzar/dejar de ajustar los trabajos.
model : para administrar e interactuar con sus modelos ajustados.
files : para cargar/ver sus archivos suDataSet.

Use el indicador --help para descubrir más sobre cualquier grupo de comando:

felafax-cli tune --help

AMD 405B CORRO FINALO

Recientemente ajustamos el modelo LLAMA3.1 405B en GPU 8XAMD MI300X usando Jax en lugar de Pytorch. Las API avanzadas de fragmentación de Jax nos permitieron lograr un gran rendimiento. Echa un vistazo a nuestra publicación de blog para aprender sobre la configuración y los trucos de fragmentos que utilizamos.

Hicimos un ajuste fino de Lora con todos los pesos del modelo y los parámetros de Lora en la precisión BFLOAT16, y con el rango de Lora de 8 y Lora Alpha de 16:

Tamaño del modelo: los pesos del modelo de LLAMA ocupan alrededor de 800 GB de VRAM.
Lora Peso + Estado del optimizador: aproximadamente 400 GB de VRAM.
Uso total de VRAM: 77% del VRAM total, alrededor de 1200 GB.
Restricciones: debido al gran tamaño del modelo 405B, había un espacio limitado para el tamaño de lotes y la longitud de la secuencia. El tamaño del lote utilizado fue 16 y la longitud de la secuencia fue de 64.
Velocidad de entrenamiento: ~ 35 fichas/segundo
Eficiencia de memoria: consistentemente alrededor del 70%
Escala: con Jax, la escala fue casi lineal en 8 GPU.

Los gráficos de utilización de GPU y utilización de VRAM se pueden encontrar a continuación. Sin embargo, todavía necesitamos calcular la utilización del modelo de FLOPS (MFU). Nota: No pudimos ejecutar la versión compilada por JIT del modelo 405B debido a las limitaciones de infraestructura y VRAM (necesitamos investigar esto más a fondo). Toda la ejecución de capacitación se ejecutó en modo Jax EXISH, por lo que existe un potencial significativo para las mejoras de rendimiento.