felafax Download - felafax Source Code Download

felafax

Autre code source

1.0.0

Télécharger

FELAFAX - Tunez LLAMA3.1 sur Google Cloud TPUS pour 30% de coût inférieur et évoluer de manière transparente!

Felafax est un cadre pour la formation continue et le réglage fin des LLMS open source en utilisant XLA Runtime . Nous nous occupons de la configuration nécessaire de l'exécution et fournissons un ordinateur portable Jupyter pour commencer.

Facile à utiliser.
Facile à configurer tous les aspects de la formation (conçus pour les chercheurs et les pirates de ML).
Entraînement facile à évoluer à partir d'une seule machine virtuelle TPU avec 8 cœurs à une pod TPU entière contenant 6000 cœurs TPU ( 1000x )!

Notre objectif chez Felafax est de construire l'infra pour faciliter l'exécution des charges de travail AI sur le matériel non Nvidia (TPU, Trainium AWS, GPU AMD et GPU Intel).

Finetune gratuitement

Ajoutez votre ensemble de données, cliquez sur "Exécuter tout" et vous exécuterez sur une ressource TPU gratuite sur Google Colab!

Felafax prend en charge	Cahiers gratuits
Lama 3.1 (1b, 3b)	▶ ️ Commencez gratuitement sur Google Colab TPU

Modèles actuellement pris en charge

LLAMA-3.1 JAX Implémentation $$ { couleur {rouge} new!} $$
- Converti de pytorch en jax pour améliorer les performances
- Précision complète et soutien de la formation LORA pour 1b, 3b, 8b, 70b, 405b .
- Exécutez efficacement à travers divers matériel (TPUS, AWS Trainium, Nvidia, AMD) via le backend XLA optimisé par le matériel de Jax
- Échelle de manière transparente pour gérer les longueurs de contexte et les ensembles de données plus importants en se rabaissant sur plusieurs accélérateurs
LLAMA-3 / 3.1 PYTORCH XLA
- Lora et soutien de la formation à la précision complète
- codepointer

Fonction de finition via Felafax CLI $$ { couleur {rouge} new!} $$

Commencez avec des réglages affinés de vos modèles en utilisant la CLI Felafax en quelques étapes simples.

Étape 1. Installez la CLI et authentifiez

Commencez par installer la CLI.

pip install pipx
pipx install felafax-cli

Ensuite, générez un jeton AUTH:

Visitez Felafax.ai et créez / connectez-vous à votre compte.
Accédez à la page des jetons et créez un nouveau jeton.

Enfin, authentifiez votre session CLI en utilisant votre jeton:

felafax-cli auth login --token < your_token >

Étape 2. Configurer la configuration de réglage fin

Premièrement, générez un fichier de configuration par défaut pour le réglage fin. Cette commande génère un fichier config.yml dans le répertoire actuel avec des valeurs d'hyperparamètre par défaut.

felafax-cli tune init-config

Deuxièmement, mettez à jour le fichier de configuration avec vos hyperparamètres:

Boucons en étreinte:
- Fournissez votre jeton HuggingFace et votre ID de référentiel pour télécharger le modèle affiné.
Pipeline de données et paramètres de formation:
- Ajustez batch_size , max_seq_length à utiliser pour un ensemble de données de réglage fin.
- Définissez NUM_STEPS sur null si vous voulez que Trainig passe via un ensemble de données entier. Si NUM_STEPS est défini sur un nombre, la formation s'arrêtera après le nombre spécifié d'étapes.
- Définissez learning_rate et lora_rank à utiliser pour le réglage fin.
- eval_interval est le nombre d'étapes entre les évaluations.

Étape 3. Démarrez la course de réglage fin

Exécutez la commande suivante pour voir la liste des modèles de base que vous pouvez affiner, nous prenons en charge toutes les variantes de LLAMA-3.1 à ce jour.

felafax-cli tune start --help

Maintenant, vous pouvez démarrer le processus de réglage fin avec votre modèle sélectionné parmi la liste ci-dessus et le nom de l'ensemble de données à partir de HuggingFace (comme yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Exemple de commande pour vous démarrer:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

Après avoir commencé le travail de réglage fin, Felafax CLI s'occupe de faire tourner les TPU, d'exécuter la formation, et il télécharge le modèle affiné dans le hub étreint.

Autres commandes pratiques

Surveiller le travail de réglage fin

Vous pouvez diffuser des journaux en temps réel pour surveiller les progrès de votre travail de réglage fin:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Énumérez vos modèles affinés

Une fois le réglage fin terminé, vous pouvez répertorier tous vos modèles affinés:

felafax-cli model list

Discutez avec votre modèle affiné (fonctionne à nouveau sur TPU!):

Vous pouvez démarrer une session de terminal interactive pour discuter avec votre modèle affiné:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

Utilisez l'aide pour explorer plus de commandes!

La CLI est divisée en trois principaux groupes de commandement:

tune : Pour démarrer / arrêter les travaux de réglage fin.
model : pour gérer et interagir avec vos modèles affinés.
files : pour télécharger / afficher les fichiers de YourDataSet.

Utilisez l'indicateur --help pour en savoir plus sur n'importe quel groupe de commandes:

felafax-cli tune --help

AMD 405b Run fineing Run

Nous avons récemment affiné le modèle LLAMA3.1 405b sur des GPU 8XAMD MI300X en utilisant JAX au lieu de Pytorch. Les API avancées avancées de Jax nous ont permis d'obtenir de grandes performances. Consultez notre article de blog pour en savoir plus sur la configuration et les astuces de rupture que nous avons utilisées.

Nous avons fait du réglage LORA avec tous les poids du modèle et les paramètres LORA dans la précision BFLOAT16, et avec le rang LORA de 8 et Lora Alpha de 16:

Taille du modèle: les poids de modèle lama occupent environ 800 Go de VRAM.
Poids LORA + État d'optimiseur: environ 400 Go de VRAM.
Utilisation totale du VRAM: 77% du VRAM total, environ 1200 Go.
CONTRAINTES: En raison de la grande taille du modèle 405B, il y avait un espace limité pour la taille du lot et la longueur de séquence. La taille du lot utilisée était de 16 et la longueur de séquence était de 64.
Vitesse d'entraînement: ~ 35 jetons / seconde
Efficacité de la mémoire: régulièrement environ 70%
Échelle: avec Jax, la mise à l'échelle était presque linéaire sur 8 GPU.

Les graphiques d'utilisation du GPU et d'utilisation de VRAM peuvent être trouvés ci-dessous. Cependant, nous devons encore calculer l'utilisation des flops du modèle (MFU). Remarque: nous n'avons pas pu exécuter la version compilée JIT du modèle 405B en raison des contraintes d'infrastructure et de VRAM (nous devons enquêter davantage). L'ensemble de la formation a été exécuté en mode JAX EAGER, il existe donc un potentiel important d'amélioration des performances.