felafax Download - felafax Quellcode Download

felafax

Anderer Quellcode

1.0.0

Herunterladen

Felafax - Tune LLAMA3.1 auf Google Cloud TPUs für 30% niedrigere Kosten und nahtlos skalieren!

Bild

Felafax ist ein Framework für die Fortsetzung und Feinabstimmung von Open Source LLMs mit XLA-Laufzeit . Wir kümmern uns um das notwendige Laufzeit-Setup und stellen ein Jupyter-Notizbuch außerhalb des Boxs zur Verfügung, um gerade loszulegen.

Einfach zu bedienen.
Einfach zu konfigurieren alle Aspekte des Trainings (für ML -Forscher und Hacker ausgelegt).
Einfach zu skalieren, das Training von einer einzelnen TPU -VM mit 8 Kernen bis hin zu gesamten TPU -Pod mit 6000 TPU -Kernen ( 1000x ) enthält!

Unser Ziel bei Felafax ist es, Infra zu bauen, um die Durchführung von KI-Workloads auf Nicht-Nvidia-Hardware (TPU, AWS Trainium, AMD GPUs und Intel GPUs) zu erleichtern.

Flossen kostenlos

Fügen Sie Ihren Datensatz hinzu, klicken Sie auf "Alle ausführen" und Sie werden auf der kostenlosen TPU -Ressource in Google Colab ausgeführt!

Felafax unterstützt	Kostenlose Notizbücher
Lama 3.1 (1b, 3b)	▶ ️ Starten Sie kostenlos bei Google Colab TPU

Derzeit unterstützte Modelle

LAMA-3.1 JAX-Implementierung $$ { color {rot} new!} $$
- Von Pytorch zu JAX umgewandelt, um eine verbesserte Leistung zu erhalten
- Unterstützung und LORA-Schulungsunterstützung für 1B, 3B, 8B, 70B, 405B .
- Laufen Sie effizient über verschiedene Hardware (TPUs, AWS Trainium, Nvidia, AMD) über JAXs Hardware-optimiertes XLA-Backend
- Skalieren Sie nahtlos, um größere Kontextlängen und Datensätze zu verarbeiten, indem Sie über mehrere Beschleuniger hinweg abschneiden
Lama-3/3.1 Pytorch Xla
- Lora- und Vollverdiener-Trainingsunterstützung
- Codepointer

Feinabstimmung über Felafax CLI laufen $$ { color {rot} new!} $$

Beginnen Sie mit der Feinabstimmung Ihrer Modelle mit der Felafax CLI in wenigen einfachen Schritten.

Schritt 1. Installieren Sie die CLI und authentifizieren

Beginnen Sie mit der Installation der CLI.

pip install pipx
pipx install felafax-cli

Generieren Sie dann ein Auth -Token:

Besuchen Sie Felafax.ai und erstellen/melden Sie sich in Ihrem Konto an.
Navigieren Sie zur Token -Seite und erstellen Sie ein neues Token.

Schließlich authentifizieren Sie Ihre CLI -Sitzung mit Ihrem Token:

felafax-cli auth login --token < your_token >

Schritt 2. Richten Sie die Feinabstimmungskonfiguration ein

Generieren Sie zunächst eine Standardkonfigurationsdatei für die Feinabstimmung. Dieser Befehl generiert eine config.yml -Datei im aktuellen Verzeichnis mit Standard -Hyperparameterwerten.

felafax-cli tune init-config

Zweitens aktualisieren Sie die Konfigurationsdatei mit Ihren Hyperparametern:

Umarmungsface -Knöpfe:
- Geben Sie Ihr HarmgingFace-Token und Ihre Repository-ID an, um das fein abgestimmte Modell hochzuladen.
Datensatzpipeline und Trainingsparams:
- Passen Sie batch_size , max_seq_length an, um für den Feinabstimmungsdatensatz zu verwenden.
- Stellen Sie Num_Steps auf null fest, wenn Sie möchten, dass Trainig den gesamten Datensatz durchläuft. Wenn num_steps auf eine Nummer eingestellt ist, wird das Training nach der angegebenen Anzahl von Schritten gestoppt.
- Setzen Sie learning_rate und lora_rank für Feinabstimmungen.
- eval_interval ist die Anzahl der Schritte zwischen Bewertungen.

Schritt 3. Starten Sie den Feinabstimmungslauf

Führen Sie den Befehl folgen aus, um die Liste der Basismodelle anzuzeigen, die Sie gut abschneiden können. Wir unterstützen alle Varianten von Lama-3.1 ab sofort.

felafax-cli tune start --help

Jetzt können Sie den Feinabstimmungsvorgang mit Ihrem ausgewählten Modell aus der obigen Liste und dem Datasetnamen von Huggingface (wie yahma/alpaca-cleaned ) starten:

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

Beispielbefehl, um Ihnen den Einstieg zu erleichtern:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

Nachdem Sie den Feinabstimmungsjob gestartet haben, kümmert sich Felafax CLI darum, den TPUs zu spinnen, das Training auszuführen, und lädt das fein abgestimmte Modell in den Hubface-Hub hoch.

Andere praktische Befehle

Überwachen Sie den Feinabstimmungsjob

Sie können Echtzeit-Protokolle streamen, um den Fortschritt Ihres Feinabstimmungsjobs zu überwachen:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

Listen Sie Ihre fein abgestimmten Modelle auf

Nach Abschluss der Feinabstimmung können Sie alle Ihre fein abgestimmten Modelle auflisten:

felafax-cli model list

Chatten Sie mit Ihrem fein abgestimmten Modell (läuft wieder auf TPU!):

Sie können eine interaktive Terminalsitzung starten, um mit Ihrem fein abgestimmten Modell zu chatten:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

Verwenden Sie Hilfe, um mehr Befehle zu erkunden!

Die CLI ist in drei Hauptbefehlsgruppen unterteilt:

tune : Starten/Beendigung von Arbeitsplätzen.
model : Verwalten und Interaktion mit Ihren fein abgestimmten Modellen.
files : Zum Hochladen/Anzeigen von Datendateien.

Verwenden Sie das Flag --help , um mehr über jede Befehlsgruppe zu erfahren:

felafax-cli tune --help

AMD 405B Feinabstimmungslauf

Wir haben kürzlich das LLAMA3.1 405B-Modell am 8xAMD MI300X GPUs mit JAX anstelle von Pytorch abgestimmt. Jax 'fortgeschrittene Sharding -APIs ermöglichte es uns, eine große Leistung zu erzielen. Schauen Sie sich unseren Blog -Beitrag an, um sich über das Setup und die von uns verwendeten Sharding -Tricks zu informieren.

Wir haben Lora mit allen Modellgewichten und Lora-Parametern in Bfloat16-Präzision und mit Lora-Rang von 8 und Lora Alpha von 16:

Modellgröße: Die Lama -Modellgewichte belegen etwa 800 GB VRAM.
Lora Gewichte + Optimiererzustand: ungefähr 400 GB VRAM.
Gesamt VRAM -Nutzung: 77% des Gesamt -VRAM, rund 1200 GB.
Einschränkungen: Aufgrund der großen Größe des 405B -Modells gab es nur begrenzte Platz für die Größe und die Sequenzlänge. Die verwendete Chargengröße betrug 16 und die Sequenzlänge 64.
Trainingsgeschwindigkeit: ~ 35 Token/Sekunde
Speichereffizienz: konstant rund 70%
Skalierung: Bei Jax war die Skalierung bei 8 GPUs nahezu linear.

Die GPU -Nutzungs- und VRAM -Nutzungsdiagramme finden Sie unten. Wir müssen jedoch immer noch die Modellflops -Nutzung (MFU) berechnen. Hinweis: Wir konnten die JIT-kompilierte Version des 405B-Modells aufgrund von Infrastruktur- und VRAM-Einschränkungen nicht ausführen (wir müssen dies weiter untersuchen). Der gesamte Trainingslauf wurde im JAX -Eager -Modus ausgeführt, sodass ein erhebliches Potenzial für Leistungsverbesserungen besteht.