ml engineering Download - ml engineering Source Code Download

ml engineering

Anderer Quellcode

1.0.0

Herunterladen

Open Book für maschinelles Lernen Engineering

Dies ist eine offene Sammlung von Methoden, Tools und Schritt-für-Schritt-Anweisungen, um das Training von großsprachigen Modellen und multimodalen Modellen und deren Schlussfolgerung zu unterstützen.

Dies ist ein technisches Material, das für LLM/VLM -Schulungsingenieure und -betreiber geeignet ist. Das ist der Inhalt hier enthält viele Skripte und Befehle von n-paste, damit Sie Ihre Anforderungen schnell erfüllen können.

Dieses Repo ist ein anhaltender Gehirnmüll meiner Erfahrungen mit großer Sprachmodellen (LLM) (und VLMs); Ein Großteil des Know-how, das ich beim Training des Open-Source-Bloom-176b-Modells im Jahr 2022 und des IDEFICS-80B Multi-Modal-Modells 2023 und Rag-Modelle bei Contextual.ai im Jahr 2024 erhalten habe.

Ich habe diese Informationen hauptsächlich für mich selbst zusammengestellt, damit ich schnell Lösungen finden kann, die ich in der Vergangenheit bereits recherchiert habe und die funktioniert haben, aber wie immer freue ich mich, diese Notizen mit der breiteren ML -Community zu teilen.

Inhaltsverzeichnis

Teil 1. Einblicke

Die AI Battlefield Engineering - Was Sie wissen müssen, um erfolgreich zu sein

Teil 2. Hardware

Berechnung - Beschleuniger, CPUs, CPU -Speicher.
Speicher - Lokale, verteilte und freigegebene Dateisysteme.
Netzwerk- Intra- und Inter-Node-Netzwerk.

Teil 3. Orchestrierung

Slurm - die Hauptorchestrierungsumgebung

Teil 4. Training

Training - Modelltrainingsanleitungen

Teil 5. Inferenz

Inferenz - Modellinferenz -Erkenntnisse

Teil 6. Entwicklung

Debuggen und Fehlerbehebung - wie man einfache und schwierige Probleme debuggiert
Und mehr Debuggen
Testen - zahlreiche Tipps und Werkzeuge, um das Schreiben von Tests angenehm zu machen

Teil 7. Verschiedenes

Ressourcen - LLM/VLM -Chroniken

Aktualisierungen

Ich kündige alle bedeutenden Updates auf meinem Twitter -Kanal https://twitter.com/stasbekman.

PDF -Version

Laden Sie die PDF -Version des Buches herunter.

Ich werde versuchen, es einmal pro Woche wieder aufzubauen, aber wenn Sie die neuesten möchten, sind die Anweisungen für den Bau hier.

Vielen Dank an Suggingface für die Erlaubnis, das PDF meines Buches im HF Hub zu hosten.

Diskussionen

Wenn Sie etwas zu ML Engineering besprechen möchten, hat dieses Repo die Community -Diskussionen zur Verfügung, zögern Sie also nicht, Ihre Erfahrungen zu teilen oder eine neue Diskussion über etwas zu beginnen, für das Sie leidenschaftlich sind.

Schlüsselvergleichstabellen

High -End -Beschleuniger:

Theoretische Beschleuniger tflops
Beschleunigungsspeichergröße und Geschwindigkeit

Netzwerke:

Theoretische Inter-Knoten-Geschwindigkeit
Theoretische Intra-Knoten-Geschwindigkeit

Verknüpfungen

Dinge, die Sie wahrscheinlich schnell und oft finden müssen.

Werkzeuge:

All_Reduce_Bench.py - Ein viel einfacherer Weg, um den Netzwerkdurchsatz zu bewerten als NCCL -Tests.
Torch-verteilt-gpu-test.py-Ein Tool zum schnellen Testen Ihrer Inter-Node-Konnektivität

Führer:

Debugging Pytorch-Anwendungen-Quick Copy-N-Paste-Lösungen zum Auflösen von Hängen oder Brechen von Pytorch-Anwendungen
Slurm für Benutzer - ein Slurm -Cheatsblatt und Tricks
Machen Sie winzige Modelle/Datensätze/Tokenisierer
LLM/VLM Chronicles Collection

Dankbarkeit

Nichts davon wäre möglich gewesen, ohne dass ich die spezifischen LLM/VLM-Schulungen betraut habe, von denen ich das erste Know-how gelernt habe. Dies ist ein Privileg, das nur wenige aufgrund der unerschwinglich teuren Kosten für die Vermietung von riesigen ML -Rechenclustern genießen. Hoffentlich wird der Rest der ML -Community stellvertretend aus diesen Notizen lernen.

Besonderer Dank geht an Thom Wolf, der vorschlug, das Bloom-176B-Training zurückzuführen, als ich nichts über großes Training wusste. Dies war das Projekt, das mich in den intensiven Lernprozess katapultierte. Und natürlich umarme, dass ich mir die Möglichkeit gegeben habe, in Bloom-176b und später in IDEFICS-80B-Schulungen in Vollzeit zu arbeiten.

Vor kurzem habe ich mein Wissen und meine Erfahrung weiter erweitert, während ich Modelle trainierte und skalierbare Trainings-/Inferenzsysteme bei contextual.ai aufgebaut habe, und ich bin dieser Gelegenheit für Aman und Douwe dankbar.

Ich möchte auch den zahlreichen Mitwirkenden sagen, die diesen Text großartig und fehlerfrei gemacht haben.

Beitragen

Wenn Sie einen Fehler gefunden haben, Tippfehler oder eine Verbesserung vorschlagen möchten, zögern Sie bitte nicht, ein Problem zu eröffnen oder eine PR beizutragen.

Lizenz

Der Inhalt dieser Website ist unter Attribution-Sharealike 4.0 International verteilt.

Zitat

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}