Dies ist eine offene Sammlung von Methoden, Tools und Schritt-für-Schritt-Anweisungen, um das Training von großsprachigen Modellen und multimodalen Modellen und deren Schlussfolgerung zu unterstützen.
Dies ist ein technisches Material, das für LLM/VLM -Schulungsingenieure und -betreiber geeignet ist. Das ist der Inhalt hier enthält viele Skripte und Befehle von n-paste, damit Sie Ihre Anforderungen schnell erfüllen können.
Dieses Repo ist ein anhaltender Gehirnmüll meiner Erfahrungen mit großer Sprachmodellen (LLM) (und VLMs); Ein Großteil des Know-how, das ich beim Training des Open-Source-Bloom-176b-Modells im Jahr 2022 und des IDEFICS-80B Multi-Modal-Modells 2023 und Rag-Modelle bei Contextual.ai im Jahr 2024 erhalten habe.
Ich habe diese Informationen hauptsächlich für mich selbst zusammengestellt, damit ich schnell Lösungen finden kann, die ich in der Vergangenheit bereits recherchiert habe und die funktioniert haben, aber wie immer freue ich mich, diese Notizen mit der breiteren ML -Community zu teilen.
Teil 1. Einblicke
Teil 2. Hardware
Berechnung - Beschleuniger, CPUs, CPU -Speicher.
Speicher - Lokale, verteilte und freigegebene Dateisysteme.
Netzwerk- Intra- und Inter-Node-Netzwerk.
Teil 3. Orchestrierung
Teil 4. Training
Teil 5. Inferenz
Teil 6. Entwicklung
Debuggen und Fehlerbehebung - wie man einfache und schwierige Probleme debuggiert
Und mehr Debuggen
Testen - zahlreiche Tipps und Werkzeuge, um das Schreiben von Tests angenehm zu machen
Teil 7. Verschiedenes
Ich kündige alle bedeutenden Updates auf meinem Twitter -Kanal https://twitter.com/stasbekman.
Laden Sie die PDF -Version des Buches herunter.
Ich werde versuchen, es einmal pro Woche wieder aufzubauen, aber wenn Sie die neuesten möchten, sind die Anweisungen für den Bau hier.
Vielen Dank an Suggingface für die Erlaubnis, das PDF meines Buches im HF Hub zu hosten.
Wenn Sie etwas zu ML Engineering besprechen möchten, hat dieses Repo die Community -Diskussionen zur Verfügung, zögern Sie also nicht, Ihre Erfahrungen zu teilen oder eine neue Diskussion über etwas zu beginnen, für das Sie leidenschaftlich sind.
High -End -Beschleuniger:
Netzwerke:
Dinge, die Sie wahrscheinlich schnell und oft finden müssen.
Werkzeuge:
Führer:
Nichts davon wäre möglich gewesen, ohne dass ich die spezifischen LLM/VLM-Schulungen betraut habe, von denen ich das erste Know-how gelernt habe. Dies ist ein Privileg, das nur wenige aufgrund der unerschwinglich teuren Kosten für die Vermietung von riesigen ML -Rechenclustern genießen. Hoffentlich wird der Rest der ML -Community stellvertretend aus diesen Notizen lernen.
Besonderer Dank geht an Thom Wolf, der vorschlug, das Bloom-176B-Training zurückzuführen, als ich nichts über großes Training wusste. Dies war das Projekt, das mich in den intensiven Lernprozess katapultierte. Und natürlich umarme, dass ich mir die Möglichkeit gegeben habe, in Bloom-176b und später in IDEFICS-80B-Schulungen in Vollzeit zu arbeiten.
Vor kurzem habe ich mein Wissen und meine Erfahrung weiter erweitert, während ich Modelle trainierte und skalierbare Trainings-/Inferenzsysteme bei contextual.ai aufgebaut habe, und ich bin dieser Gelegenheit für Aman und Douwe dankbar.
Ich möchte auch den zahlreichen Mitwirkenden sagen, die diesen Text großartig und fehlerfrei gemacht haben.
Wenn Sie einen Fehler gefunden haben, Tippfehler oder eine Verbesserung vorschlagen möchten, zögern Sie bitte nicht, ein Problem zu eröffnen oder eine PR beizutragen.
Der Inhalt dieser Website ist unter Attribution-Sharealike 4.0 International verteilt.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ maschinelles Lernen: ML Engineering Open Book | ML Wege | Portierung
✔ Guides: Die Kunst des Debuggens
✔ Anwendungen: ipyexperimente
✔ Werkzeuge und Cheatsblätter: Bash | Conda | Git | Jupyter-notebook | machen | Python | Tensorboard | Unix