Il s'agit d'une collection ouverte de méthodologies, d'outils et d'instructions étape par étape pour aider à une formation réussie de modèles de grandes langues et de modèles multimodaux et de leur inférence.
Il s'agit d'un matériau technique adapté aux ingénieurs et opérateurs de formation LLM / VLM. C'est le contenu ici contient de nombreux scripts et des commandes Copy-n-P-casst pour vous permettre de répondre rapidement à vos besoins.
Ce repo est un dépotage cérébral continu de mes expériences qui forment des modèles de grands langues (LLM) (et VLM); Une grande partie du savoir-faire que j'ai acquise lors de la formation du modèle Open source Bloom-176B en 2022 et du modèle multimodal IdeFics-80B en 2023, et des modèles de chiffon sur Contextual.ai en 2024.
J'ai compilé ces informations surtout pour moi-même afin que je puisse rapidement trouver des solutions que j'ai déjà recherchées dans le passé et qui ont fonctionné, mais comme d'habitude, je suis heureux de partager ces notes avec la communauté ML plus large.
Partie 1. Informations
Partie 2. Matériel
Calcul - Accélérateurs, CPU, mémoire CPU.
Stockage - Systèmes de fichiers locaux, distribués et partagés.
Réseau - Réseautage intra et inter-nœud.
Partie 3. Orchestration
Partie 4. Formation
Partie 5. Inférence
Partie 6. Développement
Débogage et dépannage - Comment déboguer les questions faciles et difficiles
Et plus de débogage
Test - de nombreux conseils et outils pour rendre la rédaction de test agréable
Partie 7. Divers
J'annonce toutes les mises à jour importantes sur ma chaîne Twitter https://twitter.com/stasbekman.
Téléchargez la version PDF du livre.
J'essaierai de le reconstruire une fois par semaine environ, mais si vous voulez les derniers, les instructions de construction sont là.
Merci à HuggingFace de m'avoir donné la permission d'héberger le PDF de mon livre au HF Hub.
Si vous souhaitez discuter de quelque chose lié à ML Engineering, ce dépôt a les discussions communautaires disponibles - alors n'hésitez pas à partager votre expérience ou à commencer une nouvelle discussion sur quelque chose qui vous passionne.
Accélérateurs haut de gamme:
Réseaux:
Des choses que vous aurez probablement besoin de trouver rapidement et souvent.
Outils:
Guides:
Rien de tout cela n'aurait été possible sans que je n'aie été chargé de faire les formations spécifiques de LLM / VLM dont j'ai appris le savoir-faire initial. C'est un privilège dont seuls quelques-uns apprécient en raison du coût prohibitif de la location d'énormes grappes de calcul ML. J'espère donc que le reste de la communauté ML apprendra par procuration de ces notes.
Un merci spécial à Thom Wolf qui a proposé de ramener la formation Bloom-176B alors que je ne savais rien de l'entraînement à grande échelle. C'était le projet qui m'a catapulté dans le processus d'apprentissage intense. Et, bien sûr, en étreignant pour m'avoir donné l'occasion de travailler à plein temps sur Bloom-176B et plus tard dans les formations IDEFICS-80B.
Récemment, j'ai continué à élargir mes connaissances et mon expérience tout en formant des modèles et en construisant des systèmes de formation / inférence évolutifs chez Contextual.ai et je suis reconnaissant à cette opportunité à Aman et Douwe.
Je voudrais également remercier les nombreux contributeurs qui ont rendu ce texte génial et sans erreur.
Si vous avez trouvé un bogue, la faute de frappe ou souhaitez proposer une amélioration, n'hésitez pas à ouvrir un problème ou à contribuer un RP.
Le contenu de ce site est distribué sous Attribution-Sharealike 4.0 International.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ Apprentissage automatique: ML Engineering Open Book | ML Ways | Portage
✔ Guides: l'art du débogage
✔ Applications: ipyexperiments
✔ Outils et cheatheets: bash | conda | git | Jupyter-notebook | faire | Python | Tensorboard | Unix