ml engineering Download - ml engineering Source Code Download

ml engineering

Autre code source

1.0.0

Télécharger

Machine Learning Engineering Open Book

Il s'agit d'une collection ouverte de méthodologies, d'outils et d'instructions étape par étape pour aider à une formation réussie de modèles de grandes langues et de modèles multimodaux et de leur inférence.

Il s'agit d'un matériau technique adapté aux ingénieurs et opérateurs de formation LLM / VLM. C'est le contenu ici contient de nombreux scripts et des commandes Copy-n-P-casst pour vous permettre de répondre rapidement à vos besoins.

Ce repo est un dépotage cérébral continu de mes expériences qui forment des modèles de grands langues (LLM) (et VLM); Une grande partie du savoir-faire que j'ai acquise lors de la formation du modèle Open source Bloom-176B en 2022 et du modèle multimodal IdeFics-80B en 2023, et des modèles de chiffon sur Contextual.ai en 2024.

J'ai compilé ces informations surtout pour moi-même afin que je puisse rapidement trouver des solutions que j'ai déjà recherchées dans le passé et qui ont fonctionné, mais comme d'habitude, je suis heureux de partager ces notes avec la communauté ML plus large.

Table des matières

Partie 1. Informations

L'ingénierie AI Battlefield - ce que vous devez savoir pour réussir

Partie 2. Matériel

Calcul - Accélérateurs, CPU, mémoire CPU.
Stockage - Systèmes de fichiers locaux, distribués et partagés.
Réseau - Réseautage intra et inter-nœud.

Partie 3. Orchestration

Slurm - l'environnement d'orchestration principale

Partie 4. Formation

Formation - Guides liés à la formation modèle

Partie 5. Inférence

Inférence - modèle d'inférence

Partie 6. Développement

Débogage et dépannage - Comment déboguer les questions faciles et difficiles
Et plus de débogage
Test - de nombreux conseils et outils pour rendre la rédaction de test agréable

Partie 7. Divers

Ressources - LLM / VLM Chronicles

Mises à jour

J'annonce toutes les mises à jour importantes sur ma chaîne Twitter https://twitter.com/stasbekman.

Version pdf

Téléchargez la version PDF du livre.

J'essaierai de le reconstruire une fois par semaine environ, mais si vous voulez les derniers, les instructions de construction sont là.

Merci à HuggingFace de m'avoir donné la permission d'héberger le PDF de mon livre au HF Hub.

Discussions

Si vous souhaitez discuter de quelque chose lié à ML Engineering, ce dépôt a les discussions communautaires disponibles - alors n'hésitez pas à partager votre expérience ou à commencer une nouvelle discussion sur quelque chose qui vous passionne.

Tables de comparaison de clés

Accélérateurs haut de gamme:

Accélérateur théorique tflops
Taille et vitesse de la mémoire de l'accélérateur

Réseaux:

Vitesse inter-nœud théorique
Vitesse intra-node théorique

Raccourcis

Des choses que vous aurez probablement besoin de trouver rapidement et souvent.

Outils:

all_reduce_bench.py - un moyen beaucoup plus facile de bencher le débit du réseau que les tests NCCL.
Torch-diffusée-gpu-test.py - un outil pour tester rapidement votre connectivité inter-nœud

Guides:

Débogage des applications Pytorch - Solutions rapides de copie-coche pour résoudre les applications de suspension ou de rupture
Slurm pour les utilisateurs - une feuille de triche et des astuces Slurm
Faire de minuscules modèles / ensembles de données / tokennisers
Collection LLM / VLM Chronicles

Gratitude

Rien de tout cela n'aurait été possible sans que je n'aie été chargé de faire les formations spécifiques de LLM / VLM dont j'ai appris le savoir-faire initial. C'est un privilège dont seuls quelques-uns apprécient en raison du coût prohibitif de la location d'énormes grappes de calcul ML. J'espère donc que le reste de la communauté ML apprendra par procuration de ces notes.

Un merci spécial à Thom Wolf qui a proposé de ramener la formation Bloom-176B alors que je ne savais rien de l'entraînement à grande échelle. C'était le projet qui m'a catapulté dans le processus d'apprentissage intense. Et, bien sûr, en étreignant pour m'avoir donné l'occasion de travailler à plein temps sur Bloom-176B et plus tard dans les formations IDEFICS-80B.

Récemment, j'ai continué à élargir mes connaissances et mon expérience tout en formant des modèles et en construisant des systèmes de formation / inférence évolutifs chez Contextual.ai et je suis reconnaissant à cette opportunité à Aman et Douwe.

Je voudrais également remercier les nombreux contributeurs qui ont rendu ce texte génial et sans erreur.

Contributif

Si vous avez trouvé un bogue, la faute de frappe ou souhaitez proposer une amélioration, n'hésitez pas à ouvrir un problème ou à contribuer un RP.

Licence

Le contenu de ce site est distribué sous Attribution-Sharealike 4.0 International.

Citation

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}