Это открытая коллекция методологий, инструментов и пошаговых инструкций, чтобы помочь с успешной подготовкой крупных языковых моделей и мультимодальных моделей и их вывода.
Это технический материал, подходящий для инженеров и операторов LLM/VLM. Это контент здесь содержит множество сценариев и команд копирования-N-Paste, которые позволяют быстро удовлетворить ваши потребности.
Это репо является постоянной свалкой мозга моего опыта, тренируя большие языковые модели (LLM) (и VLMS); Многое из ноу-хау, которые я приобрел при обучении модели Bloom-176B с открытым исходным кодом в 2022 году и IDEFICS-80B Multi-Modal Model в 2023 году и модели RAG на Contextual.ai в 2024 году.
Я собирал эту информацию в основном для себя, чтобы быстро найти решения, которые я уже исследовал в прошлом и которые работали, но, как обычно, я рад поделиться этими заметками с более широким сообществом ML.
Часть 1. Понимание
Часть 2. Аппаратное обеспечение
Вычислить - ускорители, процессоры, память процессора.
Хранение - локальные, распределенные и общие файловые системы.
Сеть- сеть внутри и между узлами.
Часть 3. Оркестровка
Часть 4. Обучение
Часть 5. Вывод
Часть 6. Разработка
Отладка и устранение неполадок - как отлаживать простые и сложные проблемы
И больше отладки
Тестирование - Многочисленные советы и инструменты, чтобы сделать тестовое написание приятным
Часть 7. Разное
Я объявляю о любых существенных обновлениях на моем канале Twitter https://twitter.com/stasbekman.
Загрузите PDF -версию книги.
Я постараюсь восстановить его раз в неделю или около того, но если вы хотите последних, инструкции для строительства здесь.
Спасибо Huggingface за разрешение на размещение PDF моей книги в HF Hub.
Если вы хотите обсудить что -то, что связано с ML Engineering, в этом репо имеются обсуждения сообщества - поэтому, пожалуйста, не стесняйтесь поделиться своим опытом или начать новую дискуссию о чем -то, чем вы увлечены.
Высокие акселераторы:
Сети:
Вещи, которые вам, вероятно, понадобятся, чтобы найти быстро и часто.
Инструменты:
Руководства:
Ничто из этого не было бы возможно, если бы мне не было поручено выполнять конкретные тренинги LLM/VLM, из которых я изучил первоначальные ноу-хау. Это привилегия, что лишь немногие пользуются из -за чрезмерно дорогих затрат на аренду огромных вычислительных кластеров ML. Так что, надеюсь, остальная часть сообщества ML будет заместить в этих заметках.
Особая благодарность Тому Вольфу, который предложил провести тренировки Bloom-176b, когда я ничего не знал о крупномасштабных тренировках. Это был проект, который катапультировал меня в интенсивный процесс обучения. И, конечно же, Huggingface за то, что он дал мне возможность работать полный рабочий день на Bloom-176B, а затем на тренингах IDEFICS-80B.
Недавно я продолжал расширять свои знания и опыт, когда обучают модели и создавая масштабируемые системы обучения/вывода в контексте.
Я также хотел бы сказать благодаря многочисленным участникам, которые делали этот текст потрясающим и без ошибок.
Если вы нашли ошибку, опечатку или хотели бы предложить улучшение, не стесняйтесь открыть проблему или внести свой пиар.
Содержание этого сайта распространяется в соответствии с Attribution-Sharealike 4.0 International.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ Машинное обучение: ML Engineering Open Book | Ml Путевые пути | Портирование
✔ Руководства: искусство отладки
✔ Приложения: ipieExperiments
✔ Инструменты и чит -листы: Bash | Conda | git | Юпитер-нотебук | сделать | Питон | Tensorboard | Unix