ml engineering Download - ml engineering Source Code Скачать

ml engineering

Другой исходный код

1.0.0

Скачать

Инженерная книга машиностроения машинного обучения

Это открытая коллекция методологий, инструментов и пошаговых инструкций, чтобы помочь с успешной подготовкой крупных языковых моделей и мультимодальных моделей и их вывода.

Это технический материал, подходящий для инженеров и операторов LLM/VLM. Это контент здесь содержит множество сценариев и команд копирования-N-Paste, которые позволяют быстро удовлетворить ваши потребности.

Это репо является постоянной свалкой мозга моего опыта, тренируя большие языковые модели (LLM) (и VLMS); Многое из ноу-хау, которые я приобрел при обучении модели Bloom-176B с открытым исходным кодом в 2022 году и IDEFICS-80B Multi-Modal Model в 2023 году и модели RAG на Contextual.ai в 2024 году.

Я собирал эту информацию в основном для себя, чтобы быстро найти решения, которые я уже исследовал в прошлом и которые работали, но, как обычно, я рад поделиться этими заметками с более широким сообществом ML.

Отладка и устранение неполадок - как отлаживать простые и сложные проблемы
И больше отладки
Тестирование - Многочисленные советы и инструменты, чтобы сделать тестовое написание приятным

Часть 7. Разное

Ресурсы - LLM/VLM Chronicles

Обновления

Я объявляю о любых существенных обновлениях на моем канале Twitter https://twitter.com/stasbekman.

PDF -версия

Загрузите PDF -версию книги.

Я постараюсь восстановить его раз в неделю или около того, но если вы хотите последних, инструкции для строительства здесь.

Спасибо Huggingface за разрешение на размещение PDF моей книги в HF Hub.

Обсуждения

Если вы хотите обсудить что -то, что связано с ML Engineering, в этом репо имеются обсуждения сообщества - поэтому, пожалуйста, не стесняйтесь поделиться своим опытом или начать новую дискуссию о чем -то, чем вы увлечены.

Ключевые таблицы

Высокие акселераторы:

Теоретический ускоритель TFLOPS
Ускоритель размер памяти и скорость

Сети:

Теоретическая скорость между узлами
Теоретическая внутризметовая скорость

Ярлыки

Вещи, которые вам, вероятно, понадобятся, чтобы найти быстро и часто.

Инструменты:

all_reduce_bench.py - гораздо более простой способ сравнительной пропускной способности сети, чем NCCL -тесты.
Факел-распределенный-gpu-test.py-инструмент для быстрого тестирования соединения между узлами

Руководства:

Отладка приложений Pytorch-быстрое копирование-N-Paste Solutions для разрешения подвешивания или нарушения приложений Pytorch
Slurm для пользователей - лист чита и трюки Slurm и трюки
Сделайте крошечные модели/наборы данных/токенизаторы
Коллекция LLM/VLM Chronicles

Благодарность

Ничто из этого не было бы возможно, если бы мне не было поручено выполнять конкретные тренинги LLM/VLM, из которых я изучил первоначальные ноу-хау. Это привилегия, что лишь немногие пользуются из -за чрезмерно дорогих затрат на аренду огромных вычислительных кластеров ML. Так что, надеюсь, остальная часть сообщества ML будет заместить в этих заметках.

Особая благодарность Тому Вольфу, который предложил провести тренировки Bloom-176b, когда я ничего не знал о крупномасштабных тренировках. Это был проект, который катапультировал меня в интенсивный процесс обучения. И, конечно же, Huggingface за то, что он дал мне возможность работать полный рабочий день на Bloom-176B, а затем на тренингах IDEFICS-80B.

Недавно я продолжал расширять свои знания и опыт, когда обучают модели и создавая масштабируемые системы обучения/вывода в контексте.

Я также хотел бы сказать благодаря многочисленным участникам, которые делали этот текст потрясающим и без ошибок.

Внося

Если вы нашли ошибку, опечатку или хотели бы предложить улучшение, не стесняйтесь открыть проблему или внести свой пиар.

Лицензия

Содержание этого сайта распространяется в соответствии с Attribution-Sharealike 4.0 International.

Цитирование

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}