이것은 대형 언어 모델 및 다 모달 모델 및 추론의 성공적인 교육을 돕기 위해 방법론, 도구 및 단계별 지침의 개방형 모음입니다.
이것은 LLM/VLM 교육 엔지니어 및 운영자에게 적합한 기술 자료입니다. 즉, 여기에 컨텐츠에는 많은 스크립트와 Copy-N-Paste 명령이 포함되어있어 요구 사항을 신속하게 해결할 수 있습니다.
이 repo는 LLM (Lange Language Models) (및 VLM)을 훈련시키는 경험의 지속적인 뇌 덤프입니다. 2022 년에 오픈 소스 블룸 -176B 모델과 2023 년의 Idefics-80B 멀티 모달 모델을 훈련하는 동안 내가 획득 한 많은 노하우와 2024 년 Contextual.ai의 Rag 모델.
나는이 정보를 대부분 직접 컴파일하여 과거에 이미 조사한 솔루션을 신속하게 찾을 수 있었지만 평소와 같이이 노트를 더 넓은 ML 커뮤니티와 공유하게되어 기쁩니다.
1 부. 통찰력
2 부. 하드웨어
컴퓨팅 - 가속기, CPU, CPU 메모리.
스토리지 - 로컬, 배포 및 공유 파일 시스템.
네트워크 - 내부 및 노드 간 네트워킹.
3 부. 오케스트레이션
4 부. 훈련
5 부. 추론
6 부. 개발
디버깅 및 문제 해결 - 쉽고 어려운 문제를 디버깅하는 방법
그리고 더 많은 디버깅
테스트 - 테스트 작성을 즐겁게 만들기위한 수많은 팁과 도구
7 부. 기타
트위터 채널 https://twitter.com/stasbekman에 대한 중요한 업데이트를 발표했습니다.
책의 PDF 버전을 다운로드하십시오.
일주일에 한 번 더 재건하려고 노력할 것입니다. 그러나 최신을 원한다면 건축 지침이 여기에 있습니다.
HF 허브에서 책의 PDF를 주최 할 수있는 허가를 주신 Huggingface 덕분입니다.
ML 엔지니어링과 관련된 내용에 대해 논의하려면이 리포지토리에는 커뮤니티 토론이 가능합니다. 따라서 주저하지 말고 경험을 공유하거나 열정에 대한 새로운 토론을 시작하십시오.
고급 가속기 :
네트워크 :
빠르고 자주 찾아야 할 것들.
도구 :
가이드 :
이 중 어느 것도 내가 초기 노하우를 배운 특정 LLM/VLM 교육을 맡고 있지 않으면 불가능했을 것입니다. 이것은 거대한 ML 컴퓨팅 클러스터를 임대하는 엄청나게 비싼 비용으로 인해 몇 명만 즐기는 특권입니다. 따라서 나머지 ML 커뮤니티 가이 노트들로부터 대리를 배울 수 있기를 바랍니다.
대규모 훈련에 대해 아무것도 몰랐을 때 Bloom-176B 교육을 되돌아 보라고 제안한 Thom Wolf에게 특별한 감사를드립니다. 이것은 나를 강렬한 학습 과정으로 만들어 낸 프로젝트였습니다. 물론, Bloom-176B에서 풀 타임으로 일할 수있는 기회를주고 나중에 IDEFICS-80B 교육을받을 수있는 기회를주었습니다.
최근에 나는 Contextual.ai에서 모델을 훈련시키고 확장 가능한 교육/추론 시스템을 구축하면서 지식과 경험을 계속 확대했으며 Aman과 Douwe에게 그 기회에 감사드립니다.
또한이 텍스트를 훌륭하고 오류가없는 수많은 기고자들에게 감사를 드리고 싶습니다.
버그를 찾은 경우, 오타 또는 개선을 제안하고 싶다면 주저하지 말고 문제를 열거 나 홍보를 기부하십시오.
이 사이트의 내용은 Attribution-Sharealike 4.0 International에 따라 배포됩니다.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ 머신 러닝 : ML 엔지니어링 오픈 북 | ML Ways | 포팅
✔ 가이드 : 디버깅 기술
✔ 응용 프로그램 : ipyexperiments
✔ 도구 및 치트 시트 : 배쉬 | 콘다 | git | Jupyter-Notebook | 만들기 | 파이썬 | 텐서 보드 | 유닉스