這是一個開放的方法,工具和逐步指示,可幫助成功培訓大型語言模型和多模式模型及其推斷。
這是適合LLM/VLM培訓工程師和運營商的技術材料。這就是這裡的內容包含許多腳本和復制n-paste命令,使您能夠快速滿足您的需求。
這個倉庫是我持續的大腦轉儲,是我培訓大語言模型(LLM)(和VLMS)的經驗;我在2022年培訓開源Bloom-176b模型和2023年的IDEFICS-80B多模式模型時獲得的許多專有技術,以及2024年的Contextul.ai的RAG模型。
我一直在為自己編譯這些信息,以便我可以很快找到過去已經研究過並有效的解決方案,但是像往常一樣,我很高興與更廣泛的ML社區分享這些筆記。
第1部分。見解
第2部分。硬件
計算- 加速器,CPU,CPU內存。
存儲- 本地,分佈式和共享文件系統。
網絡- 內和節點網絡。
第3部分。編排
第4部分。培訓
第5部分。推斷
第6部分。發展
調試和故障排除- 如何輕鬆且困難的問題調試
還有更多調試
測試- 使考試寫作愉快的許多技巧和工具
第7部分。其他
我在Twitter頻道上宣布任何重大更新https://twitter.com/stasbekman。
下載該書的PDF版本。
我將嘗試每週左右重建一次,但是如果您想要最新的建築說明。
感謝Huggingface允許我在HF樞紐託管我的PDF。
如果您想討論與ML Engineering相關的內容,則此倉庫將提供社區討論 - 因此,請隨時分享您的經驗或開始對您熱衷的事情進行新的討論。
高端加速器:
網絡:
您可能需要快速和經常找到的東西。
工具:
指南:
如果我被委託進行特定的LLM/VLM培訓,我從中學到了最初的專業知識,這是不可能的。由於租用巨大的ML計算集群的高昂昂貴成本,這是一種享受的特權。因此,希望其餘的ML社區能夠從這些筆記中學習。
特別感謝湯姆·沃爾夫(Thom Wolf),他建議當我對大型訓練一無所知時,我會帶領Bloom-176B訓練。這是使我進入激烈學習過程的項目。而且,當然,擁抱面,讓我有機會在Bloom-176B上全職工作,然後在IDEFICS-80B培訓上工作。
最近,我繼續在培訓模型和構建可擴展的培訓/推理系統的同時繼續擴展自己的知識和經驗,我感謝Aman和Douwe的機會。
我還要說,感謝眾多貢獻者使此文本很棒且無錯誤。
如果您發現一個錯誤,錯字或想提出改進,請隨時打開問題或貢獻PR。
該站點的內容分佈在歸因 - 共享4.0國際。
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔機器學習: ML工程開放書| ML方式|移植
✔指南:調試的藝術
✔應用程序: iPyexperiments
✔工具和作弊表: bash |康達| git | Jupyter Notebook |做| python |張板| Unix