这是一个开放的方法,工具和逐步指示,可帮助成功培训大型语言模型和多模式模型及其推断。
这是适合LLM/VLM培训工程师和运营商的技术材料。这就是这里的内容包含许多脚本和复制n-paste命令,使您能够快速满足您的需求。
这个仓库是我持续的大脑转储,是我培训大语言模型(LLM)(和VLMS)的经验;我在2022年培训开源Bloom-176b模型和2023年的IDEFICS-80B多模式模型时获得的许多专有技术,以及2024年的Contextul.ai的RAG模型。
我一直在为自己编译这些信息,以便我可以很快找到过去已经研究过并有效的解决方案,但是像往常一样,我很高兴与更广泛的ML社区分享这些笔记。
第1部分。见解
第2部分。硬件
计算- 加速器,CPU,CPU内存。
存储- 本地,分布式和共享文件系统。
网络- 内和节点网络。
第3部分。编排
第4部分。培训
第5部分。推断
第6部分。发展
调试和故障排除- 如何轻松且困难的问题调试
还有更多调试
测试- 使考试写作愉快的许多技巧和工具
第7部分。其他
我在Twitter频道上宣布任何重大更新https://twitter.com/stasbekman。
下载该书的PDF版本。
我将尝试每周左右重建一次,但是如果您想要最新的建筑说明。
感谢Huggingface允许我在HF枢纽托管我的PDF。
如果您想讨论与ML Engineering相关的内容,则此仓库将提供社区讨论 - 因此,请随时分享您的经验或开始对您热衷的事情进行新的讨论。
高端加速器:
网络:
您可能需要快速和经常找到的东西。
工具:
指南:
如果我被委托进行特定的LLM/VLM培训,我从中学到了最初的专业知识,这是不可能的。由于租用巨大的ML计算集群的高昂昂贵成本,这是一种享受的特权。因此,希望其余的ML社区能够从这些笔记中学习。
特别感谢汤姆·沃尔夫(Thom Wolf),他建议当我对大型训练一无所知时,我会带领Bloom-176B训练。这是使我进入激烈学习过程的项目。而且,当然,拥抱面,让我有机会在Bloom-176B上全职工作,然后在IDEFICS-80B培训上工作。
最近,我继续在培训模型和构建可扩展的培训/推理系统的同时继续扩展自己的知识和经验,我感谢Aman和Douwe的机会。
我还要说,感谢众多贡献者使此文本很棒且无错误。
如果您发现一个错误,错字或想提出改进,请随时打开问题或贡献PR。
该站点的内容分布在归因 - 共享4.0国际。
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔机器学习: ML工程开放书| ML方式|移植
✔指南:调试的艺术
✔应用程序: iPyexperiments
✔工具和作弊表: bash |康达| git | Jupyter Notebook |做| python |张板| Unix