Esta es una colección abierta de metodologías, herramientas e instrucciones paso a paso para ayudar con la capacitación exitosa de modelos de idiomas grandes y modelos multimodales y su inferencia.
Este es un material técnico adecuado para ingenieros y operadores de capacitación LLM/VLM. Ese es el contenido aquí contiene muchos scripts y comandos Copy-N-Paste para permitirle abordar rápidamente sus necesidades.
Este repositorio es un vertedero de cerebro continuo de mis experiencias capacitando modelos de idiomas grandes (LLM) (y VLM); Gran parte del conocimiento que adquirí mientras entrenaba el modelo Bloom-176B de código abierto en 2022 e IDEFICS-80B Multi-modal en 2023, y modelos RAG en contextual.Ai en 2024.
He estado compilando esta información principalmente para mí para poder encontrar rápidamente soluciones que ya he investigado en el pasado y que he funcionado, pero como siempre me complace compartir estas notas con la comunidad más amplia de ML.
Parte 1. Insights
Parte 2. Hardware
Calcule : aceleradores, CPU, memoria de CPU.
Almacenamiento : sistemas de archivos locales, distribuidos y compartidos.
Red : redes intra e inter-nodo.
Parte 3. Orquestación
Parte 4. Entrenamiento
Parte 5. Inferencia
Parte 6. Desarrollo
Depuración y solución de problemas : cómo depurar problemas fáciles y difíciles
Y más depuración
Prueba : numerosos consejos y herramientas para hacer que la redacción de pruebas sea agradable
Parte 7. Variscelán
Anuncio cualquier actualización significativa en mi canal de Twitter https://twitter.com/stasbekman.
Descargue la versión PDF del libro.
Intentaré reconstruirlo una vez por semana, pero si desea lo último, las instrucciones para la construcción están aquí.
Gracias a Huggingface por darme permiso para alojar el PDF de mi libro en el HF Hub.
Si desea discutir algo relacionado con la ingeniería de ML, este repositorio tiene las discusiones comunitarias disponibles, así que no dude en compartir su experiencia o comenzar una nueva discusión sobre algo que le apasiona.
Aceleradores de alta gama:
Redes:
Cosas que es probable que necesite encontrar rápida y con frecuencia.
Herramientas:
Guías:
Nada de esto hubiera sido posible sin que me confiaran por hacer los entrenamientos específicos de LLM/VLM de los que he aprendido los conocimientos iniciales. Este es un privilegio que solo unos pocos disfrutan debido al costo prohibitivamente costoso de alquilar enormes grupos de cómputo de ML. Esperemos que el resto de la comunidad de ML aprenda indirectamente de estas notas.
Un agradecimiento especial a Thom Wolf, quien propuso que dirigiera el entrenamiento Bloom-176B cuando no sabía nada sobre el entrenamiento a gran escala. Este fue el proyecto que me catapultó al intenso proceso de aprendizaje. Y, por supuesto, Huggingface por darme la oportunidad de trabajar a tiempo completo en Bloom-176b y luego en los entrenamientos IDEFICS-80B.
Recientemente, continué ampliando mi conocimiento y experiencia mientras capacitan modelos y construyen sistemas de capacitación/inferencia escalables en contextual.ai y estoy agradecido por esa oportunidad para Aman y Douwe.
También me gustaría agradecer a los numerosos contribuyentes que han estado haciendo que este texto sea increíble y sin errores.
Si encontró un error, error tipográfico o desea proponer una mejora, no dude en abrir un problema o contribuir con un PR.
El contenido de este sitio se distribuye bajo atribución-sharealike 4.0 International.
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ Aprendizaje automático: ML Ingeniería Abierta Libro | Ml formas | Porte
✔ Guías: el arte de la depuración
✔ Aplicaciones: ipyExperiments
✔ Herramientas y hojas de trucos: Bash | condena | git | Jupyter-Notebook | hacer | Python | Tensorboard | desastre