Descarga ml engineering - Descarga del código fuente ml engineering

ml engineering

Otro código fuente

1.0.0

Descargar

Ingeniería de aprendizaje automático Libro abierto

Esta es una colección abierta de metodologías, herramientas e instrucciones paso a paso para ayudar con la capacitación exitosa de modelos de idiomas grandes y modelos multimodales y su inferencia.

Este es un material técnico adecuado para ingenieros y operadores de capacitación LLM/VLM. Ese es el contenido aquí contiene muchos scripts y comandos Copy-N-Paste para permitirle abordar rápidamente sus necesidades.

Este repositorio es un vertedero de cerebro continuo de mis experiencias capacitando modelos de idiomas grandes (LLM) (y VLM); Gran parte del conocimiento que adquirí mientras entrenaba el modelo Bloom-176B de código abierto en 2022 e IDEFICS-80B Multi-modal en 2023, y modelos RAG en contextual.Ai en 2024.

He estado compilando esta información principalmente para mí para poder encontrar rápidamente soluciones que ya he investigado en el pasado y que he funcionado, pero como siempre me complace compartir estas notas con la comunidad más amplia de ML.

Tabla de contenido

Parte 1. Insights

La IA Battlefield Engineering : lo que necesitas saber para tener éxito

Parte 2. Hardware

Calcule : aceleradores, CPU, memoria de CPU.
Almacenamiento : sistemas de archivos locales, distribuidos y compartidos.
Red : redes intra e inter-nodo.

Parte 3. Orquestación

Slurm : el principal entorno de orquestación

Parte 4. Entrenamiento

Entrenamiento - Modelo de guías relacionadas con el entrenamiento

Parte 5. Inferencia

Inferencia - Insights de inferencia del modelo

Parte 6. Desarrollo

Depuración y solución de problemas : cómo depurar problemas fáciles y difíciles
Y más depuración
Prueba : numerosos consejos y herramientas para hacer que la redacción de pruebas sea agradable

Parte 7. Variscelán

Recursos - LLM/VLM Crónicas

Actualizaciones

Anuncio cualquier actualización significativa en mi canal de Twitter https://twitter.com/stasbekman.

Versión pdf

Descargue la versión PDF del libro.

Intentaré reconstruirlo una vez por semana, pero si desea lo último, las instrucciones para la construcción están aquí.

Gracias a Huggingface por darme permiso para alojar el PDF de mi libro en el HF Hub.

Discusiones

Si desea discutir algo relacionado con la ingeniería de ML, este repositorio tiene las discusiones comunitarias disponibles, así que no dude en compartir su experiencia o comenzar una nueva discusión sobre algo que le apasiona.

Tablas de comparación de claves

Aceleradores de alta gama:

Acelerador teórico Tflops
Tamaño y velocidad de la memoria del acelerador

Redes:

Velocidad teórica entre nodo
Velocidad teórica intra-nodo

Atajos

Cosas que es probable que necesite encontrar rápida y con frecuencia.

Herramientas:

all_reduce_bench.py: una forma mucho más fácil de comparar el rendimiento de la red que las pruebas NCCL.
Torch-Distributed-GPU-Test.py: una herramienta para probar rápidamente su conectividad entre nodo

Guías:

Depuración de aplicaciones Pytorch: soluciones rápidas de copia-n-paste para resolver aplicaciones de colgación o rompiendo pytorch
Slurm para los usuarios: una hoja de trucos y trucos de Slurm
hacer pequeños modelos/conjuntos de datos/tokenizadores
Colección LLM/VLM Chronicles

Gratitud

Nada de esto hubiera sido posible sin que me confiaran por hacer los entrenamientos específicos de LLM/VLM de los que he aprendido los conocimientos iniciales. Este es un privilegio que solo unos pocos disfrutan debido al costo prohibitivamente costoso de alquilar enormes grupos de cómputo de ML. Esperemos que el resto de la comunidad de ML aprenda indirectamente de estas notas.

Un agradecimiento especial a Thom Wolf, quien propuso que dirigiera el entrenamiento Bloom-176B cuando no sabía nada sobre el entrenamiento a gran escala. Este fue el proyecto que me catapultó al intenso proceso de aprendizaje. Y, por supuesto, Huggingface por darme la oportunidad de trabajar a tiempo completo en Bloom-176b y luego en los entrenamientos IDEFICS-80B.

Recientemente, continué ampliando mi conocimiento y experiencia mientras capacitan modelos y construyen sistemas de capacitación/inferencia escalables en contextual.ai y estoy agradecido por esa oportunidad para Aman y Douwe.

También me gustaría agradecer a los numerosos contribuyentes que han estado haciendo que este texto sea increíble y sin errores.

Que contribuye

Si encontró un error, error tipográfico o desea proponer una mejora, no dude en abrir un problema o contribuir con un PR.

Licencia

El contenido de este sitio se distribuye bajo atribución-sharealike 4.0 International.

Citación

 @misc { bekman2024mlengineering ,
  author = { Bekman, Stas } ,
  title = { Machine Learning Engineering Open Book } ,
  year = { 2023-2024 } ,
  publisher = { Stasosphere Online Inc. } ,
  journal = { GitHub repository } ,
  url = { https://github.com/stas00/ml-engineering }
}