Descarga byteps - Descargar el código fuente byteps

byteps

Pitón

v0.2

Descargar

Byteps

BYTEPS es un marco de capacitación distribuido de alto rendimiento y de alto rendimiento. Admite TensorFlow, Keras, Pytorch y MXNet, y puede ejecutarse en la red TCP o RDMA.

BYTEPS supera a los marcos de capacitación distribuidos de origen abierto existentes por un gran margen. Por ejemplo, en el entrenamiento de Bert-Large, los byteps pueden lograr una eficiencia de escala de ~ 90% con 256 GPU (ver más abajo), que es mucho más alto que Horovod+NCCL. En ciertos escenarios, los byteps pueden duplicar la velocidad de entrenamiento en comparación con Horovod+NCCL.

Noticias

Byteps Paper ha sido aceptado en OSDI'20. El código para reproducir la evaluación de extremo a extremo está disponible aquí.
Apoyo a la compresión de gradiente.
V0.2.4
- Se corrigió el problema de compatibilidad con TF2 + Keras independientes
- Agregar soporte para tensorflow.keras
- Mejorar la robustez de la transmisión
V0.2.3
- Agregar módulo DistributedDataparallel para Pytorch
- Solucione el problema del diferente tensor de CPU usando el mismo nombre
- Agregar API skip_synchronize para pytorch
- Agregue la opción para el inicio perezoso/no perezoso
V0.2.0
- Mejore en gran medida el rendimiento de RDMA al hacer cumplir la memoria alineada.
- Agregue soporte de IPC para RDMA. Ahora apoya a los servidores y trabajadores de colocación sin sacrificar mucho rendimiento.
- Se corrige un error colgante en el servidor Byteps.
- SEGURO El problema de la falla de segmentación relacionada con RDMA durante la bifurcación () (por ejemplo, utilizado por el cargador de datos de Pytorch).
- Nueva característica: permitir el uso de la mezcla de servidores Colocates y no cólicos, junto con una estrategia de asignación de tensor inteligente.
- Nueva característica: Agregue bpslaunch como comando para iniciar tareas.
- Agregar soporte para PIP Instalar: pip3 install byteps

Actuación

Mostramos nuestro experimento en el entrenamiento de Bert-Large, que se basa en Gluonnlp Toolkit. El modelo utiliza precisión mixta.

Utilizamos Tesla V100 32GB GPU y establecemos el tamaño de lotes igual a 64 por GPU. Cada máquina tiene 8 GPU V100 (memoria de 32 GB) con NVLink habilitado. Las máquinas están interconectadas con una red RDMA de 100 Gbps. Esta es la misma configuración de hardware que puede obtener en AWS.

BYTEPS logra ~ 90% de eficiencia de escala para Bert-Large con 256 GPU. El código está disponible aquí. Como comparación, Horovod+NCCL tiene solo ~ 70% de eficiencia de escala incluso después de un sintonización de parámetros expertos.

Bernemacia

Con una red más lenta, BYTEPS ofrece aún más ventajas de rendimiento: hasta 2 veces más de Horovod+NCCL. Puede encontrar más resultados de evaluación en el rendimiento.md.

Adiós MPI, hola nube

¿Cómo pueden los byteps superar a Horovod por tanto? Una de las principales razones es que ByTEPS está diseñado para clústeres de nubes y compartidos, y tira MPI.

MPI nació en el mundo de HPC y es bueno para un clúster construido con hardware homogéneo y para ejecutar un solo trabajo. Sin embargo, la nube (o grupos compartidos internos) es diferente.

Esto nos lleva a repensar la mejor estrategia de comunicación, como se explica aquí. En resumen, BYTEPS solo usa NCCL dentro de una máquina, mientras que vuelve a implementar la comunicación entre máquinas.

BYTEPS también incorpora muchas técnicas de aceleración, como estrategia jerárquica, canalización, partición tensorial, comunicación local con conocimiento, programación basada en prioridades, etc.

Comienzo rápido

Proporcionamos un tutorial paso a paso para que ejecute tareas de capacitación de referencia. La forma más sencilla de comenzar es usar nuestras imágenes Docker. Consulte documentos sobre cómo lanzar trabajos distribuidos y configuraciones más detalladas. Después de que pueda iniciar byteps, lea las mejores prácticas para obtener el mejor rendimiento.

A continuación, explicamos cómo instalar byteps usted mismo. Hay dos opciones.

Instalar por PIP

 pip3 install byteps

Construir desde el código fuente

Puede probar las últimas funciones instalando directamente desde Master Branch:

 git clone --recursive https://github.com/bytedance/byteps
cd byteps
python3 setup.py install

Notas para las dos opciones anteriores:

BYTEPS supone que ya ha instalado uno o más de los siguientes marcos: TensorFlow / Pytorch / MXNet.
Byteps depende de CUDA y NCCL. Debe especificar la ruta NCCL con export BYTEPS_NCCL_HOME=/path/to/nccl . Por defecto, apunta a /usr/local/nccl .
La instalación requiere GCC> = 4.9. Si está trabajando en CentOS/Redhat y tiene GCC <4.9, puede probar yum install devtoolset-7 antes de todo lo demás. En general, recomendamos usar GCC 4.9 para la mejor compatibilidad (cómo fijar el GCC).
Soporte de RDMA: durante la configuración, el script detectará automáticamente el archivo de encabezado RDMA. Si desea usar RDMA, asegúrese de que su entorno RDMA haya sido instalado y probado correctamente antes de instalar (instalar en Ubuntu-18.04).

Ejemplos

Se proporcionan ejemplos básicos en la carpeta de ejemplo.

Para reproducir la evaluación de extremo a extremo en nuestro artículo OSDI'20, encuentre el código en este repositorio.

Use byteps en su código

Aunque es totalmente diferente en su núcleo, Byteps es altamente compatible con las interfaces de Horovod (¡gracias, Comunidad Horovod!). Elegimos interfaces Horovod para minimizar sus esfuerzos para probar byteps.

Si sus tareas solo se basan en la Allreduce y la transmisión de Horovod, debería poder cambiar a byteps en 1 minuto. Simplemente reemplace import horovod.tensorflow as hvd por import byteps.tensorflow as bps , y luego reemplace todo hvd en su código por bps . Si su código invoca hvd.allreduce directamente, también debe reemplazarlo por bps.push_pull .

Muchos de nuestros ejemplos fueron copiados de Horovod y modificados de esta manera. Por ejemplo, compare el ejemplo MNIST para Byteps y Horovod.

BYTEPS también es compatible con otras API nativas, por ejemplo, datos distribuidos de Pytorch paralelos y estrategia reflejada con flujo tensor. Ver DistributedDataparallel.md y MirroredStrategy.md para su uso.

Limitaciones y planes futuros

BYTEPS no es compatible con la capacitación pura de CPU por ahora. Una razón es que la suposición de PS barata de byteps no se mantiene para el entrenamiento de CPU. En consecuencia, necesita CUDA y NCCL para construir y ejecutar byteps.

Nos gustaría tener a continuación características, y no hay dificultad fundamental para implementarlas en la arquitectura de Byteps. Sin embargo, aún no se implementan:

Entrenamiento modelo escaso
Tolerancia a fallas
Mitigación de rezagada

Publicaciones

[OSDI'20] "Una arquitectura unificada para acelerar el entrenamiento DNN distribuido en grupos de GPU/CPU heterogéneos". Yimin Jiang, Yibo Zhu, Chang Lan, Bairen YI, Yong Cui, Chuanxiong Guo.
[Sosp'19] "Un programador de comunicación genérico para la aceleración de capacitación DNN distribuida". Yanghua Peng, Yibo Zhu, Yangrui Chen, Yixin Bao, Bairen YI, Chang Lan, Chuan Wu, Chuanxiong Guo. (El código está en la rama de Bytescheduler)

Expandir

Información adicional

Versión v0.2
Tipo Pitón
Fecha de actualización 2025-07-13
tamaño 377.88KB
Proviene de Github

Aplicaciones relacionadas

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Herramienta de gráficos de datos de código abierto Redash v24.10.0

2024-11-27
datamule python

2024-11-08
plataforma de visualización de datos smartchart v6.9

2024-11-27
Herramienta de prueba de carga de langosta v2.32.0

2024-11-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
datamule python

Pitón
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo