bagua 다운로드 - bagua 소스 코드 다운로드

bagua

파이썬

v0.9.2

다운로드

경고 :이 프로젝트는 회사 재구성으로 인해 현재 유지되지 않습니다.

Bagua는 AI Platform@Kuaishou Technology 및 DS3 Lab@Eth Zürich가 개발 한 Pytorch의 딥 러닝 교육 가속 프레임 워크입니다. Bagua는 현재 다음을 지원합니다.

고급 분산 교육 알고리즘 : 사용자는 단일 GPU에 대한 교육을 몇 줄의 코드 (선택적으로 탄성 모드)를 추가하여 단일 GPU에 대한 다중 GPU (여러 기계에서)로 확장 할 수 있습니다. 바구아의 두드러진 특징 중 하나는 분산 교육의 최첨단 시스템 이완 기술을 지원하는 유연한 시스템 추상화를 제공하는 것입니다. 지금까지 바구아는 통합 된 통신 프리미티브를 포함하고 있습니다
- 중앙 집중식 동기 통신 (예 : 그라디언트 AllReduce)
- 분산 동기 통신 (예 : 분산 된 SGD)
- 저 정밀 커뮤니케이션 (예 : 바이트 그레이드)
- 비동기 통신 (예 : 비동기 모델 평균)
캐시 된 데이터 세트 : 데이터로드가 느리거나 데이터 전처리가 지루한 경우 전체 교육 프로세스의 주요 병목 현상이 될 수 있습니다. Bagua는 캐시 된 데이터 세트를 제공하여 메모리의 데이터 샘플을 캐싱 하여이 프로세스를 속도를 높이므로 처음 후에이 샘플을 읽는 것이 훨씬 빨라집니다.
TCP 통신 가속도 (Bagua-Net) : Bagua-Net은 Bagua가 제공하는 저수준 통신 가속 기능입니다. TCP 네트워크에서 AllReduce의 처리량을 크게 향상시킬 수 있습니다. NCCL을 사용하여 GPU 통신을 수행하는 분산 교육 작업에서 Bagua-Net 최적화를 가능하게 할 수 있습니다 (Pytorch-DDP, Horovod, DeepSpeed 등).
Performance Autotuning : Bagua는 시스템 매개 변수를 자동으로 조정하여 최고 처리량을 달성 할 수 있습니다.
Generic Fused Optimizer : Bagua는 여러 레이어에서 Optimizer .step() 작업을 융합하여 Optimizers의 성능을 향상시키는 일반 융합 옵티마이저를 제공합니다. 일부 특정 최적화제 만 구현되는 NVIDIA Apex의 접근 방식과 달리 임의의 Pytorch Optimizer에 적용될 수 있습니다.
로드 밸런스 데이터 로더 : 교육 데이터에서 샘플의 계산 복잡성 (예 : NLP 및 음성 작업)이 다르면 각 샘플이 다른 길이를 갖는 경우, 분산 교육 처리량을 바구아의로드 밸런스 데이터 로더를 사용하여 각 작업자의 작업자의 작업량을 유사하게 배포함으로써 분산 교육 처리량을 크게 향상시킬 수 있습니다.
Pytorch Lightning과 통합 : 분산 교육 작업에 Pytorch Lightning을 사용하고 있습니까? 이제 트레이너에서 strategy=BaguaStrategy 설정하여 Pytorch Lightning에서 Bagua를 사용할 수 있습니다. 이를 통해 분산 된 방법, 비동기 방법, 통신 압축 및 조합을 포함한 다양한 고급 교육 알고리즘을 활용할 수 있습니다!

그 효과는 Imagenet의 VGG 및 RESNET, Bert Largin 및 Kuaishou의 많은 산업 응용 프로그램을 포함한 다양한 시나리오에서 평가되었습니다.

모래밭

바구아 메인 git repo
바구아 튜토리얼
바구아 예
바구아 API 문서

성능

다른 네트워크 대역폭에서 128 GPU와 VGG16에서 다양한 시스템 및 알고리즘의 성능.

다른 시스템에 대한 다른 네트워크 조건에서 Bert-Large Finetune의 Epoch 시간.

보다 포괄적이고 최신 결과는 Bagua 벤치 마크 페이지를 참조하십시오.

설치

Linux (x86_64)에는 휠 (사전 컴파일 된 이진 패키지)을 사용할 수 있습니다. 패키지 이름은 CUDA 툴킷 버전에 따라 다릅니다 (CUDA 툴킷 버전은 nvcc --version 에 표시됨).

CUDA 툴킷 버전	설치 명령
> = v10.2	`pip install bagua-cuda102`
> = v11.1	`pip install bagua-cuda111`
> = v11.3	`pip install bagua-cuda113`
> = v11.5	`pip install bagua-cuda115`
> = v11.6	`pip install bagua-cuda116`

--pre to pip install 명령을 추가하여 사전 릴리스 (개발) 버전을 설치하십시오. 빠른 시작 가이드 및 더 많은 설치 옵션은 Bagua 자습서를 참조하십시오.

AWS에서 빠른 시작

AMI (Amazon Machine Images) 덕분에 사용자에게 AWS EC2 클러스터에 유연한 크기의 기계와 광범위한 GPU 유형을 쉽게 배포하고 실행할 수있는 방법을 제공 할 수 있습니다. 사용자는 여기에 게시하는 고유 한 AMIID로 EC2에서 사전 설치된 Bagua 이미지를 찾을 수 있습니다. AMI는 지역 자원이므로 AMI와 같은 레지 논의 기계를 사용하고 있는지 확인하십시오.

바구아 버전	AMI ID	지역
0.6.3	AMI-0E719D0E3E42B397E	US-EAST-1
0.9.0	AMI-0F01FD14E9A742624	US-EAST-1

EC2 클러스터를보다 효율적으로 관리하기 위해 StarCluster를 툴킷으로 사용하여 클러스터를 조작합니다. StarCluster의 config 파일에는 AWS 자격 증명, 클러스터 설정 등을 포함하여 사용자가 설정 해야하는 몇 가지 구성이 있습니다. StarCluster 구성에 대한 자세한 내용은이 자습서에서 찾을 수 있습니다.

예를 들어, 우리는 4 개의 컴퓨터가있는 EC2 클러스터를 만듭니다. 각 컴퓨터에는 8 V100 GPU ( p3.16xlarge )가 있습니다. 이 클러스터는 우리가 us-east-1 지역에 사전 설치 한 Bagua AMI를 기반으로합니다. 그런 다음 StarCluster의 config 파일은 다음과 같습니다.

 # region of EC2 instances, here we choose us_east_1
AWS_REGION_NAME = us-east-1
AWS_REGION_HOST = ec2.us-east-1.amazonaws.com
# AMI ID of Bagua
NODE_IMAGE_ID = ami-0e719d0e3e42b397e
# number of instances
CLUSTER_SIZE = 4
# instance type
NODE_INSTANCE_TYPE = p3.16xlarge

위의 설정으로 Bagua와 Horovod에 대한 합성 된 이미지 분류 작업을 각각 벤치마킹하기 위해 두 개의 동일한 클러스터를 만들었습니다. 이 실험의 화면 녹화 비디오는 다음과 같습니다.

바구아를 인용하십시오

 % System Overview
@misc { gan2021bagua ,
  title = { BAGUA: Scaling up Distributed Learning with System Relaxations } , 
  author = { Shaoduo Gan and Xiangru Lian and Rui Wang and Jianbin Chang and Chengjun Liu and Hongmei Shi and Shengzhuo Zhang and Xianghong Li and Tengxu Sun and Jiawei Jiang and Binhang Yuan and Sen Yang and Ji Liu and Ce Zhang } ,
  year = { 2021 } ,
  eprint = { 2107.01499 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG }
}

% Theory on System Relaxation Techniques
@book { liu2020distributed ,
  title = { Distributed Learning Systems with First-Order Methods: An Introduction } ,
  author = { Liu, J. and Zhang, C. } ,
  isbn = { 9781680837018 } ,
  series = { Foundations and trends in databases } ,
  url = { https://books.google.com/books?id=vzQmzgEACAAJ } ,
  year = { 2020 } ,
  publisher = { now publishers }
}