byteps ดาวน์โหลด - byteps SORCIDE ดาวน์โหลด

byteps

หลาม

v0.2

ดาวน์โหลด

BYTEPS

BYTEPS เป็นกรอบการฝึกอบรมที่มีประสิทธิภาพสูงและกระจายทั่วไป รองรับ Tensorflow, Keras, Pytorch และ MxNet และสามารถทำงานบนเครือข่าย TCP หรือ RDMA

BYTEPS มีประสิทธิภาพสูงกว่ากรอบการฝึกอบรมแบบกระจายแบบเปิดที่มีอยู่โดยมีอัตรากำไรขั้นต้นขนาดใหญ่ ตัวอย่างเช่นในการฝึกอบรม Bert-Large BYTEPS สามารถบรรลุประสิทธิภาพการปรับขนาด ~ 90% ด้วย 256 GPU (ดูด้านล่าง) ซึ่งสูงกว่า Horovod+NCCL มาก ในบางสถานการณ์ BYTEP สามารถเพิ่มความเร็วในการฝึกอบรมเป็นสองเท่าเมื่อเทียบกับ Horovod+NCCL

ข่าว

BYTEPS Paper ได้รับการยอมรับจาก OSDI'20 รหัสเพื่อทำซ้ำการประเมินแบบ end-to-end มีอยู่ที่นี่
รองรับการบีบอัดการไล่ระดับสี
v0.2.4
- แก้ไขปัญหาความเข้ากันได้ด้วย tf2 + keras แบบสแตนด์อโลน
- เพิ่มการสนับสนุนสำหรับ tensorflow.keras
- ปรับปรุงความทนทานของการออกอากาศ
v0.2.3
- เพิ่มโมดูล distributedDataparallel สำหรับ pytorch
- แก้ไขปัญหาของ CPU Tensor ที่แตกต่างกันโดยใช้ชื่อเดียวกัน
- เพิ่ม skip_synchronize api สำหรับ pytorch
- เพิ่มตัวเลือกสำหรับผู้เริ่มต้นขี้เกียจ/ไม่ขี้เกียจ
v0.2.0
- ส่วนใหญ่ปรับปรุงประสิทธิภาพ RDMA โดยการบังคับใช้หน่วยความจำที่จัดแนวหน้า
- เพิ่มการสนับสนุน IPC สำหรับ RDMA ตอนนี้สนับสนุนเซิร์ฟเวอร์และคนงาน colocating โดยไม่ต้องเสียสละประสิทธิภาพมาก
- แก้ไขข้อผิดพลาดที่แขวนอยู่ในเซิร์ฟเวอร์ BYTEPS
- แก้ไขปัญหาความผิดพลาดในการแบ่งส่วนที่เกี่ยวข้องกับ RDMA ระหว่างส้อม () (เช่นใช้โดยตัวโหลดข้อมูล pytorch)
- คุณสมบัติใหม่: เปิดใช้งานการผสมผสานการใช้งานของเซิร์ฟเวอร์ colocate และ non-colocate พร้อมกับกลยุทธ์การจัดสรร Tensor ที่ชาญฉลาด
- ฟีเจอร์ใหม่: เพิ่ม bpslaunch เป็นคำสั่งเพื่อเรียกใช้งาน
- เพิ่มการสนับสนุนสำหรับการติดตั้ง PIP: pip3 install byteps

ผลงาน

เราแสดงการทดลองของเราเกี่ยวกับการฝึกอบรม Bert-Large ซึ่งขึ้นอยู่กับชุดเครื่องมือ Gluonnlp แบบจำลองใช้ความแม่นยำผสม

เราใช้ TESLA V100 32GB GPU และตั้งค่าขนาดแบทช์เท่ากับ 64 ต่อ GPU แต่ละเครื่องมี 8 V100 GPU (หน่วยความจำ 32GB) พร้อม NVLINK ที่เปิดใช้งาน เครื่องจักรเชื่อมต่อระหว่างกันกับเครือข่าย RDMA 100 Gbps นี่คือการตั้งค่าฮาร์ดแวร์เดียวกับที่คุณสามารถรับได้ใน AWS

BYTEPS ได้รับประสิทธิภาพการปรับขนาด ~ 90% สำหรับ Bert-Large ที่มี 256 GPU รหัสมีอยู่ที่นี่ จากการเปรียบเทียบ Horovod+NCCL มีประสิทธิภาพในการปรับขนาด ~ 70% แม้หลังจากการปรับพารามิเตอร์ของผู้เชี่ยวชาญ

เบิร์ตขนาดใหญ่

ด้วยเครือข่ายที่ช้าลง BYTEPS ให้ข้อได้เปรียบด้านประสิทธิภาพมากขึ้น - สูงถึง 2x ของ Horovod+NCCL คุณสามารถค้นหาผลการประเมินเพิ่มเติมได้ที่ Performance.md

ลาก่อน MPI สวัสดีคลาวด์

BYTEP จะดีกว่า Horovod ได้อย่างไร? หนึ่งในเหตุผลหลักคือ BYTEP ได้รับการออกแบบมาสำหรับคลาวด์และกลุ่มที่ใช้ร่วมกันและทิ้ง MPI

MPI เกิดใน HPC World และเป็นสิ่งที่ดีสำหรับกลุ่มที่สร้างขึ้นด้วยฮาร์ดแวร์ที่เป็นเนื้อเดียวกันและสำหรับการทำงานเดียว อย่างไรก็ตามคลาวด์ (หรือกลุ่มที่ใช้ร่วมกันในบ้าน) แตกต่างกัน

สิ่งนี้ทำให้เราคิดใหม่เกี่ยวกับกลยุทธ์การสื่อสารที่ดีที่สุดดังที่อธิบายไว้ในที่นี่ ในระยะสั้น BYTEPs ใช้ NCCL ภายในเครื่องเท่านั้น

BYTEPS ยังรวมเอาเทคนิคการเร่งความเร็วมากมายเช่นกลยุทธ์ลำดับชั้นการจัดท่อการแบ่งเทนเซอร์การสื่อสารในท้องถิ่นที่รู้ตัวเป็น NUMA การกำหนดเวลาตามลำดับความสำคัญ ฯลฯ

เริ่มต้นอย่างรวดเร็ว

เราให้การสอนทีละขั้นตอนสำหรับคุณในการทำงานการฝึกอบรมมาตรฐาน วิธีที่ง่ายที่สุดในการเริ่มต้นคือการใช้ภาพนักเทียบท่าของเรา อ้างถึงเอกสารเกี่ยวกับวิธีการเปิดงานแบบกระจายและการกำหนดค่าโดยละเอียดเพิ่มเติม หลังจากที่คุณสามารถเริ่ม BYTEP ได้แล้วอ่านแนวปฏิบัติที่ดีที่สุดเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

ด้านล่างเราอธิบายวิธีการติดตั้ง BYTEP ด้วยตัวเอง มีสองตัวเลือก

ติดตั้งโดย PIP

 pip3 install byteps

สร้างจากซอร์สโค้ด

คุณสามารถลองใช้คุณสมบัติล่าสุดโดยการติดตั้งโดยตรงจาก Master Branch:

 git clone --recursive https://github.com/bytedance/byteps
cd byteps
python3 setup.py install

หมายเหตุสำหรับสองตัวเลือกข้างต้น:

BYTEPS ถือว่าคุณได้ติดตั้งเฟรมเวิร์กต่อไปนี้อย่างน้อยหนึ่งเฟรม: TensorFlow / Pytorch / MXNET
BYTEPS ขึ้นอยู่กับ CUDA และ NCCL คุณควรระบุเส้นทาง NCCL ด้วย export BYTEPS_NCCL_HOME=/path/to/nccl โดยค่าเริ่มต้นจะชี้ไปที่ /usr/local/nccl
การติดตั้งต้องใช้ GCC> = 4.9 หากคุณกำลังทำงานกับ CentOS/Redhat และมี GCC <4.9 คุณสามารถลองใช้ yum install devtoolset-7 ก่อนทุกอย่างอื่น โดยทั่วไปเราขอแนะนำให้ใช้ GCC 4.9 เพื่อความเข้ากันได้ที่ดีที่สุด (วิธี PIN GCC)
การสนับสนุน RDMA: ระหว่างการตั้งค่าสคริปต์จะตรวจจับไฟล์ส่วนหัว RDMA โดยอัตโนมัติ หากคุณต้องการใช้ RDMA ตรวจสอบให้แน่ใจว่าสภาพแวดล้อม RDMA ของคุณได้รับการติดตั้งและทดสอบอย่างถูกต้องก่อนที่จะติดตั้ง (ติดตั้งบน Ubuntu-18.04)

ตัวอย่าง

ตัวอย่างพื้นฐานมีให้ภายใต้โฟลเดอร์ตัวอย่าง

ในการทำซ้ำการประเมินแบบ end-to-end ในกระดาษ OSDI'20 ของเราค้นหารหัสที่ repo นี้

ใช้ BYTEP ในรหัสของคุณ

แม้ว่าจะแตกต่างกันโดยสิ้นเชิงในหลักของมัน แต่ BYTEPS นั้นเข้ากันได้อย่างมากกับอินเตอร์เฟส Horovod (ขอบคุณชุมชน Horovod!) เราเลือกอินเทอร์เฟซ Horovod เพื่อลดความพยายามในการทดสอบ BYTEPS

หากงานของคุณขึ้นอยู่กับการออกอากาศและการออกอากาศของ Horovod เท่านั้นคุณควรจะเปลี่ยนเป็น BYTEP ใน 1 นาที เพียงแทนที่ import horovod.tensorflow as hvd โดย import byteps.tensorflow as bps จากนั้นแทนที่ hvd ทั้งหมดในรหัสของคุณด้วย bps หากรหัสของคุณเรียกใช้ hvd.allreduce โดยตรงคุณควรแทนที่ด้วย bps.push_pull

ตัวอย่างของเราจำนวนมากถูกคัดลอกมาจาก Horovod และแก้ไขด้วยวิธีนี้ ตัวอย่างเช่นเปรียบเทียบตัวอย่าง MNIST สำหรับ BYTEPS และ Horovod

BYTEPS ยังรองรับ API ดั้งเดิมอื่น ๆ เช่น Pytorch Distributed Data Data Parallel และ Tensorflow Mirrored ดู distributedDataparallel.md และ mirroredstrategy.md สำหรับการใช้งาน

ข้อ จำกัด และแผนการในอนาคต

BYTEPS ไม่สนับสนุนการฝึกอบรม CPU บริสุทธิ์ในตอนนี้ เหตุผลหนึ่งคือข้อสันนิษฐาน PS ราคาถูกของ BYTEP ไม่ได้ถือสำหรับการฝึกอบรม CPU ดังนั้นคุณต้องใช้ CUDA และ NCCL เพื่อสร้างและเรียกใช้ BYTEPS

เราต้องการมีคุณสมบัติด้านล่างและไม่มีปัญหาพื้นฐานที่จะนำไปใช้ในสถาปัตยกรรม BYTEPS อย่างไรก็ตามพวกเขายังไม่ได้ดำเนินการ:

การฝึกอบรมแบบจำลองแบบเบาบาง
การทนต่อความผิดพลาด
การสังหาร

สิ่งพิมพ์

[OSDI'20] "สถาปัตยกรรมแบบครบวงจรสำหรับการเร่งการฝึกอบรม DNN แบบกระจายในกลุ่ม GPU/CPU ที่แตกต่างกัน" Yimin Jiang, Yibo Zhu, Chang Lan, Bairen Yi, Yong Cui, Chuanxiong Guo
[SOSP'19] "ตัวกำหนดเวลาการสื่อสารทั่วไปสำหรับการเร่งการฝึกอบรม DNN แบบกระจาย" Yanghua Peng, Yibo Zhu, Yangrui Chen, Yixin Bao, Bairen Yi, Chang Lan, Chuan Wu, Chuanxiong Guo (รหัสอยู่ที่ Bytescheduler Branch)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.2
ประเภท หลาม
เวลาอัปเดต 2025-07-13
ขนาด 377.88KB
มาจาก Github

แอปที่เกี่ยวข้อง

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
เครื่องมือแผนภูมิข้อมูลโอเพ่นซอร์ส Redash v24.10.0

2024-11-27
datamule python

2024-11-08
แพลตฟอร์มการแสดงภาพข้อมูล smartchart เวอร์ชัน 6.9

2024-11-27
เครื่องมือทดสอบโหลดตั๊กแตน v2.32.0

2024-11-27

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
เครื่องมือแผนภูมิข้อมูลโอเพ่นซอร์ส Redash v24.10.0

หลาม

24.10.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด