ดาวน์โหลด tensor_parallel - tensor

tensor_parallel

ซอร์สโค้ดอื่น ๆ

v2.0.0: Sharding refactoring

ดาวน์โหลด

tensor_parallel

สถานะ CI

ลองสาธิต 40B LLMS ใหม่ใน Kaggle

เรียกใช้รุ่น Pytorch ขนาดใหญ่บน GPU หลายตัวในรหัสเดียวด้วยการเร่งความเร็วเชิงเส้น

 import transformers
import tensor_parallel as tp
tokenizer = transformers . AutoTokenizer . from_pretrained ( "facebook/opt-13b" )
model = transformers . AutoModelForCausalLM . from_pretrained ( "facebook/opt-13b" )  # use opt-125m for testing

model = tp . tensor_parallel ( model , [ "cuda:0" , "cuda:1" ])  # <- each GPU has half the weights

inputs = tokenizer ( "A cat sat" , return_tensors = "pt" )[ "input_ids" ]. to ( "cuda:0" )
outputs = model . generate ( inputs , num_beams = 5 )
print ( tokenizer . decode ( outputs [ 0 ])) # A cat sat on my lap for a few minutes ...

model ( input_ids = inputs , labels = inputs ). loss . backward ()  # training works as usual

การติดตั้ง

เวอร์ชันที่มีเสถียรภาพล่าสุด (แนะนำ):

 pip install tensor_parallel

เวอร์ชันขอบเลือดออก:

 pip install https://github.com/BlackSamorez/tensor_parallel/archive/main.zip

การใช้งาน

เพียงห่อโมเดล pytorch ของคุณด้วย tp.tensor_parallel แล้วใช้ตามปกติ เพื่อประสิทธิภาพของหน่วยความจำที่ดีที่สุดโทร tp.tensor_parallel ในขณะที่รุ่นยังคงอยู่ใน CPU

นี่คือกรณีการใช้งานบางอย่าง:

examples/training_flan-t5-xl.ipynb ปรับแต่งแบบจำลอง Flan-T5 แบบ Fine Flan-T5 ในการสรุปข้อความ
tensor_parallel int8 LLM - อะแดปเตอร์ปรับรุ่นภาษาขนาดใหญ่ด้วย llm.8bit + tensor_parallel
TBA - กำหนดกลยุทธ์การขนานที่กำหนดเอง

พารามิเตอร์ขั้นสูงไปยัง tensor_parallel :

device_ids: List[device] - อุปกรณ์ใดที่จะใช้; ค่าเริ่มต้นสำหรับ GPU ที่มีอยู่ทั้งหมด
output_device: device - เอาต์พุตรุ่นจะมีอุปกรณ์นี้
tensor_parallel_config: tp.Config - ใช้กลยุทธ์การขนานที่กำหนดเองดู slicing_configs.py
distributed: bool - ถ้าเป็นจริงให้ใช้คบเพลิงแบ็กเอนด์แจกจ่ายแทนการทำเกลียว (ต้องใช้ torchrun
sharded: bool - ถ้าเป็นจริงให้ค้นหาพารามิเตอร์ที่สามารถฝึกอบรมได้ทั้งหมดที่ไม่ได้แยกกันโดยการขนานของเทนเซอร์และแยกพวกเขาโดยใช้อัลกอริทึม ZERO -3
- น้ำหนักจะถูกแบ่งระหว่าง GPU และประกอบอีกครั้งก่อนที่แต่ละครั้งจะผ่านไปข้างหน้า
- TL; DR ใช้สิ่งนี้เมื่อฝึกอบรมเพื่อหลีกเลี่ยงพารามิเตอร์ที่ซ้ำกัน (เปิดใช้งานโดยค่าเริ่มต้น!)
- sharded_param_names: List[str] - ชื่อพารามิเตอร์ที่ควรได้รับการทำลายด้วยวิธีนี้, default = พบโดยอัตโนมัติ

การบันทึกโมเดล

ในการบันทึกแบบจำลองเพื่อให้สามารถใช้ในบริบทที่ไม่ใช่ tensor_parallel คุณควรใช้ wrapper บริบท save_tensor_parallel

 import torch
import transformers
import tensor_parallel as tp

model = tp . tensor_parallel (
    transformers . AutoModelForCausalLM . from_pretrained ( "facebook/opt-13b" ), 
)

# A whole lot of trainig...

with tp . save_tensor_parallel ( model ):
    torch . save ( model . state_dict (), "/tmp/" )
    # or 
    model . save_pretrained ( "/tmp/" )

รหัสดังกล่าวบันทึกโมเดลราวกับว่ามันไม่เคยแยก มันทำงานได้โดยการรวบรวมชิ้นส่วนโมเดลในระหว่างการสร้าง state_dict

การจัดส่งหน่วยความจำที่มีประสิทธิภาพ

โดยปกติในการสร้างและจัดส่งโมเดล tensor_parallel แบบขนานเราต้องการรุ่นทั้งหมดในหน่วยความจำ นี่อาจเป็นปัญหา แต่มีอีกวิธีหนึ่ง

เป็นไปได้ที่จะแปลง state_dict ของโมเดลพื้นฐานเป็น tensor_parallel state_dict ที่สอดคล้องกันโดยใช้ฟังก์ชั่นผู้ช่วย convert_state_dict DICT ของรัฐสามารถส่งและโหลดลงในโมเดล:

 import accelerate
import transformers

import tensor_parallel as tp

# Initialize a weightless tensor_parallel model from MyModel
with accelerate . init_empty_weights ():
    model = tp . TensorParallel (
        MyModel (),
        device_ids = [ 0 , 1 ] # and prepare it to be put on GPUs 0 and 1
    )

# Load partial state_dict for MyModel
state_dict = torch . load ( "my_model_part_1_of_5.bin" )

# Convert it into a tensor_parallel state_dict
tensor_parallel_state_dict = tp . convert_state_dict (
    state_dict ,
    tensor_parallel_config = model . tensor_parallel_config ,
    world_size = len ( model . devices ),
)

# Dispatch the partial state_dict (load_state_dict doesn't work with meta so here I use accelerate)
device_map = tp . infer_sharded_device_map ( model )
for param_name , param in state_dict . items ():
    module_name = param_name
    while len ( module_name ) > 0 and module_name not in device_map :
        module_name = "." . join ( module_name . split ( "." )[: - 1 ])
    param_device = device_map [ module_name ]
    accelerate . utils . set_module_tensor_to_device ( model , param_name , param_device , value = param )

ด้วยสิ่งนี้ไม่เกินหนึ่งส่วนของโมเดลจะต้องโหลดลงในหน่วยความจำในครั้งเดียว

คำถามที่พบบ่อย

ถาม: ฉันไม่มีเซิร์ฟเวอร์ Multi-GPU ฉันสามารถใช้ tensor_parallel ใน Google Colab ได้หรือไม่?
ตอบ: Colab มี GPU เดียวดังนั้นจึงไม่มีจุดใน Tensor Parallelism อย่างไรก็ตาม Kaggle เสนอ T4 สองรายการฟรีสำหรับบัญชีที่ตรวจสอบแล้วทุกบัญชี
ถาม: เทนเซอร์คู่ขนานคืออะไร?
ตอบ: คุณแบ่งน้ำหนักของแต่ละชั้นออกเป็นชิ้นส่วนคูณแต่ละส่วนใน GPU แยกต่างหากจากนั้นรวบรวมผลลัพธ์ อ่านเพิ่มเติมที่นี่
ถาม: ฉันควรใช้ TensorParallel หรือ DataParallel หรือไม่?
ตอบ: Tensorparallel สำหรับรุ่นขนาดใหญ่ dataParallel สำหรับรุ่นที่เล็กกว่า
ถาม: มันเปรียบเทียบกับ FoolthEdedDataparallel และศูนย์ได้อย่างไร?
ตอบ: ศูนย์จะดีกว่าถ้าคุณสามารถใส่ชุดใหญ่ tensorparallel จะดีกว่าสำหรับชุดขนาดเล็ก

ทำไมต้องใช้ tensor_parallel ...

vs deepspeed และ fairscale
- Deepspeed มีกลยุทธ์การทำให้เป็นคู่ขนานมากมาย แต่ต้องใช้การกำหนดค่าอย่างระมัดระวัง
- tensor_parallel มีหนึ่งกลยุทธ์ที่ทำงานกับ 1 บรรทัดของรหัส
- tensor_parallel ทำงานในสมุดบันทึก Jupyter
vs megatronlm
- Megatronlm มีความเท่าเทียมกันเทนเซอร์ ที่ยอดเยี่ยม สำหรับสถาปัตยกรรมรุ่นเดียว
- tensor_parallel มีความเท่าเทียมกัน ที่ดี สำหรับสถาปัตยกรรมใด ๆ
- tensor_parallel เป็นวิธีที่ง่ายต่อการติดตั้ง
vs parallelformers
- ParallelFormers เป็นการอนุมานอย่างเดียว tensor_parallel รองรับการฝึกอบรม
vs alpa
- ALPA เป็นเครื่องมือที่ทรงพลังสำหรับการฝึกอบรม / การอนุมานแบบกระจายอัตโนมัติใน JAX
- tensor_parallel ทำงานกับ pytorch
vs Model.parallelize()
- ทั้งสองใช้งานง่ายทั้งคู่พอดีกับรุ่นใหญ่
- ในแบบขนาน GPU หนึ่งรายการทำงานครั้งละหนึ่ง
- ใน tensor_parallel, GPU ทำงานแบบขนาน

ในระยะสั้นให้ใช้ tensor_parallel สำหรับการสร้างต้นแบบอย่างรวดเร็วบนเครื่องเดียว ใช้ DeepSpeed+Megatron หรือ ALPA สำหรับการฝึกอบรมล้านดอลลาร์

การแก้ไขปัญหา

หากคุณพบข้อผิดพลาดของ NCCL หรือการแขวนแบบสุ่มคุณอาจมีข้อผิดพลาดของรหัสบางอย่างที่ไม่แสดงอย่างถูกต้อง ในการดีบักข้อผิดพลาดเหล่านี้เราขอแนะนำให้รีสตาร์ทด้วย export TENSOR_PARALLEL_USE_NATIVE=1 หรือบนอุปกรณ์เดียว

หากคุณพบข้อผิดพลาดหรือพบปัญหาโปรดรายงานไปยังตัวติดตามปัญหาของเรา เราจะพยายามอย่างเต็มที่เพื่อช่วยเหลือ แต่อาจต้องใช้เวลาสักครู่ก่อนที่เราจะไปถึงมัน โปรดสร้างปัญหาเฉพาะในกรณีที่ปัญหาของคุณโดยเฉพาะกับ tensor_parallel ตัวอย่างเช่นหากคุณต้องการความช่วยเหลือในการติดตั้ง transformers หรือเพิ่มประสิทธิภาพรหัสของคุณโปรดค้นหาที่อื่น

รูปแบบรหัส

เราใช้สีดำและ iSort สำหรับคำขอดึงทั้งหมด ก่อนที่จะใช้รหัสของคุณเพียงแค่เรียกใช้ black . && isort . และคุณจะสบายดี

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v2.0.0: Sharding refactoring
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-19
ขนาด 54.82KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
หมา_สุนัขจิ้งจอก_กระต่าย

2022-08-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด