ดาวน์โหลด t2t tuner - ดาวน์โหลดซอร์สโค้ด t2t tuner

t2t tuner

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

t2t-tuner

การฝึกอบรมข้อความเป็นข้อความที่สะดวกสำหรับหม้อแปลง

pip install t2t-tuner

ต้องใช้ Pytorch: ทำตามคำแนะนำการติดตั้ง Pytorch หรือใช้คอนเทนเนอร์ Pytorch

คุณสมบัติ

การฝึกอบรมที่ง่ายสำหรับงานข้อความเป็นข้อความ (และการสร้างข้อความ)
วิธีการฝึกอบรม/คุณสมบัติ:
- มีการปรับแต่งการปรับแต่ง
- จุดตรวจการไล่ระดับสี
- แบบจำลองความเท่าเทียมกัน
- การปรับแต่งแบบนุ่มนวล (ขึ้นอยู่กับบทความนี้)
- แช่แข็ง encoder/decoder/embeddings
- ย้าย EMBEDDINGS ไปยัง CPU
- บทสรุปแบบจำลองการพิมพ์
- ความเร็วลึก

ขึ้นอยู่กับห้องสมุด Transformers HuggingFace ที่ยอดเยี่ยม ทดสอบกับรุ่น T5 และ GPT ในทางทฤษฎีมันควรทำงานร่วมกับรุ่นอื่น ๆ ที่รองรับ AutomodelForSeq2Seqlm หรือ AutomodelForCausAllm เช่นกัน

ผู้ฝึกสอนในห้องสมุดนี้ที่นี่เป็นอินเทอร์เฟซระดับที่สูงขึ้นในการทำงานตาม Run_translation.py ของ HuggingFace สำหรับงานสร้างข้อความเป็นข้อความ ฉันตัดสินใจว่าฉันต้องการอินเทอร์เฟซที่สะดวกยิ่งขึ้นสำหรับการฝึกอบรมและการอนุมานพร้อมกับการเข้าถึงสิ่งต่าง ๆ เช่นจุดตรวจการไล่ระดับสีและแบบจำลองขนานเพื่อให้พอดีกับรุ่นที่ใหญ่กว่า - สิ่งเหล่านี้อยู่ในไลบรารี HuggingFace แต่ไม่ได้เปิดเผยในสคริปต์ ฉันยังเพิ่มในคุณสมบัติบางอย่างที่ฉันต้องการ (การปรับจูนการสรุปแบบจำลอง) รวมเข้ากับการฝึกอบรม LM แบบอัตโนมัติและห่อเป็นไลบรารีเดียวที่สามารถติดตั้ง PIP ได้

ตัวอย่าง

รูปแบบการฝึกอบรม

 import t2t

trainer_arguments = t2t . TrainerArguments ( model_name_or_path = "t5-small" ,
                                         train_file = YOUR_DATASET )

trainer = t2t . Trainer ( arguments = trainer_arguments )

# train without validation
trainer . train ( valid = False )

สำหรับตัวอย่างที่เป็นรูปธรรมเพิ่มเติมลองดูสมุดบันทึกที่เชื่อมโยงด้านล่าง:

ตัวอย่างง่ายๆ
ตัวอย่างง่ายๆเกี่ยวกับ colab
การปรับจูนนุ่มนวล
จุดตรวจการไล่ระดับสี
แบบจำลองความเท่าเทียมกัน

รูปแบบข้อมูล

การฝึกอบรม SEQ2SEQ

{ "translation" : { "s" : " TEXT " , "t" : " LABEL " }}

รูปแบบของข้อมูลคือ Json-Lines ตามสคริปต์ดั้งเดิมของ HuggingFace แต่ละตัวอย่างคือหนึ่งบรรทัด
กำหนดรหัสแหล่งที่มาและเป้าหมายใน TrainingArguments.source_id และ TrainingArguments.target_id (ค่าเริ่มต้นเป็น s และ t )
รวมคำนำหน้าในไฟล์ข้อมูลหรือกำหนดคำนำหน้าเพื่อเติมเต็มให้กับข้อความใน TrainingArguments.prefix
ตัวอย่างสมุดบันทึกสำหรับการประมวลผลข้อมูลล่วงหน้าจากไฟล์ CSV

การฝึก LM อัตโนมัติ

ไฟล์ข้อความใด ๆ จะใช้งานได้

การฝึกอบรมแบบจำลองขนาดใหญ่

ส่วนนี้จะร่างวิธีการฝึกอบรมแบบจำลองภาษาขนาดใหญ่ (> 1 พารามิเตอร์ bil) ในการตั้งค่าที่ค่อนข้างง่าย

บันทึกบางอย่างสำหรับการกำหนดค่าที่รายงานด้านล่าง:

GradCheckPoint: จุดตรวจสอบการไล่ระดับสีเพื่อลดการใช้ VRAM แต่เพิ่มการคำนวณ (ตั้งค่า TrainerArguments.gradient_checkpointing )
Freezeembeds: Freeze (อย่าฝึกอบรม) การฝังเลเยอร์เพื่อลดการใช้งานและการคำนวณ VRAM (Set trainer.freeze(embeddings=True) )
Adafactor ใช้ VRAM น้อยกว่า Adam แต่ช้ากว่าเล็กน้อยและสามารถมาบรรจบกันได้เล็กน้อย
คุณสามารถใช้การสะสมการไล่ระดับสี ( TrainingArguments.gradient_accumulation_steps ) เพื่อสร้างขนาดแบทช์ที่ใหญ่กว่าหากจำเป็น ขนาดแบทช์ที่รายงานโดย ไม่มี การสะสมการไล่ระดับสี
การย้ายการฝังตัวไปยังซีพียูดูเหมือนจะไม่มีผลกระทบต่อการใช้ VRAM และประสิทธิภาพทั้งไม่ได้ใช้

รุ่น GPT

การกำหนดค่า GPT บางอย่างที่ทดสอบเพื่อฝึกการ์ด RTX 3090 (24GB) เดียว (ไม่มี DeepSpeed):

แบบอย่าง	พารามิเตอร์	ความแม่นยำ	การเพิ่มประสิทธิภาพ	อินพุต	batchsize	อื่น
GPT2	1.5B	FP16	เครื่องดื่ม	128	4	ไม่มี
GPT2	1.5B	FP16	เครื่องดื่ม	512	1	ไม่มี
GPT2	1.5B	FP16	เครื่องดื่ม	1024	4	Gradcheckpoint
Gpt-neo	1.3b	FP16	เครื่องดื่ม	1024	1	ไม่มี
Gpt-neo	1.3b	FP16	เครื่องดื่ม	2048	4	Gradcheckpoint
Gpt-neo	2.7B	FP16	เครื่องดื่ม	2048	4	Gradcheckpoint, freezeembeds

รุ่น T5

การกำหนดค่า T5 บางตัวที่ทดสอบเพื่อฝึกการ์ด RTX 3090 (24GB) เดียว (ไม่มี DeepSpeed):

แบบอย่าง	พารามิเตอร์	ความแม่นยำ	การเพิ่มประสิทธิภาพ	seq2seqlen	batchsize	อื่น
T5	3B	fp32	เครื่องดื่ม	128-> 128	1	freezeembeds
T5	3B	fp32	เครื่องดื่ม	128-> 128	1	Gradcheckpoint
T5	3B	fp32	เครื่องดื่ม	128-> 128	128	Gradcheckpoint, freezeembeds
T5	3B	fp32	เครื่องดื่ม	512-> 512	32	Gradcheckpoint, freezeembeds

แบบจำลองความเท่าเทียมสำหรับรุ่น T5-11B

การใช้ไลบรารีนี้คุณสามารถปรับจุดตรวจ T5-11B ได้อย่างง่ายดาย (โหนดเดี่ยว) ด้วยการตั้งค่าต่อไปนี้ (โดยไม่ต้องลึก):

จุดตรวจที่แนะนำ: T5-11B
การสะสมแบบแบทช์ขนาด 1 + การไล่ระดับสีเพื่อให้ได้ตามขนาดแบทช์ที่คุณต้องการ
ขนาดแบทช์ 8 เป็นไปได้ด้วยการด่านตรวจไล่ระดับสี แต่ไม่ได้ปรับปรุงความเร็ว
โมเดลขนานกันหลาย GPU:
- อย่างน้อย ~ 90 GB ของ VRAM
- ตัวอย่าง: 8x 16GB หรือ 4X 32GB GPU (V100) หรือ 2X 48GB (RTX8000/A6000)
FP32 (ไม่จำเป็นต้องผสมความแม่นยำ/FP16)
- FP16 จะดีกว่าจริง ๆ แต่จุดตรวจ T5 ที่ผ่านการปรับแต่งไม่ได้เล่นได้ดีกับ FP16
- บนการ์ดแอมป์ (RTX30XX, A100, A6000), TF32 ถูกใช้ซึ่งเร็วกว่า FP32 และไม่ประสบปัญหาเช่นเดียวกับ FP16
- เหตุผลที่เป็นไปได้: การเปิดใช้งานที่มีอยู่มีขนาดใหญ่เกินไป (การติดตามปัญหา GitHub ข้อมูลเพิ่มเติมบางอย่าง)

แบบจำลองขนาน T5-11B

โปรดทราบว่าขึ้นอยู่กับระบบของคุณเวลาในการโหลดสำหรับจุดตรวจ (46GB) อาจยาวมาก คุณจะต้องใช้ CPU RAM ที่เพียงพอ (อย่างน้อย ~ 90GB) เพื่อโหลดได้สำเร็จ

onnx rt

ONNX RT ทำงานร่วมกับบางรุ่น (ไม่ใช่ T5 แต่) และสามารถเพิ่มความเร็วในการเพิ่มขึ้นเล็กน้อย

ติดตั้ง ORT จากนั้นตั้งค่า TrainingArguments.torch_ort=True

pip install torch-ort -f https://onnxruntimepackages.z14.web.core.windows.net/onnxruntime_stable_torch190.cu111.html

python -m torch_ort.configure

การพัฒนา

แพ็คเกจอาคาร

python3 -m pip install --upgrade build twine
python3 -m build
python3 -m twine upload dist/ *

คำเตือน

ห้องสมุดนี้พัฒนาเป็นโครงการส่วนบุคคลสำหรับการใช้งานของฉันเอง โปรดอย่าลังเลที่จะแยกหรือใช้เพื่อจุดประสงค์ของคุณเองเช่นกัน ฉันจะไม่รับผิดชอบต่อความผิดพลาดใด ๆ ที่เกิดขึ้นอันเป็นผลมาจากการใช้งานของห้องสมุดนี้

หมายเหตุสำหรับการ์ด 3090 FE หากแฟน ๆ ของคุณตี 100%หมายความว่าอุณหภูมิ VRAM ของคุณสูง (> 100 องศาเซลเซียส) การฝึกอบรมเป็นเวลานานที่อุณหภูมิเหล่านี้ในทางทฤษฎีน่าจะดี แต่ถ้าคุณต้องการความอุ่นใจ (เช่นฉัน) คุณสามารถลดขีด จำกัด พลังงานที่มีผลกระทบเล็กน้อยต่อความเร็วในการฝึกอบรม ตราบใดที่แฟน ๆ ของคุณไม่เคยตี 100%อุณหภูมิ VRAM ของคุณก็ควรจะดี ตัวอย่างเช่นเพื่อลดขีด จำกัด พลังงานเป็น 300W (จาก 350W):