ดาวน์โหลด felafax - ดาวน์โหลดซอร์สโค้ด felafax

felafax

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Felafax - ปรับแต่ง LLAMA3.1 บน Google Cloud TPUs ด้วยต้นทุนและขนาดที่ต่ำกว่า 30% อย่างราบรื่น!

ภาพ

Felafax เป็นกรอบสำหรับการฝึกอบรมอย่างต่อเนื่องและปรับแต่งโอเพนซอร์ส LLM โดยใช้ XLA Runtime เราดูแลการตั้งค่ารันไทม์ที่จำเป็นและให้สมุดบันทึก Jupyter นอกกรอบเพื่อเริ่มต้นใช้งาน

ใช้งานง่าย
ง่ายต่อการกำหนดค่าทุกด้านของการฝึกอบรม (ออกแบบมาสำหรับนักวิจัยและแฮ็กเกอร์ ML)
ง่ายต่อการฝึกอบรมจาก TPU VM เดียวที่มี 8 คอร์ไปยัง POD TPU ทั้งหมดที่มี 6000 TPU cores ( 1000X )!

เป้าหมายของเราที่ Felafax คือการสร้าง Infra เพื่อให้ง่ายต่อการเรียกใช้เวิร์กโหลด AI บนฮาร์ดแวร์ที่ไม่ใช่ Nvidia (TPU, AWS Trainium, AMD GPU และ Intel GPU)

Finetune ฟรี

เพิ่มชุดข้อมูลของคุณคลิก "เรียกใช้ทั้งหมด" และคุณจะทำงานบนทรัพยากร TPU ฟรีบน Google Colab!

Felafax รองรับ	สมุดบันทึกฟรี
Llama 3.1 (1B, 3B)	เริ่มฟรีบน Google Colab TPU

รุ่นที่รองรับปัจจุบัน

การใช้งาน LLAMA-3.1 JAX $$ { color {red} ใหม่!} $$
- แปลงจาก Pytorch เป็น Jax เพื่อปรับปรุงประสิทธิภาพ
- การสนับสนุนการฝึกอบรมแบบเต็มความแม่นยำและ LORA สำหรับ 1B, 3B, 8B, 70B, 405B
- ทำงานได้อย่างมีประสิทธิภาพในฮาร์ดแวร์ที่หลากหลาย (TPUS, AWS Trainium, NVIDIA, AMD) ผ่านแบ็กเอนด์ XLA ที่ได้รับการปรับให้เหมาะสมของ JAX
- สเกลได้อย่างราบรื่นเพื่อรองรับความยาวบริบทและชุดข้อมูลที่ใหญ่ขึ้นโดยการแยกตัวออกจากตัวเร่งความเร็วหลายตัว
llama-3/3.1 pytorch xla
- LORA และการสนับสนุนการฝึกอบรมที่มีความแม่นยำเต็มรูปแบบ
- codepointer

ใช้การปรับแต่งผ่าน Felafax CLI $$ { color {red} ใหม่!} $$

เริ่มต้นด้วยการปรับแต่งโมเดลของคุณโดยใช้ Felafax CLI ในไม่กี่ขั้นตอน

ขั้นตอนที่ 1. ติดตั้ง CLI และรับรองความถูกต้อง

เริ่มต้นด้วยการติดตั้ง CLI

pip install pipx
pipx install felafax-cli

จากนั้นสร้างโทเค็นการรับรองความถูกต้อง:

เยี่ยมชม felafax.ai และสร้าง/ลงชื่อเข้าใช้บัญชีของคุณ
นำทางไปยังหน้าโทเค็นและสร้างโทเค็นใหม่

ในที่สุดรับรองเซสชัน CLI ของคุณโดยใช้โทเค็นของคุณ:

felafax-cli auth login --token < your_token >

ขั้นตอนที่ 2. ตั้งค่าการปรับแต่งการปรับแต่ง

ขั้นแรกให้สร้างไฟล์กำหนดค่าเริ่มต้นสำหรับการปรับแต่ง คำสั่งนี้สร้างไฟล์ config.yml ในไดเรกทอรีปัจจุบันที่มีค่าไฮเปอร์พารามิเตอร์เริ่มต้น

felafax-cli tune init-config

ประการที่สองอัปเดตไฟล์ config ด้วย hyperparameters ของคุณ:

HuggingFace Knobs:
- ให้โทเค็น HuggingFace และ ID ที่เก็บของคุณเพื่ออัปโหลดโมเดลที่ปรับแต่งอย่างละเอียด
PIPILEN และพารามิเตอร์การฝึกอบรม: พารามิเตอร์:
- ปรับ batch_size , max_seq_length เพื่อใช้สำหรับชุดข้อมูลการปรับแต่ง
- ตั้งค่า num_steps เป็น null หากคุณต้องการให้ Trainig ทำงานผ่านชุดข้อมูลทั้งหมด หากตั้งค่า num_steps เป็นตัวเลขการฝึกอบรมจะหยุดหลังจากจำนวนขั้นตอนที่ระบุ
- ตั้งค่า learning_rate และ lora_rank เพื่อใช้สำหรับการปรับแต่ง
- eval_interval คือจำนวนขั้นตอนระหว่างการประเมิน

ขั้นตอนที่ 3. เริ่มต้นการปรับแต่งการปรับแต่ง

เรียกใช้คำสั่งติดตามเพื่อดูรายการโมเดลพื้นฐานที่คุณสามารถปรับแต่งได้เรารองรับ Llama-3.1 ทุกรุ่น ณ ตอนนี้

felafax-cli tune start --help

ตอนนี้คุณสามารถเริ่มกระบวนการปรับแต่งได้ด้วยรุ่นที่คุณเลือกจากรายการด้านบนและชื่อชุดข้อมูลจาก HuggingFace (เช่น yahma/alpaca-cleaned ):

felafax-cli tune start --model < your_selected_model > --config ./config.yml --hf-dataset-id < your_hf_dataset_name >

คำสั่งตัวอย่างเพื่อให้คุณเริ่มต้น:

felafax-cli tune start --model llama3-2-1b --config ./config.yml --hf-dataset-id yahma/alpaca-cleaned

หลังจากที่คุณเริ่มงานการปรับแต่ง Felafax CLI จะดูแลการหมุน TPUs วิ่งฝึกซ้อมและอัปโหลดโมเดลที่ปรับจูนไปยังฮับ HuggingFace

คำสั่งที่มีประโยชน์อื่น ๆ

ตรวจสอบงานปรับแต่ง

คุณสามารถสตรีมบันทึกเรียลไทม์เพื่อตรวจสอบความคืบหน้าของงานปรับแต่งของคุณ:

 # Use `<job_name>` with the job namethat you get after starting the fine-tuning.
felafax-cli tune logs --job-id < job_name > -f

แสดงรายการรุ่นที่ปรับแต่งของคุณ

หลังจากการปรับแต่งเสร็จสมบูรณ์คุณสามารถแสดงรายการโมเดลที่ปรับแต่งได้ทั้งหมด:

felafax-cli model list

แชทกับโมเดลที่ปรับแต่งของคุณ (ทำงานบน TPU อีกครั้ง!):

คุณสามารถเริ่มเซสชันเทอร์มินัลแบบโต้ตอบเพื่อแชทกับรุ่นที่ปรับแต่งได้:

 # Replace `<model_id>` with model id from `model list` command you ran above.
felafax-cli model chat --model-id < model_id >

ใช้ความช่วยเหลือในการสำรวจคำสั่งเพิ่มเติม!

CLI แบ่งออกเป็นสามกลุ่มคำสั่งหลัก:

tune : เพื่อเริ่ม/หยุดงานปรับแต่ง
model : เพื่อจัดการและโต้ตอบกับรุ่นที่ปรับแต่งของคุณ
files : หากต้องการอัปโหลด/ดูไฟล์ของ YourDataset

ใช้ --help Flag เพื่อค้นหาเพิ่มเติมเกี่ยวกับกลุ่มคำสั่งใด ๆ :

felafax-cli tune --help

AMD 405B การปรับแต่งการปรับแต่ง

เมื่อเร็ว ๆ นี้เราได้ปรับรุ่น LLAMA3.1 405B บน GPU 8xAMD MI300X โดยใช้ JAX แทน Pytorch APIs ขั้นสูงของ Jax ช่วยให้เราได้รับประสิทธิภาพที่ยอดเยี่ยม ตรวจสอบโพสต์บล็อกของเราเพื่อเรียนรู้เกี่ยวกับการตั้งค่าและเทคนิคการทำลายล้างที่เราใช้

เราทำการปรับแต่ง Lora ด้วยน้ำหนักทุกรุ่นและพารามิเตอร์ LORA ในความแม่นยำ BFLOAT16 และด้วย LORA อันดับ 8 และ LORA Alpha จาก 16:

ขนาดรุ่น: น้ำหนักรุ่น LLAMA ใช้เวลาประมาณ 800GB ของ VRAM
น้ำหนัก LORA + สถานะเพิ่มประสิทธิภาพ: ประมาณ 400GB ของ VRAM
การใช้ VRAM ทั้งหมด: 77% ของ VRAM ทั้งหมดประมาณ 1200GB
ข้อ จำกัด : เนื่องจากขนาดใหญ่ของรุ่น 405B จึงมีพื้นที่ จำกัด สำหรับขนาดแบทช์และความยาวลำดับ ขนาดแบทช์ที่ใช้คือ 16 และความยาวลำดับคือ 64
ความเร็วในการฝึกอบรม: ~ 35 โทเค็น/วินาที
ประสิทธิภาพของหน่วยความจำ: ประมาณ 70% อย่างสม่ำเสมอ
การปรับสเกล: ด้วย Jax การปรับสเกลนั้นใกล้เคียงกับ 8 GPU

กราฟการใช้ประโยชน์จาก GPU และกราฟการใช้ VRAM สามารถดูได้ด้านล่าง อย่างไรก็ตามเรายังคงต้องคำนวณการใช้ประโยชน์จากการใช้ประโยชน์จากรูปแบบ (MFU) หมายเหตุ: เราไม่สามารถเรียกใช้รุ่น 405B ที่คอมไพล์ JIT ได้เนื่องจากข้อ จำกัด ด้านโครงสร้างพื้นฐานและ VRAM (เราจำเป็นต้องตรวจสอบสิ่งนี้เพิ่มเติม) การฝึกอบรมทั้งหมดดำเนินการในโหมด Jax Eager ดังนั้นจึงมีศักยภาพที่สำคัญสำหรับการปรับปรุงประสิทธิภาพ