ดาวน์โหลด Bitune - ดาวน์โหลดซอร์สโค้ด Bitune

Bitune

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Bitune: การปรับแต่งคำสั่งแบบสองทิศทาง

[ Paper ] [ Website ]

ซอร์สโค้ดนี้มีการใช้บิตทูนและเพียงพอที่จะทำซ้ำผลลัพธ์จากกระดาษ โปรดทราบว่ามันถูกใช้เพื่อสำรวจความคิดที่แตกต่างกันและส่วนประกอบจำนวนมากมีชื่อที่แตกต่างกันหรืออ้างถึงแนวคิดที่ไม่ได้กล่าวถึงในบทความ

เราวางแผนที่จะปล่อย Repo ที่สะอาดสำหรับ Bitune ในอนาคตอันใกล้

LM-Evaluation-Harness

ไดเรกทอรี lm-evaluation-harness ประกอบด้วยที่เก็บจาก Eleutherai/LM-Evaluation-Harness ปรับให้เข้ากับวิธีการของเรา คุณสามารถติดตั้งด้วยคำสั่งต่อไปนี้:

pip install -e lm-evaluation-harness

การกำหนดค่า

ตั้งค่าเส้นทางสัมบูรณ์ที่เหมาะสมไปยังไดเรกทอรีนี้ในไฟล์ common_0.sh
สคริปต์การประเมินต้องใช้ wandb สำหรับการบันทึก อัปเดตบรรทัด 57 ของ eval.py ด้วยชื่อผู้ใช้ wandb ของคุณ

สคริปต์

การตั้งค่าการปรับแต่งคำสั่ง : เรียกใช้สคริปต์ instruct.sh
การฝึกอบรมงานดาวน์สตรีม : เรียกใช้สคริปต์ downstream.sh ตรวจสอบให้แน่ใจว่าได้ตั้งค่าจำนวนขั้นตอนการอัปเดตที่ถูกต้อง (ขึ้นอยู่กับค่าที่ให้ไว้ในภาคผนวก) และยกเลิกการยกเลิกบรรทัดที่เหมาะสมสำหรับชื่อชุดข้อมูลการประเมิน (ที่ด้านล่างสุด) และชื่อวิธี
Ablations : Unabment บรรทัดสำหรับการระเหยที่เลือกใน ablations.sh และเรียกใช้สคริปต์

ภาพรวมสั้น ๆ ของรหัสสปา _{^{เก็ตตี้}}

การใช้งานจำเป็นต้องมีการปรับเปลี่ยนคลาสโมเดล HuggingFace สองสามรายการที่มีอยู่ในไดเรกทอรี models :
- KV-cache ที่ปรับเปลี่ยนดังนั้นจึงช่วยให้กราฟการคำนวณสำหรับการไล่ระดับสี
- เพิ่มโมดูลผสมด้วยค่าสัมประสิทธิ์การฝึกอบรม ( pass_scale_k , pass_scale_v )
- Medified Attention Mask ขึ้นอยู่กับพารามิเตอร์ enforce_bidir ของฟังก์ชัน forward()
- เพิ่มตัวอย่างโค้ดภายในฟังก์ชั่น forward() ที่รับผิดชอบในการเรียก bitune wrapper
bitune wrapper ( _pass_fn() ในไฟล์ passes.py ):
- ผ่านพรอมต์ผ่านโมเดลสองครั้งเพื่อรับ KV-cache สองชุดในขณะที่ตั้งค่าอะแดปเตอร์ LORA ที่เหมาะสมและหน้ากากความสนใจสำหรับแต่ละผ่าน
- การเรียกโมดูลผสมเพื่อรวมคุณสมบัติสองชุด ( pass_scale_k , pass_scale_v )
- ผ่านคำตอบสุดท้าย (ในกรณีของการฝึกอบรม) หรือสร้างโทเค็นคำตอบแรก (สำหรับการอนุมาน) ในกรณีของโทเค็นรุ่นต่อไป เสื้อคลุม Bitune จะไม่ถูกเรียกเลยเนื่องจาก KV-cache ของพรอมต์ได้รับและเก็บไว้แล้วดังนั้นรุ่นยังคงดำเนินต่อไปเช่นเดียวกับในรูปแบบที่ไม่มีการแก้ไข
- ตั้งค่าพารามิเตอร์ของ LORA ทั้งหมดให้เป็นรถไฟอีกครั้งตามที่ไลบรารี peft เริ่มต้นตั้งค่าอะแดปเตอร์ที่ไม่ได้ใช้งานว่าไม่สามารถผ่านการฝึกได้
โมดูลผสม ( PassScale คลาสที่กำหนดใน models/think_gemma.py ):
- มีค่าสัมประสิทธิ์การฝึกอบรมสำหรับการผสมคุณสมบัติสองชุดแยกต่างหากสำหรับคีย์และค่าดังนั้นค่าสัมประสิทธิ์สองค่าต่อบล็อกความสนใจของโมเดล
- กำหนดฟังก์ชั่น forward() ที่ใช้การทำงานผสมตามตัวแปรที่ระบุใน config ( config.pass_type ) วิธีสุดท้ายของเราถูกกำหนดโดยตัวแปร 607 (วิธีที่ใช้สำหรับการทดลอง) และเวอร์ชันที่เรียบง่าย 801

ห้องสมุดเวอร์ชัน

มีการใช้ไลบรารีเวอร์ชันต่อไปนี้:

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

bibtex

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}