ดาวน์โหลด EasyRLHF - ดาวน์โหลดซอร์สโค้ด EasyRLHF

EasyRLHF

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

easyrlhf

EasyrlHF มีจุดมุ่งหมายเพื่อให้อินเทอร์เฟซที่ง่ายและน้อยที่สุดในการฝึกอบรมแบบจำลองภาษาที่จัดตำแหน่งโดยใช้โซลูชันนอกชั้นวางและชุดข้อมูล (เช่น HF Trainer, ชุดข้อมูล HF, DeepSpeed, TRL)

ส่วนต่อไปนี้จะครอบคลุมแนวคิดคร่าวๆของวิธีการจัดตำแหน่ง (RLHF, RRHF, DPO, IPO) และให้วิธีเรียกใช้ตัวอย่าง

ภาพรวม RLHF

ดังที่แสดงในกระดาษ InstructGPT เราสามารถฝึกอบรมรูปแบบรางวัลและเสริมรูปแบบภาษาเพื่อทำตามคำแนะนำของมนุษย์ได้ดีขึ้น ก่อนอื่นเราสามารถฝึกอบรมรุ่นรางวัลและ SFT-LM ด้วยชุดข้อมูล hh-rlhf และชุดข้อมูล slimorca-dedup ตามลำดับ จากนั้น PPO-LM สามารถได้รับการฝึกฝนด้วยห้องสมุด TRL

เวิร์กโฟลว์

ฝึกอบรมนางแบบรางวัล

เราต้องการชุดข้อมูลการเปรียบเทียบแบบคู่เพื่อฝึกอบรมรูปแบบรางวัล ในกระดาษ InstructGPT ผู้เขียนใช้ 4 ~ 9 อันดับความต่อเนื่องในพรอมต์เดียวกัน ตัวอย่างเช่น A < B < C = D < E เป็นลำดับการจัดอันดับและหนึ่งสามารถสุ่มตัวอย่างสองตัวอย่างโดยพลการ (A และ C) ที่นี่ C ชนะเหนือความชอบของมนุษย์ ดังนั้นเรารูปแบบ logit of C - logit of A เป็นอัตราต่อรองของ C เป็นสาธิตที่ดีกว่า A. logit of X สามารถคำนวณได้โดยหัวเชิงเส้นที่ติดอยู่ที่ด้านบนของตัวถอดรหัสหม้อแปลง เราใช้ชุดข้อมูลนอกชั้นวางจาก HH-RLHF โดยมานุษยวิทยา ชุดข้อมูลนี้แบนอยู่แล้วดังนั้นเราไม่จำเป็นต้องกังวลเกี่ยวกับรูปแบบการสุ่มตัวอย่างที่กล่าวถึงใน PAPERTICGPT

ฝึกอบรมแบบจำลอง SFT

เราสามารถฝึกอบรมโมเดล SFT ด้วยการคาดการณ์แบบ token มาตรฐานโดยใช้ Slimorca-Dedup

ฝึกอบรมรุ่น PPO (WIP)

ตอนนี้เรามีรูปแบบรางวัลและโมเดล SFT เราสามารถทำการเรียนรู้การเสริมแรงด้วยแพ็คเกจ RL นอกชั้นวางที่ออกแบบมาสำหรับแบบจำลองภาษา เราใช้ trlto เสริมสร้างโมเดล SFT ในขั้นตอน PPO เราเก็บสำเนาโมเดล SFT ไว้สำหรับการอ้างอิง รูปแบบการอ้างอิงนี้ช่วยให้แบบจำลองพฤติกรรมสามารถเรียนรู้ที่จะเพิ่มความชอบของมนุษย์ในขณะที่หลีกเลี่ยงการแฮ็ครางวัล โดยเฉพาะรูปแบบพฤติกรรมจะสร้างความสำเร็จให้เสร็จสมบูรณ์เป็นครั้งแรก การแจกแจงโทเค็นจะถูกเก็บไว้ใกล้กับโมเดลอ้างอิงผ่านการลด KL-Divergence กับการกระจายโทเค็นของโมเดลอ้างอิง ความสำเร็จจะถูกป้อนให้กับแบบจำลองรางวัลเพื่อให้ได้คะแนนรางวัล คะแนนเทอม KL และรางวัลจะได้รับการสรุปและถือเป็นรางวัลสำหรับอัลกอริทึม PPO

เร็ว

เตรียมสภาพแวดล้อมเสมือนจริง (ไม่บังคับ)

 conda create -n easy-rlhf python=3.8

ข้อกำหนดโคลนและการติดตั้ง

 git clone https://github.com/DaehanKim/EasyRLHF.git
cd EasyRLHF
pip install .

คลายชุดข้อมูล HH-RLHF และฝึกอบรมโมเดลรางวัลโดยใช้ rm_train CMD

 cd data
find . -name '*.gz' -print0 | xargs -0 gzip -d
rm_train --devices "0,1,2,3" 
--output_dir "outputs/my-model" 
--train_data data/helpful-base/train.jsonl,data/helpful-online/train.jsonl,data/helpful-rejection-sampled/train.jsonl 
--valid_data data/helpful-base/test.jsonl,data/helpful-online/test.jsonl,data/helpful-rejection-sampled/test.jsonl

หรือคุณสามารถใช้ scripts/rm_train.sh สำหรับการตั้งค่าที่กำหนดเองเพิ่มเติม

หมายเหตุ

รุ่นเริ่มต้นคือ GPT2-XL (1.5B) และการสูญเสียคือเอนโทรปีข้ามไบนารี
DeepSpeed Config อยู่ใน configs/ds_config.yaml ซึ่งคุณสามารถตั้งค่าการตั้งค่าแบบกระจายที่คุณต้องการ ค่าเริ่มต้นถูกตั้งค่าเป็น zero-2 parallelism
สิ่งที่ต้องทำ
- การฝึกอบรมแบบจำลองรางวัลพื้นฐาน
- การฝึกอบรมแบบจำลอง SFT ขั้นพื้นฐาน
- การฝึกอบรมแบบจำลอง PPO ขั้นพื้นฐาน

ภาพรวม RRHF

TBD

ภาพรวม DPO

TBD

ภาพรวมการเสนอขายหุ้น

TBD

การอ้างอิง

กระดาษแนะนำ
TRL
HH-RLHF
การเยื่อบุ
RRHF
DPO
การเสนอขายหุ้น

ใบอนุญาต

โครงการนี้เพียงเชื่อมโยงห้องสมุดและชุดข้อมูลจากแหล่งต่าง ๆ ดังนั้นอยู่ภายใต้เงื่อนไขใบอนุญาตของแหล่งข้อมูลที่สอดคล้องกัน สคริปต์ที่มีผลผูกพันเองคือ MIT ที่ได้รับใบอนุญาต

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-06
ขนาด 75.62MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด