ดาวน์โหลด Prompt OIRL - ดาวน์โหลดซอร์สโค้ด Prompt OIRL

Prompt OIRL

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

- Prompt-Oirl: การเรียนรู้ที่จะแจ้งให้ LLMS มีความรู้จากผู้เชี่ยวชาญ (คำวิเศษที่รู้จักกันดี?)

การดำเนินการและ? บทช่วยสอนสำหรับ ICLR 2024 Paper

ภาพ

ลิงค์กระดาษ
ลิงค์รีวิวเปิด

ข่าว

(2024.2) (การตรวจสอบรหัสภายใน) รหัสด้วย GPT3.5 และ TigerBot ที่จะเปิดตัว
(2024.1) Prompt-Oirl ได้รับการยอมรับจาก ICLR'2024 เราหวังว่าจะได้คุยกับคุณในเวียนนา!
(2024.12) Prompt-Oirl ได้รับการนำเสนอในการประชุม Neurips ขอบคุณสำหรับข้อเสนอแนะที่มีค่าทั้งหมด!
(2023.10) รหัสกับ LLAMA2 ได้รับการเผยแพร่แล้ว
(2023.10) Prompt-Oirl ได้รับการแนะนำในกระดาษตำแหน่งเป็นตัวอย่างของ การจัดตำแหน่งแบบผกผัน
(2023.9) Prompt-Oirl ได้รับการคัดเลือกให้เป็น งานนำเสนอด้วยวาจา ที่การประชุมเชิงปฏิบัติการ ENLSP ที่ Neurips'2023

เชิงนามธรรม

ในการศึกษานี้เรามุ่งมั่นที่จะเพิ่มความสามารถในการใช้เหตุผลทางคณิตศาสตร์ของแบบจำลองภาษาขนาดใหญ่ (LLMS) ผ่านการเพิ่มประสิทธิภาพที่รวดเร็วเป็นศูนย์ เราระบุวัตถุประสงค์ที่ถูกมองข้ามก่อนหน้านี้ของการพึ่งพาการสืบค้นในการเพิ่มประสิทธิภาพดังกล่าวและอธิบายความท้าทายที่ตามมาสองประการที่ขัดขวางการออกแบบที่ประสบความสำเร็จและประหยัดของเทคนิคการเพิ่มประสิทธิภาพที่รวดเร็ว ปัญหาหลักอย่างหนึ่งคือไม่มีวิธีการที่มีประสิทธิภาพในการประเมินพรอมต์ระหว่างการอนุมานเมื่อคำตอบสีทองไม่พร้อมใช้งาน ในขณะที่การเรียนรู้ผ่านการโต้ตอบกับ LLM เพื่อนำทางภาษาธรรมชาติที่กว้างขวางพร้อมที่จะพิสูจน์ให้เห็นว่ามีทรัพยากรมาก ในการแก้ไขปัญหานี้เราแนะนำ Prompt-Oirl ซึ่งควบคุมการเสริมแรงแบบผกผันแบบออฟไลน์เพื่อดึงข้อมูลเชิงลึกจากข้อมูลการสาธิตออฟไลน์ ข้อมูลดังกล่าวมีอยู่เป็นผลพลอยได้เมื่อพรอมต์ที่หลากหลายได้รับการเปรียบเทียบในชุดข้อมูลแบบเปิดที่สามารถเข้าถึงได้ ด้วย Prompt-Oirl วัตถุประสงค์การเพิ่มประสิทธิภาพที่รวดเร็วขึ้นอยู่กับการสืบค้นนั้นสามารถทำได้โดยการเรียนรู้แบบจำลองรางวัลออฟไลน์เป็นครั้งแรก รุ่นนี้สามารถประเมินคู่การสอบถามใด ๆ โดยไม่ต้องเข้าถึง LLM ต่อจากนั้นกลยุทธ์ที่ดีที่สุดของ N-N จะถูกปรับใช้เพื่อแนะนำพรอมต์ที่ดีที่สุด การประเมินผลการทดลองของเราในเครื่องชั่ง LLM และชุดข้อมูลการใช้เหตุผลทางคณิตศาสตร์ที่หลากหลายเน้นทั้งประสิทธิภาพและความเป็นไปได้ทางเศรษฐกิจของวิธีการที่เสนอ

- ตัวอย่างแรงจูงใจ

รูปที่ 1. ไม่มีพรอมต์ที่สมบูรณ์แบบสำหรับการสืบค้นทั้งหมด พรอมต์ที่ดีที่สุดคือขึ้นอยู่กับการสืบค้น แต่การแสวงหาพรอมต์ดังกล่าวอาจมีค่าใช้จ่ายสูงและไม่มีประสิทธิภาพ พรอมต์โอลล์เพิ่มประสิทธิภาพการแจ้งความพร้อมในระหว่างการอนุมานในระดับ ที่ขึ้นกับการสืบค้น อย่างมีประสิทธิภาพและประหยัดค่าใช้จ่าย (บันทึกการแชทดั้งเดิมด้วย GPT4 สำหรับตัวอย่างแรงจูงใจเหล่านั้นสามารถพบได้ทางซ้ายซ้ายขวา)

การสืบพันธุ์

รอบคัดเลือก

เพื่อทำซ้ำผลลัพธ์ของเรา (เช่นการใช้ LLAMA2)

รับใบอนุญาตในการใช้ LLAMA-2
เข้าถึงชุดข้อมูล: SVAMP, GSM8K, MAWPS

สร้าง env เสมือน

โคลนที่เก็บ

 git clone [email protected]:holarissun/Prompt-OIRL.git

สร้างสภาพแวดล้อมเสมือนจริงใหม่ด้วย Python 3.10 เช่น

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

ติดตั้งข้อกำหนด

 pip install -r requirements.txt

ทำซ้ำผลลัพธ์หลัก

ขั้นตอนที่ 1. (เป็นทางเลือกในขณะที่เราเปิดตัวชุดข้อมูลออฟไลน์) สร้างชุดข้อมูลออฟไลน์โดยการโต้ตอบกับ LLMS

ขั้นตอนนี้จะใช้เวลานาน --- โดยทั่วไปสองสามวัน เพื่อหลีกเลี่ยงการทำซ้ำการคำนวณที่มีราคาแพง (เมื่อใช้ LLMs บนเครื่องจักรในท้องถิ่น) หรือราคาแพง (เมื่อเรียก API เชิงพาณิชย์เช่น GPT3.5 หรือ Tigerbot) กระบวนการเราได้ เปิดตัวบันทึกการโต้ตอบทั้งหมดด้วย LLMs ที่รวบรวมในการทดลองของเรา -

หากคุณต้องการทำซ้ำชุดข้อมูลออฟไลน์เช่นกับโมเดล LLAMA2 คุณต้องทำงานภายใต้ DIR ของ

 [email protected]:facebookresearch/llama.git

และย้าย Prompt-OIRL/llama_exps/llama_step1_gen_offline.py ไปยังโฟลเดอร์ llama

แล้ว

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

ขั้นตอนที่ 2. จัดระเบียบข้อมูลออฟไลน์ที่รวบรวมใหม่

ขั้นตอนนี้จะใช้เวลาสองสามวินาทีในการทำให้เสร็จสิ้นมันจะทำการเปลี่ยนชื่อไฟล์และการทดสอบการทดสอบการฝึกอบรมและบันทึกไฟล์ที่สอดคล้องกันลงในโฟลเดอร์ใหม่ LMllama2

 python3 llama_step2_reorg_data.py

ขั้นตอนที่ 3. ประมวลผลข้อมูลออฟไลน์ล่วงหน้า

ขั้นตอนนี้จะใช้เวลาสองสามวินาทีในการเสร็จสิ้นมันจะประมวลผลข้อมูลและจัดเก็บการฝังและฉลากสำหรับการตั้งค่าการทดลองที่แตกต่างกัน (เช่นมีความพร้อมของการฝึกอบรมที่แตกต่างกัน) พร้อมไฟล์รูปแบบ. .npy

 python3 llama_step3_data_processing.py

ขั้นตอนที่ 4. การเรียนรู้แบบจำลองรางวัลพร็อกซี (เช่นการประเมินผลแบบออฟไลน์)

ขั้นตอนนี้จะใช้เวลาไม่กี่นาทีถึงสองสามชั่วโมงกว่าจะเสร็จสิ้นขึ้นอยู่กับอัลกอริทึมที่เลือกและโปรเซสเซอร์ โดยทั่วไปการฝึกอบรมรุ่นรางวัล XGBOOST จะใช้เวลานานขึ้นเล็กน้อยและการใช้โมเดลรางวัล LightGBM สามารถเร็วขึ้น

 python3 llama_step4_offline_evaluation.py

ขั้นตอนที่ 5. (ออฟไลน์) การเพิ่มประสิทธิภาพพร้อมท์

ขั้นตอนนี้จะใช้เวลาไม่กี่นาที การประเมินอัลกอริทึมโดยการโต้ตอบกับ LLMs อาจเป็นตัวเลือก แต่อาจช้าลง ผลลัพธ์ภายใต้การตั้งค่าที่แตกต่างกันจะถูกบันทึกไว้ในไฟล์ .csv ทั้งหมด

 python3 llama_step5_offline_optimization.py

หมายเหตุ: คุณอาจต้องดาวน์โหลดไฟล์ฝังตัวที่หายไปจากลิงค์นี้ (ขนาดใหญ่สำหรับ GitHub, ~ 230MB)

การอภิปรายที่เกี่ยวข้องเกี่ยวกับ RLHF:

Prompt-Oirl กล่าวถึงปัญหาการแจ้งเตือนใน LLM โดยใช้วิธี RLAIF สำหรับผู้อ่านที่มีความสนใจใน RLHF และ RLAIF และในจุดตัดระหว่างการวิจัย RL และ LLM เราจะอ้างถึงกระดาษตำแหน่งที่เกี่ยวข้องของเราที่พูดถึง RL ในการวิจัย LLM: RL ในยุคของ LLMS: อะไรคือสิ่งสำคัญ? สิ่งที่จำเป็น? RLHF การแจ้งเตือนและอื่น ๆ

การอ้างอิง Bibtex

หากคุณต้องการอ้างอิงรหัสหรือกระดาษของเราโปรดใช้

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-06-30
ขนาด 183.25MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
promptl

โค้ดแหล่งที่มา AI

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด