Xiaoqiang Lin*, Zhaoxuan Wu*, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang ต่ำ
หน้าแรกของโครงการ arxiv กระดาษ
นี่คือรหัสสำหรับกระดาษ: ใช้สัญชาตญาณของคุณ: การเพิ่มประสิทธิภาพการเรียนการสอนโดยใช้โจรประสาทควบคู่ไปกับหม้อแปลง เราให้รหัสทั้งหมดสำหรับการทดลองของเราซึ่งรวมถึง:
รหัสของเราขึ้นอยู่กับรหัสจาก Ape และ InstructZero
แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้แสดงความสามารถในการติดตามคำสั่งที่น่าทึ่งและได้รับการแสดงที่น่าประทับใจในแอปพลิเคชันต่างๆ อย่างไรก็ตามการแสดงของ LLM นั้นขึ้นอยู่กับคำแนะนำที่ให้ไว้อย่างมากซึ่งโดยทั่วไปจะได้รับการปรับด้วยตนเองด้วยความพยายามของมนุษย์อย่างมาก งานล่าสุดได้ใช้อัลกอริทึมการเพิ่มประสิทธิภาพแบบคิวรี-ประสิทธิภาพเบย์ (BO) เพื่อเพิ่มประสิทธิภาพคำแนะนำที่ให้กับ LLM แบบกล่องดำโดยอัตโนมัติ อย่างไรก็ตาม BO มักจะสั้นเมื่อปรับให้เหมาะสมกับฟังก์ชั่นวัตถุประสงค์ที่มีความซับซ้อนสูง (เช่นมิติสูง) เช่นฟังก์ชั่นการแมปคำสั่งกับประสิทธิภาพของ LLM นี่คือสาเหตุหลักมาจากพลังการแสดงออกที่ จำกัด ของโมเดล Gaussian Process (GP) ซึ่ง BO ใช้เป็นตัวแทนเพื่อจำลองฟังก์ชันวัตถุประสงค์ ในขณะเดียวกันก็แสดงให้เห็นซ้ำ ๆ ว่าเครือข่ายประสาท (NNS) โดยเฉพาะอย่างยิ่งหม้อแปลงที่ผ่านการฝึกอบรมมาก่อนมีพลังการแสดงออกที่แข็งแกร่งและสามารถจำลองฟังก์ชั่นที่ซับซ้อนสูงได้ ดังนั้นเราจึงนำอัลกอริทึมโจรประสาทเทียมซึ่งแทนที่ GP ใน BO โดยตัวแทน NN เพื่อเพิ่มประสิทธิภาพคำแนะนำสำหรับ LLM กล่องดำ ที่สำคัญกว่านั้นอัลกอริทึมของระบบประสาทช่วยให้เราสามารถจับคู่ตัวแทน NN ด้วยการเป็นตัวแทนที่ซ่อนเร้นได้เรียนรู้โดยหม้อแปลงที่ผ่านการฝึกอบรมมาก่อน (เช่น LLM โอเพนซอร์ซ) ซึ่งช่วยเพิ่มประสิทธิภาพการทำงานอย่างมีนัยสำคัญ สิ่งเหล่านี้กระตุ้นให้เราเสนอการเพิ่มประสิทธิภาพการเรียนการสอนของเราโดยใช้โจรประสาทควบคู่ไปกับอัลกอริทึมของหม้อแปลง (สัญชาตญาณ) เราดำเนินการตามคำสั่งการเพิ่มประสิทธิภาพสำหรับ ChatGPT และใช้การทดลองอย่างกว้างขวางเพื่อแสดงให้เห็นว่าสัญชาตญาณของเรามีประสิทธิภาพสูงกว่าวิธีการที่มีอยู่ในงานที่แตกต่างกันเช่นในงานการแนะนำการเรียนการสอนที่หลากหลาย
คุณสามารถดาวน์โหลดข้อมูลสำหรับการเหนี่ยวนำที่แท้จริงจาก GitHub repo ของ Cordszero คุณสามารถดาวน์โหลดชุดข้อมูลของ Samsum ได้จากเว็บไซต์ HuggingFace คุณสามารถดาวน์โหลดชุดข้อมูลสำหรับ GSM8K, Aquarat และ SVAMP จาก repo for Ape
เราใส่สมุดบันทึกการเตรียมข้อมูลที่ COT/experiments/data/instruction_induction/pre_aqua.ipynb , COT/experiments/data/instruction_induction/pre_gsm8k.ipynb และ Induction/experiments/data/nlptasks/pre_nlp_data.ipynb
ในการเรียกใช้รหัสของเราคุณต้องติดตั้งสภาพแวดล้อมโดยใช้ Conda: conda env create -f environment.yml
เราให้บริการสคริปต์ Bash สำหรับการทดลองของเราเพื่อการแนะนำการแนะนำการเหนี่ยว Induction/experiments/run_neural_bandits.sh ในการเรียกใช้อย่างถูกต้องคุณต้องเรียกใช้สิ่งต่อไปนี้ในเทอร์มินัล:
cd Induction
bash experiments/run_neural_bandits.sh
ในทำนองเดียวกันในการเรียกใช้รหัสของเราสำหรับการปรับปรุงคำสั่งห่วงโซ่คุณต้องเรียกใช้สคริปต์ COT/experiments/run_cot_bandits.sh ดังต่อไปนี้:
cd COT
bash experiments/run_cot_bandits.sh
โปรดทราบว่าก่อนที่คุณจะเรียกใช้สคริปต์ Bash ด้านบนคุณต้องระบุคีย์ OpenAI สำหรับการโทร gpt-turbo-3.5-0301 API ในการทำเช่นนั้นให้เปลี่ยนสิ่งต่อไปนี้ในสคริปต์ทุบตีสองรายการ:
export export OPENAI_API_KEY=YOUR_KEY
@inproceedings{lin2024use,
title={Use Your {INSTINCT}: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers},
author={Xiaoqiang Lin and Zhaoxuan Wu and Zhongxiang Dai and Wenyang Hu and Yao Shu and See-Kiong Ng and Patrick Jaillet and Bryan Kian Hsiang Low},
year={2024},
booktitle={Proc. ICML}
}