น่ากลัว rlaif ☄
รายการบทความและที่เก็บข้อมูลที่เกี่ยวข้องและอัปเดตเกี่ยวกับ การเรียนรู้การเสริมแรงจาก AI คำติชม (RLAIF) โดยเฉพาะอย่างยิ่งในรายการนี้เราติดตามแรงจูงใจต่อไปนี้:
- การใช้ RL เพื่อเพิ่มประสิทธิภาพ LLMS โดยไม่มีมนุษย์ เช่นด้วยคำวิจารณ์ LM เป็นแบบจำลองรางวัล
- การใช้ LLM เพื่อสร้างข้อเสนอแนะในวง critique ตัวเอง
ทรัพยากรที่จดทะเบียนบางส่วนอาจได้รับการพิจารณาว่าเป็นส่วนหนึ่งของ RLHF: ชายแดนเบลอ มีรายการ RLHF ที่ยอดเยี่ยมอยู่แล้วดังนั้นที่นี่เราให้ความสำคัญกับสองจุดก่อนหน้า
บทความ
บทความเรียงลำดับตามลำดับเวลา
2024
- 2401.10020 โมเดลภาษาที่ให้รางวัลตนเอง
เชิงนามธรรม
เราวางตัวว่าเพื่อให้บรรลุตัวแทนเหนือมนุษย์โมเดลในอนาคตต้องการความคิดเห็นเหนือมนุษย์เพื่อให้สัญญาณการฝึกอบรมที่เพียงพอ วิธีการในปัจจุบันฝึกอบรมแบบจำลองการให้รางวัลจากการตั้งค่าของมนุษย์ซึ่งอาจเป็นคอขวดโดยระดับประสิทธิภาพของมนุษย์และประการที่สองโมเดลรางวัลแช่แข็งแยกต่างหากเหล่านี้ไม่สามารถเรียนรู้ที่จะปรับปรุงในระหว่างการฝึกอบรม LLM ในงานนี้เราศึกษาแบบจำลองภาษาที่ให้รางวัลตนเองซึ่งรูปแบบภาษานั้นถูกใช้ผ่าน LLM-as-a-Judge เพื่อให้รางวัลของตัวเองในระหว่างการฝึกอบรม เราแสดงให้เห็นว่าในระหว่างการฝึกอบรม DPO ซ้ำ ๆ ที่ไม่เพียง แต่การเรียนการสอนจะปรับปรุงความสามารถ แต่ยังรวมถึงความสามารถในการให้รางวัลคุณภาพสูงแก่ตัวเอง การปรับแต่ง Llama 2 70b ในการวนซ้ำสามวิธีของวิธีการของเราให้แบบจำลองที่มีประสิทธิภาพสูงกว่าระบบที่มีอยู่จำนวนมากบนกระดานผู้นำ Alpacaeval 2.0 รวมถึง Claude 2, Gemini Pro และ GPT-4 0613
2023
2309.00267 RLAIF: การเรียนรู้การเสริมแรงจากการตอบรับจากข้อเสนอแนะของมนุษย์พร้อมคำติชม AI
เชิงนามธรรม
การเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) มีประสิทธิภาพในการจัดรูปแบบภาษาขนาดใหญ่ (LLMS) กับความชอบของมนุษย์ แต่การรวบรวมฉลากความชอบของมนุษย์ที่มีคุณภาพสูงเป็นคอขวดสำคัญ เราทำการเปรียบเทียบแบบตัวต่อตัวของ RLHF เทียบกับ RL จาก AI Feedback (RLAIF)-เทคนิคที่การตั้งค่าถูกระบุด้วย LLM นอกชั้นวางของมนุษย์และเราพบว่าพวกเขาส่งผลให้เกิดการปรับปรุงที่คล้ายกัน ในงานสรุปผู้ประเมินผลของมนุษย์ชอบรุ่นจากทั้ง RLAIF และ RLHF มากกว่าแบบจำลองพื้นฐานที่ได้รับการปรับแต่งในกรณีที่มีการปรับแต่งในกรณี ~ 70% นอกจากนี้เมื่อถูกขอให้ให้คะแนน RLAIF กับบทสรุป RLHF มนุษย์ชอบทั้งสองในอัตราที่เท่ากัน ผลลัพธ์เหล่านี้ชี้ให้เห็นว่า RLAIF สามารถให้ประสิทธิภาพในระดับมนุษย์ซึ่งเสนอวิธีแก้ปัญหาที่เป็นไปได้สำหรับข้อ จำกัด ความสามารถในการปรับขนาดของ RLHF
2309.07124 ฝน: โมเดลภาษาของคุณสามารถจัดตำแหน่งตัวเองได้โดยไม่ต้องใช้ finetuning
เชิงนามธรรม
แบบจำลองภาษาขนาดใหญ่ (LLMS) มักแสดงให้เห็นถึงความไม่สอดคล้องกับความชอบของมนุษย์ การวิจัยก่อนหน้านี้รวบรวมข้อมูลการตั้งค่าของมนุษย์จากนั้นจัดรูปแบบที่ผ่านการฝึกอบรมมาก่อนโดยใช้การเรียนรู้การเสริมแรงหรือการปรับแต่งการเรียนการสอนขั้นตอนที่เรียกว่า finetuning ในทางตรงกันข้ามการจัดแนว LLMS แช่แข็งโดยไม่มีข้อมูลเพิ่มเติมใด ๆ ที่น่าดึงดูดยิ่งขึ้น งานนี้สำรวจศักยภาพของการตั้งค่าหลัง เราค้นพบว่าด้วยการบูรณาการการประเมินตนเองและกลไกการย้อนกลับ LLM ที่ไม่สอดคล้องกันสามารถสร้างการตอบสนองโดยตรงที่สอดคล้องกับความชอบของมนุษย์ผ่านการเพิ่มความเป็นตัวเอง เราแนะนำวิธีการอนุมานนวนิยายการอนุมานอัตโนมัติแบบย้อนกลับได้ (RAIN) ซึ่งช่วยให้ LLM ที่ผ่านการฝึกอบรมมาก่อนประเมินรุ่นของตนเองและใช้ผลการประเมินผลเพื่อเป็นแนวทางในการย้อนกลับย้อนหลังและการสร้าง Forward เพื่อความปลอดภัย AI โดยเฉพาะอย่างยิ่ง Rain ทำงานโดยไม่จำเป็นต้องมีข้อมูลเพิ่มเติมสำหรับการจัดตำแหน่งแบบจำลองและงดออกจากการฝึกอบรมการคำนวณการไล่ระดับสีหรือการอัปเดตพารามิเตอร์ ในระหว่างขั้นตอนการประเมินตนเองแบบจำลองจะได้รับคำแนะนำว่าการตั้งค่าของมนุษย์ในการจัดตำแหน่งผ่านการแจ้งเตือนแบบคงที่โดยไม่จำเป็นต้องปรับเปลี่ยนพรอมต์เริ่มต้น ผลการทดลองที่ประเมินโดย GPT-4 และมนุษย์แสดงให้เห็นถึงประสิทธิภาพของฝน: ในชุดข้อมูล HH ฝนจะช่วยเพิ่มอัตราความไม่เป็นอันตรายของ LLAMA 30B มากกว่าการอนุมานวานิลลาจาก 82% เป็น 97% ในขณะที่รักษาอัตราความช่วยเหลือ ภายใต้การโจมตีของฝ่ายตรงข้าม LLM การโจมตี LLM บน Vicuna 33b ฝนจะสร้างพื้นฐานการป้องกันใหม่โดยลดอัตราความสำเร็จในการโจมตีจาก 94% เป็น 19%
2308.06385 Zyn: รุ่นรางวัล zero-shot พร้อมคำถามใช่ไม่ใช่
เชิงนามธรรม
ในงานนี้เราจัดการกับปัญหาการกำกับการสร้างข้อความของ LLM ไปสู่พฤติกรรมที่ต้องการโดยจัดเรียงข้อความที่สร้างขึ้นกับการตั้งค่าของผู้ปฏิบัติงานมนุษย์ เราเสนอให้ใช้รูปแบบภาษาอื่นเป็นนักวิจารณ์โมเดลรางวัลในรูปแบบที่ไม่มีการยิงด้วยการแจ้งเตือนของคำถามใช่ไม่ใช่ที่แสดงถึงการตั้งค่าของผู้ใช้โดยไม่ต้องใช้ข้อมูลเพิ่มเติม แบบจำลองรางวัล Zero-shot นี้ให้สัญญาณการเรียนรู้เพื่อปรับแต่งฐาน LLM โดยใช้การเรียนรู้การเสริมแรงเช่นเดียวกับใน RLAIF; แต่วิธีการของเรายังเข้ากันได้ในบริบทอื่น ๆ เช่นการค้นหาความหลากหลายคุณภาพ หลักฐานที่ครอบคลุมเกี่ยวกับความสามารถของกรอบ Zyn ที่เสนอนั้นมีให้ผ่านการทดลองในโดเมนต่าง ๆ ที่เกี่ยวข้องกับการสร้างข้อความรวมถึงการล้างพิษ การเพิ่มประสิทธิภาพความเชื่อมั่นของบทวิจารณ์ภาพยนตร์หรือคุณลักษณะอื่น ๆ นำความคิดเห็นเกี่ยวกับหัวข้อเฉพาะที่โมเดลอาจมี; และปรับแต่งเครื่องกำเนิดไฟฟ้าพร้อมท์สำหรับงานข้อความเป็นภาพ
2307.12950 RLCD: การเรียนรู้การเสริมแรงจากการกลั่นความคมชัดสำหรับการจัดตำแหน่งแบบจำลองภาษา
เชิงนามธรรม
เราเสนอการเรียนรู้การเสริมแรงจากการกลั่นความคมชัด (RLCD) ซึ่งเป็นวิธีการจัดรูปแบบภาษาเพื่อปฏิบัติตามหลักการภาษาธรรมชาติโดยไม่ต้องใช้ความคิดเห็นของมนุษย์ RLCD ฝึกอบรมแบบจำลองการตั้งค่าโดยใช้คู่การตั้งค่าจำลองที่มีทั้งตัวอย่างคุณภาพสูงและคุณภาพต่ำที่สร้างขึ้นโดยใช้พรอมต์บวกและลบที่ตัดกัน จากนั้นรูปแบบการตั้งค่าจะถูกใช้เพื่อปรับปรุงรูปแบบภาษาที่ไม่ได้จัดตำแหน่งพื้นฐานผ่านการเรียนรู้การเสริมแรง เชิงประจักษ์ RLCD มีประสิทธิภาพสูงกว่า RLAIF (Bai et al., 2022b) และการกลั่นบริบท (Huang et al., 2022) baselines ในงานการจัดตำแหน่งที่หลากหลายสามงาน-ความไม่เป็นอันตรายความช่วยเหลือ
2022
- 2212.08073 รัฐธรรมนูญ AI: ความไม่เป็นอันตรายจากข้อเสนอแนะ AI
เชิงนามธรรม
เมื่อระบบ AI มีความสามารถมากขึ้นเราต้องการขอความช่วยเหลือในการดูแล AIS อื่น ๆ เราทดลองใช้วิธีการฝึกอบรมผู้ช่วย AI ที่ไม่เป็นอันตรายผ่านการพัฒนาตนเองโดยไม่มีฉลากมนุษย์ใด ๆ ที่ระบุผลลัพธ์ที่เป็นอันตราย การกำกับดูแลของมนุษย์เพียงอย่างเดียวนั้นมีให้ผ่านรายการกฎหรือหลักการดังนั้นเราจึงอ้างถึงวิธีการว่า 'รัฐธรรมนูญ AI' กระบวนการนี้เกี่ยวข้องกับทั้งการเรียนรู้ภายใต้การดูแลและขั้นตอนการเรียนรู้การเสริมแรง ในขั้นตอนการดูแลเราตัวอย่างจากแบบจำลองเริ่มต้นจากนั้นสร้างคำวิจารณ์และการแก้ไขด้วยตนเองจากนั้นจึงปรับโมเดลดั้งเดิมในการตอบกลับที่แก้ไขแล้ว ในเฟส RL เราสุ่มตัวอย่างจากโมเดล Finetuned ใช้แบบจำลองเพื่อประเมินว่าตัวอย่างใดที่ดีกว่าสองตัวอย่างที่ดีกว่าจากนั้นฝึกอบรมแบบจำลองการตั้งค่าจากชุดข้อมูลนี้ของการตั้งค่า AI จากนั้นเราฝึกด้วย RL โดยใช้โมเดลการตั้งค่าเป็นสัญญาณรางวัลเช่นเราใช้ 'RL จาก AI คำติชม' (RLAIF) เป็นผลให้เราสามารถฝึกอบรมผู้ช่วย AI ที่ไม่เป็นอันตราย แต่ไม่ได้รับการยกเว้นซึ่งมีส่วนร่วมกับการสืบค้นที่เป็นอันตรายโดยอธิบายการคัดค้านพวกเขา ทั้งวิธี SL และ RL สามารถใช้ประโยชน์จากการใช้เหตุผลในรูปแบบของความคิดเพื่อปรับปรุงประสิทธิภาพการทำงานของมนุษย์และความโปร่งใสของการตัดสินใจ AI วิธีการเหล่านี้ทำให้สามารถควบคุมพฤติกรรม AI ได้อย่างแม่นยำมากขึ้นและมีป้ายกำกับมนุษย์น้อยลง
รหัส
ที่นี่เราติดตามที่เก็บข้อมูลและรหัสตัวอย่างที่เกี่ยวข้องกับ RLAIF
- autocrit พื้นที่เก็บข้อมูลสำหรับการเรียนรู้การวิพากษ์วิจารณ์หม้อแปลงและรุ่น
- Zero-shot-reward-models Zyn: รุ่นรางวัล zero-shot พร้อมคำถามใช่ไม่ใช่
- ห่วงโซ่ critique critique ตัวเองด้วย AI รัฐธรรมนูญโดยใช้ Langchain
มีส่วนร่วม❤
กรุณาอย่าลังเลที่จะส่ง PR หากคุณต้องการรวมทรัพยากรไว้ในรายการนี้!