ที่เก็บนี้มีห้องปฏิบัติการสำหรับหลักสูตร Coursera ใน "Generative AI ที่มีรูปแบบภาษาขนาดใหญ่"
ดำเนินการสรุปการโต้ตอบโดยใช้ AI Generative การทดลองในการเรียนรู้ในบริบทเช่นศูนย์ช็อตการยิงหนึ่งนัดและการอนุมานการยิงไม่กี่ครั้งและปรับพารามิเตอร์การกำหนดค่าที่เกี่ยวข้องที่การอนุมานเพื่อมีอิทธิพลต่อผลลัพธ์
ดำเนินการตามคำแนะนำการปรับแต่งอย่างละเอียดเกี่ยวกับ LLM ที่มีอยู่จากการกอดใบหน้ารุ่น Flan-T5 สำรวจทั้งการปรับแต่งอย่างละเอียดรวมถึงวิธีการปรับแต่ง PEFT (พารามิเตอร์ที่มีประสิทธิภาพอย่างละเอียด) เช่น LORA (การปรับระดับต่ำ) และการประเมินผลโดยใช้ตัวชี้วัดรูจ
ปรับแต่งโมเดล Flan-T5 เพิ่มเติมโดยใช้การเรียนรู้การเสริมแรงด้วยแบบจำลองรางวัลเช่นโมเดลรางวัลคำพูดแสดงความเกลียดชังของ Meta AI เพื่อสร้างบทสรุปที่เป็นพิษน้อยลง ใช้การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) เพื่อปรับแต่งและล้างพิษแบบจำลอง