รากฐานโมเดล-โมเดล-โมเดล-Model-FM-LLM-
พื้นที่เก็บข้อมูลนี้ได้รับการยอมรับภายใต้การดำเนินการของการดำเนินงานที่สำคัญซึ่งมีการวางแนวคิด AI ที่ทันสมัย โดยเฉพาะอย่างยิ่งเราเพ่งความสนใจไปที่การเขียนการเข้ารหัสสามแบบของแบบจำลองภาษาขนาดใหญ่ซึ่งได้รับดังนี้:
- เราสำรวจตัวอย่างการสรุปบทสนทนาผ่าน AI Generative บน AWS ด้วย Instace-type ML-M5-2xlarge สิ่งนี้ถูกดำเนินการสำเร็จโดยการรวมบทสรุปของบทสนทนากับรูปแบบภาษาขนาดใหญ่ที่ผ่านการฝึกอบรมมาก่อน (LLM) Flan-T5 จากการกอดใบหน้า นอกจากนี้เรายังใช้วิศวกรรมที่รวดเร็วซึ่งเป็นแนวคิดที่สำคัญในรูปแบบพื้นฐานสำหรับการสร้างข้อความ เราใช้การอนุมานแบบไม่มีการช็อตการอนุมานหนึ่งนัดและการอนุมานไม่กี่ครั้งเพื่อสรุปการทดลองสรุปบทสนทนา
- ในการทดลองครั้งที่สองเราสำรวจแนวคิดที่สำคัญของการปรับจูนอย่างละเอียดเกี่ยวกับแบบจำลอง AI แบบกำเนิดและอีกครั้งเราทำงานในการทดลองสรุปบทสนทนา เป็นสิ่งสำคัญอีกครั้งที่จะต้องทราบว่าการทดลองนี้ดำเนินการกับ AWS ด้วย ML-M5-2XLarge ประเภท Instace หลังจากเรียกคืนชุดข้อมูลที่เราสนใจซึ่งในกรณีนี้คือชุดข้อมูลการกอดชุดข้อมูลใบหน้าเราโหลดโมเดล FLAN-T5 ที่ผ่านการฝึกอบรมมาก่อนแล้ว หลังจากทดสอบแบบจำลองด้วยการประนีประนอมการยิงเราได้ปรับโมเดลแล้วเราประเมินความถูกต้องของ LLM ที่ผ่านการฝึกอบรมโดยตัวชี้วัด Rogue หลังจากนั้นเราได้ทำการปรับจูนอย่างละเอียดเราได้ดำเนินการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพ (PEFT) ซึ่งเป็นคำทั่วไปที่มีการปรับตัวระดับต่ำ (LORA) และการทดลอง IC สรุปโดยการคำนวณตัวชี้วัดการโกงอีกครั้งเพื่อตรวจสอบความถูกต้องของ PEFT บนโมเดล
- สุดท้ายเราศึกษาวิธีปรับแต่งโมเดล Flan-T5 เพื่อสร้างเนื้อหาที่เป็นพิษน้อยลงด้วยโมเดลรางวัลคำพูดแสดงความเกลียดชังของ Meta AI หลังจากที่เราได้ดำเนินการตามแบบดั้งเดิมเราทำการปรับจูนอย่างละเอียดเพื่อล้างพิษสรุปโดยการเพิ่มประสิทธิภาพนโยบายการเรียนรู้การเสริมแรงกับแบบจำลองรางวัลโดยใช้การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) อีกครั้งโปรดอย่าลืมว่าเราดำเนินการทั้งหมดนี้ใน AWS ด้วย Instace-type ML-M5-2xlarge
การเข้ารหัสทั้งหมดเหล่านี้มีให้บริการในระหว่างหลักสูตรที่ฉันใช้ใน https://www.coursera.org/learn/generative-ai-with-llms ที่ Coursera ใบรับรองการมีส่วนร่วมที่ใช้งานของฉันได้รับการอัปโหลดในที่เก็บนี้แล้ว