โรงเรียนภาคฤดูร้อนระหว่างประเทศใน AI
แบบจำลองภาษาขนาดใหญ่และวิธีการสอนปรับแต่ง (อย่างยั่งยืน)
ผู้เขียน : Danilo Croce
ขอบคุณมาก: Claudiu Daniel Hromei สำหรับการสนับสนุนการพัฒนารหัส (ส่วนใหญ่)
พื้นที่เก็บข้อมูลนี้เป็นเจ้าภาพวัสดุจากการบรรยายที่จัดขึ้นในโรงเรียนฤดูร้อนและค่าตอบแทนใน AI 2024 ซึ่งจัดโดย Aixia
วัตถุประสงค์ของการบรรยายครั้งนี้ คือ:
- แนะนำสถาปัตยกรรมที่ใช้หม้อแปลงมา รวมถึงโครงสร้างการเข้ารหัสการเข้ารหัสอย่างเดียวและโครงสร้างแบบถอดรหัสเท่านั้น
- แสดงให้เห็นถึงการปรับจูนแบบจำลองภาษาขนาดใหญ่ (LLMS) ในชุดข้อมูลที่หลากหลายในกรอบการทำงานแบบหลายงาน
- ใช้การปรับตัวระดับต่ำ (LORA) เพื่อ การปรับแต่งอย่างยั่งยืนและมีประสิทธิภาพ ในฮาร์ดแวร์ "เจียมเนื้อเจียมตัว" (เช่น 16GB RAM GPU)
ที่เก็บรวมถึงรหัสสำหรับการปรับแต่งรูปแบบภาษาขนาดใหญ่ (ตาม LLAMA) เพื่อแก้ปัญหางาน NLP เช่นที่เสนอใน Evalita 2023
รหัส
ห้องปฏิบัติการ: ปรับแต่งโมเดลที่ใช้ Llama สำหรับงานทั้งหมดจาก Evalita 2023
ในตอนท้ายการบรรยายครั้งนี้จะแสดงวิธีการเข้ารหัสข้อมูลจากงานที่แตกต่างกันในพรอมต์เฉพาะและปรับแต่ง LLM โดยใช้ Q-LORA รหัสสามารถใช้ใน Google Colab โดยใช้ NVIDIA-T4 GPU พร้อมหน่วยความจำ 15GB
รหัสนี้ขึ้นอยู่กับรหัสที่ใช้ในระบบ Extremita ที่เข้าร่วมกับ Evalita 2023:
- กระดาษสุดขั้ว
- รหัส Extremita Github
กระบวนการโดยรวมแบ่งออกเป็นสี่ขั้นตอน:
- ขั้นตอนที่ 1 - การเข้ารหัสข้อมูล : มันแสดงวิธีการเข้ารหัสข้อมูลจากงาน evalita เพื่อสร้างพรอมต์สำหรับ LLM
- ขั้นตอนที่ 2-ปรับแต่งรุ่น Llama : มันแสดงวิธีปรับแต่ง LLMS ให้ได้ตามพรอมต์
- ขั้นตอนที่ 3 - การอนุมาน: การสร้างคำตอบ : มันแสดงวิธีการใช้โมเดลที่ปรับแต่งแล้ว
- ขั้นตอนที่ 4 - การ deconding ข้อมูล : มันแสดงวิธีการแปลงข้อมูลที่จะประเมินในการท้าทาย evalta
สไลด์
ที่เก็บยังมี สไลด์ (ลิงก์)
การออกกำลังกาย
การออกกำลังกายถูกเสนอในสไลด์สุดท้ายของงานนำเสนอ
ผู้ติดต่อ
สำหรับการสอบถามหรือข้อเสนอแนะให้ยกปัญหาในที่เก็บนี้หรือส่งอีเมล [email protected]