ดาวน์โหลด Large Language Model Notebooks Course Large Language Model Notebooks Course Source Source Download

หลักสูตรรูปแบบภาษาขนาดใหญ่: เรียนรู้ด้วยการทำโครงการ LLM

นี่คือพื้นที่เก็บข้อมูลที่ไม่เป็นทางการสำหรับหนังสือ: แบบจำลองภาษาขนาดใหญ่: ใช้และใช้กลยุทธ์สำหรับแบบจำลองภาษาขนาดใหญ่ (APRESS) หนังสือเล่มนี้ขึ้นอยู่กับเนื้อหาของที่เก็บนี้ แต่สมุดบันทึกกำลังได้รับการปรับปรุงและฉันกำลังรวมตัวอย่างและบทใหม่ ๆ หากคุณกำลังมองหาที่เก็บอย่างเป็นทางการสำหรับหนังสือเล่มนี้ด้วยสมุดบันทึกต้นฉบับคุณควรเยี่ยมชมที่เก็บของ Apress ซึ่งคุณสามารถค้นหาสมุดบันทึกทั้งหมดในรูปแบบดั้งเดิมของพวกเขาตามที่ปรากฏในหนังสือ ซื้อที่: [Amazon] [Springer]

โปรดทราบว่าหลักสูตรบน GitHub ไม่มีข้อมูลทั้งหมดที่อยู่ในหนังสือ

การใช้งานจริงเกี่ยวกับแบบจำลองภาษาขนาดใหญ่และแอปพลิเคชันของพวกเขาคือ ?? ในการพัฒนาอย่างถาวร? ฉันจะโพสต์บทเรียนและตัวอย่างที่แตกต่างกันเมื่อฉันทำเสร็จ

หลักสูตรนี้มอบประสบการณ์การใช้งานจริงโดยใช้โมเดลจาก OpenAI และห้องสมุด Hugging Face เราจะได้เห็นและใช้เครื่องมือและฝึกฝนมากมายกับโครงการขนาดเล็กที่จะเติบโตขึ้นเพราะเราสามารถใช้ความรู้ใหม่ที่ได้รับ

หลักสูตรแบ่งออกเป็นสามส่วนหลัก:

1- เทคนิคและห้องสมุด:

ในส่วนนี้เราจะสำรวจเทคนิคต่าง ๆ ผ่านตัวอย่างเล็ก ๆ ที่จะช่วยให้เราสามารถสร้างโครงการที่ใหญ่กว่าในส่วนต่อไปนี้ เราจะได้เรียนรู้วิธีการใช้ห้องสมุดที่พบบ่อยที่สุดในโลกของแบบจำลองภาษาขนาดใหญ่โดยมีจุดสนใจในทางปฏิบัติเสมอในขณะที่ใช้วิธีการของเราในเอกสารที่เผยแพร่

บางหัวข้อและเทคโนโลยีที่กล่าวถึงในส่วนนี้รวมถึง: chatbots, การสร้างรหัส, OpenAI API, กอดหน้า, ฐานข้อมูลเวกเตอร์, Langchain, การปรับแต่งอย่างละเอียด

2- โครงการ:

เราจะสร้างโครงการอธิบายการตัดสินใจออกแบบ แต่ละโครงการอาจมีการใช้งานที่เป็นไปได้มากกว่าหนึ่งครั้งบ่อยครั้งที่มีวิธีแก้ปัญหาที่สมบูรณ์แบบเพียงอย่างเดียว ในส่วนนี้เราจะเจาะลึกเข้าไปในหัวข้อที่เกี่ยวข้องกับ LLMOPS แม้ว่าจะไม่ใช่จุดสนใจหลักของหลักสูตร

3- โซลูชั่น Enterprise:

แบบจำลองภาษาขนาดใหญ่ไม่ใช่วิธีแก้ปัญหาแบบสแตนด์อโลน ในสภาพแวดล้อมขององค์กรขนาดใหญ่พวกเขาเป็นเพียงชิ้นส่วนของปริศนา เราจะสำรวจวิธีการจัดโครงสร้างโซลูชั่นที่สามารถเปลี่ยนองค์กรด้วยพนักงานหลายพันคนและรูปแบบภาษาขนาดใหญ่มีบทบาทสำคัญในโซลูชันใหม่เหล่านี้

วิธีใช้หลักสูตร

ภายใต้แต่ละส่วนคุณสามารถค้นหาบทที่แตกต่างกันซึ่งเกิดจากบทเรียนที่แตกต่างกัน ชื่อเรื่องของบทเรียนคือลิงค์ไปยังหน้าบทเรียนซึ่งคุณสามารถพบสมุดบันทึกและบทความทั้งหมดของบทเรียน

แต่ละบทเรียนสอดคล้องกันโดยสมุดบันทึกและบทความ สมุดบันทึกมีข้อมูลที่เพียงพอสำหรับการทำความเข้าใจรหัสภายในบทความนี้ให้คำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับรหัสและหัวข้อที่ครอบคลุม

คำแนะนำของฉันคือให้บทความเปิดอยู่ข้างสมุดบันทึกและทำตาม บทความจำนวนมากเสนอเคล็ดลับเล็ก ๆ เกี่ยวกับรูปแบบที่คุณสามารถแนะนำให้รู้จักกับสมุดบันทึก ฉันแนะนำให้ติดตามพวกเขาเพื่อเพิ่มความชัดเจนของแนวคิด

สมุดบันทึกส่วนใหญ่โฮสต์บน colab ในขณะที่บางคนอยู่ใน Kaggle Kaggle ให้หน่วยความจำมากขึ้นในเวอร์ชันฟรีเมื่อเทียบกับ colab แต่ฉันพบว่าการคัดลอกและแบ่งปันโน้ตบุ๊กนั้นง่ายกว่าใน colab และไม่ใช่ทุกคนที่มีบัญชี Kaggle

สมุดบันทึกบางเล่มต้องการหน่วยความจำมากกว่าที่ Colab ให้ไว้ฟรี ในขณะที่เรากำลังทำงานกับแบบจำลองภาษาขนาดใหญ่นี่เป็นสถานการณ์ทั่วไปที่จะเกิดขึ้นอีกหากคุณทำงานกับพวกเขาต่อไป คุณสามารถเรียกใช้สมุดบันทึกในสภาพแวดล้อมของคุณเองหรือเลือกใช้ colab เวอร์ชันมืออาชีพ

1- เทคนิคและห้องสมุด

สมุดบันทึกแต่ละเล่มได้รับการสนับสนุนด้วยบทความกลางที่มีการอธิบายรหัสในรายละเอียด

รู้เบื้องต้นเกี่ยวกับโมเดลภาษาขนาดใหญ่ด้วย OpenAI

ในส่วนแรกของหลักสูตรนี้เราจะเรียนรู้ที่จะทำงานร่วมกับ OpenAI API โดยการสร้างโครงการเล็ก ๆ สองโครงการ เราจะเจาะลึกบทบาทของ OpenAi และวิธีการให้คำแนะนำที่จำเป็นแก่โมเดลผ่านการแจ้งเตือนเพื่อให้มันทำงานตามที่เราต้องการ

โครงการแรกคือ Chatbot ร้านอาหารที่รุ่นจะรับคำสั่งซื้อลูกค้า การสร้างในโครงการนี้เราจะสร้างเครื่องกำเนิดคำสั่ง SQL ที่นี่เราจะพยายามสร้างพรอมต์ที่ปลอดภัยซึ่งยอมรับคำสั่ง SQL Creation เท่านั้นและไม่มีอะไรอื่น

สร้าง chatbot แรกของคุณโดยใช้ GPT 3.5, OpenAI, Python และ Panel

เราจะใช้ Openai GPT-3.5 และแผงเพื่อพัฒนา chatbot ตรงไปตรงมาที่เหมาะสำหรับร้านอาหารฟาสต์ฟู้ด ในระหว่างหลักสูตรเราจะสำรวจพื้นฐานของวิศวกรรมที่รวดเร็วรวมถึงการทำความเข้าใจบทบาทของ OpenAI ที่หลากหลายการจัดการการตั้งค่าอุณหภูมิและวิธีการหลีกเลี่ยงการฉีดทันที

แผงบทความ / บทความ gradio	แผงโน๊ตบุ๊ค / โน๊ตบุ๊ค Gradio

วิธีสร้างภาษาธรรมชาติให้กับนักแปล SQL โดยใช้ OpenAI API

ตามกรอบงานเดียวกันที่ใช้ในบทความก่อนหน้านี้เพื่อสร้าง chatbot เราได้ทำการปรับเปลี่ยนสองสามอย่างเพื่อพัฒนาภาษาธรรมชาติให้กับนักแปล SQL ในกรณีนี้โมเดลจะต้องได้รับโครงสร้างของตารางและการปรับเปลี่ยนเพื่อให้การทำงานที่ราบรื่นและหลีกเลี่ยงความผิดปกติใด ๆ ที่อาจเกิดขึ้น ด้วยการปรับเปลี่ยนเหล่านี้ในสถานที่นักแปลมีความสามารถในการแปลงการสืบค้นภาษาธรรมชาติเป็นแบบสอบถาม SQL @FMQuaglia ได้สร้างสมุดบันทึกโดยใช้ DBML เพื่ออธิบายตารางที่ไกลออกไปนั้นดีกว่าต้นฉบับ

บทความ / บทความ gradio	Notebook / Notebook Gradio / Notebook DBML

บทนำสั้น ๆ เกี่ยวกับวิศวกรรมที่รวดเร็วด้วย OpenAI

เราจะสำรวจเทคนิคทางวิศวกรรมที่รวดเร็วเพื่อปรับปรุงผลลัพธ์ที่เราได้รับจากแบบจำลอง เช่นวิธีการจัดรูปแบบคำตอบและรับการตอบสนองที่มีโครงสร้างโดยใช้ตัวอย่างช็อตเพียงไม่กี่ตัวอย่าง

บทความ	สมุดบันทึก

ฐานข้อมูลเวกเตอร์ด้วย LLMS

การแนะนำสั้น ๆ เกี่ยวกับฐานข้อมูลเวกเตอร์เทคโนโลยีที่จะมาพร้อมกับเราในบทเรียนมากมายตลอดหลักสูตร เราจะทำงานในตัวอย่างของการสร้างการเพิ่มการดึงข้อมูลโดยใช้ข้อมูลจากชุดข้อมูลข่าวต่าง ๆ ที่เก็บไว้ใน Chromadb

มีอิทธิพลต่อแบบจำลองภาษาด้วยข้อมูลส่วนบุคคลโดยใช้ฐานข้อมูลเวกเตอร์

หากมีแง่มุมหนึ่งที่ได้รับความสำคัญในโลกของแบบจำลองภาษาขนาดใหญ่มันเป็นการสำรวจวิธีการใช้ประโยชน์จากข้อมูลที่เป็นกรรมสิทธิ์กับพวกเขา ในบทเรียนนี้เราสำรวจวิธีแก้ปัญหาที่เป็นไปได้ที่เกี่ยวข้องกับการจัดเก็บข้อมูลในฐานข้อมูลเวกเตอร์ Chromadb ในกรณีของเราและใช้มันเพื่อสร้างพรอมต์ที่ได้รับการเสริมสมรรถนะ

บทความ	สมุดบันทึก

แคชความหมายสำหรับระบบผ้าขี้ริ้ว

เราปรับปรุงระบบ RAG โดยการแนะนำเลเยอร์แคชความหมายที่สามารถพิจารณาได้ว่ามีการถามคำถามที่คล้ายกันมาก่อนหรือไม่ หากยืนยันจะดึงข้อมูลจากระบบแคชที่สร้างขึ้นด้วย FAISS แทนการเข้าถึงฐานข้อมูลเวกเตอร์

แรงบันดาลใจและรหัสพื้นฐานของแคชความหมายที่มีอยู่ในสมุดบันทึกนี้มีอยู่เนื่องจากหลักสูตร: https://maven.com/boring-bot/advanced-llm/1/home จาก Hamza Farooq

บทความ	สมุดบันทึก
เช็ด	สมุดบันทึก

Langchain

Langchain เป็นหนึ่งในห้องสมุดในจักรวาลของแบบจำลองภาษาขนาดใหญ่ที่มีส่วนร่วมในการปฏิวัติครั้งนี้มากที่สุด ช่วยให้เราสามารถใช้สายการโทรไปยังรุ่นและระบบอื่น ๆ ทำให้เราสามารถสร้างแอปพลิเคชันตามแบบจำลองภาษาขนาดใหญ่ ในหลักสูตรเราจะใช้มันหลายครั้งสร้างโครงการที่ซับซ้อนมากขึ้น

Generation Augmented Retrieval (RAG) ใช้ข้อมูลจาก DataFrames ของคุณด้วย LLMS

ในบทเรียนนี้เราใช้ Langchain เพื่อปรับปรุงสมุดบันทึกจากบทเรียนก่อนหน้านี้ซึ่งเราใช้ข้อมูลจากชุดข้อมูลสองชุดเพื่อสร้างพรอมต์ที่ได้รับการตกแต่ง เวลานี้ด้วยความช่วยเหลือของ Langchain เราได้สร้างท่อที่รับผิดชอบในการดึงข้อมูลจากฐานข้อมูลเวกเตอร์และส่งผ่านไปยังรูปแบบภาษา โน้ตบุ๊กถูกตั้งค่าให้ทำงานกับชุดข้อมูลที่แตกต่างกันสองชุดและสองรุ่นที่แตกต่างกัน หนึ่งในโมเดลได้รับการฝึกฝนสำหรับการสร้างข้อความในขณะที่อีกรุ่นหนึ่งได้รับการฝึกฝนสำหรับการสร้าง text2Text

บทความ	สมุดบันทึก

สร้างระบบการกลั่นกรองโดยใช้ Langchain

เราจะสร้างระบบตอบสนองความคิดเห็นโดยใช้ไปป์ไลน์สองรุ่นที่สร้างด้วย Langchain ในการตั้งค่านี้โมเดลที่สองจะรับผิดชอบในการควบคุมการตอบสนองที่สร้างขึ้นโดยรุ่นแรก

วิธีหนึ่งที่มีประสิทธิภาพในการป้องกันไม่ให้ระบบของเราสร้างการตอบสนองที่ไม่พึงประสงค์คือการใช้โมเดลที่สองที่ไม่มีการโต้ตอบโดยตรงกับผู้ใช้เพื่อจัดการการสร้างการตอบสนอง

วิธีการนี้สามารถลดความเสี่ยงของการตอบสนองที่ไม่พึงประสงค์ที่สร้างขึ้นโดยรุ่นแรกในการตอบสนองต่อรายการของผู้ใช้

ฉันจะสร้างสมุดบันทึกแยกต่างหากสำหรับงานนี้ หนึ่งจะเกี่ยวข้องกับโมเดลจาก OpenAI และคนอื่น ๆ จะใช้โมเดลโอเพนซอร์ซที่จัดทำโดยการกอดใบหน้า ผลลัพธ์ที่ได้ในโน้ตบุ๊กทั้งสามนั้นแตกต่างกันมาก ระบบทำงานได้ดีขึ้นมากกับโมเดล OpenAI และ LLAMA2

บทความ	สมุดบันทึก
บทความ Openai	สมุดบันทึก Openai
บทความ Llama2-7B	สมุดบันทึก LLAMA2-7B
ไม่มีบทความ	สมุดบันทึก GPT-J

สร้างผู้ช่วยนักวิเคราะห์ข้อมูลโดยใช้เอเจนต์ LLM

ตัวแทนเป็นหนึ่งในเครื่องมือที่ทรงพลังที่สุดในโลกของแบบจำลองภาษาขนาดใหญ่ เอเจนต์มีความสามารถในการตีความคำขอของผู้ใช้และการใช้เครื่องมือและห้องสมุดในการกำจัดจนกว่าจะได้ผลลัพธ์ที่คาดหวัง

ด้วยตัวแทน Langchain เราจะสร้างในไม่กี่บรรทัดหนึ่งในตัวแทนที่ง่ายที่สุด แต่ทรงพลังอย่างไม่น่าเชื่อ ตัวแทนจะทำหน้าที่เป็นผู้ช่วยนักวิเคราะห์ข้อมูลและช่วยเราในการวิเคราะห์ข้อมูลที่มีอยู่ในไฟล์ Excel ใด ๆ มันจะสามารถระบุแนวโน้มใช้โมเดลทำการคาดการณ์ โดยสรุปเราจะสร้างเอเจนต์ง่ายๆที่เราสามารถใช้ในงานประจำวันของเราเพื่อวิเคราะห์ข้อมูลของเรา

บทความ	สมุดบันทึก

สร้างแชทบ็อตทางการแพทย์ด้วย Langchain และ Chromadb

ในตัวอย่างนี้มีสองเทคโนโลยีที่เห็นก่อนหน้านี้: ตัวแทนและฐานข้อมูลเวกเตอร์ ข้อมูลทางการแพทย์จะถูกเก็บไว้ใน Chromadb และมีการสร้างตัวแทน Langchain ซึ่งจะนำมาใช้เฉพาะเมื่อจำเป็นเพื่อสร้างพรอมต์ที่ได้รับการเสริมซึ่งจะถูกส่งไปยังโมเดลเพื่อตอบคำถามของผู้ใช้

กล่าวอีกนัยหนึ่งระบบผ้าขี้ริ้วถูกสร้างขึ้นเพื่อช่วย chatbot ทางการแพทย์

ความสนใจ!!! ใช้เป็นตัวอย่างเท่านั้น ไม่มีใครควรใช้คำแนะนำของการบูตในฐานะแพทย์ตัวจริง ฉันขอปฏิเสธความรับผิดชอบทั้งหมดสำหรับการใช้งานที่อาจมอบให้กับ Chatbot ฉันได้สร้างมันขึ้นมาเป็นตัวอย่างของเทคโนโลยีที่แตกต่างกันเท่านั้น

บทความ	สมุดบันทึก

การประเมิน LLMS

ตัวชี้วัดที่ใช้ในการวัดประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่นั้นค่อนข้างแตกต่างจากที่เราใช้ในแบบจำลองดั้งเดิมมากขึ้น เราเปลี่ยนไปจากตัวชี้วัดเช่นความแม่นยำคะแนน F1 หรือการเรียกคืนและย้ายไปสู่ตัวชี้วัดเช่น Bleu, Rouge หรือ Meteor

ตัวชี้วัดเหล่านี้ได้รับการปรับให้เหมาะกับงานเฉพาะที่กำหนดให้กับโมเดลภาษา

ในส่วนนี้เราจะสำรวจตัวอย่างของตัวชี้วัดเหล่านี้หลายตัวและวิธีการใช้เพื่อตรวจสอบว่าโมเดลหนึ่งนั้นเหนือกว่าอีกรุ่นหนึ่งสำหรับงานที่กำหนดหรือไม่ เราจะเจาะลึกสถานการณ์การปฏิบัติที่ตัวชี้วัดเหล่านี้ช่วยให้เราตัดสินใจอย่างชาญฉลาดเกี่ยวกับประสิทธิภาพของโมเดลที่แตกต่างกัน

การประเมินการแปลด้วย Bleu

Bleu เป็นหนึ่งในตัวชี้วัดแรกที่ได้รับการประเมินคุณภาพของการแปล ในสมุดบันทึกเราเปรียบเทียบคุณภาพของการแปลที่ทำโดย Google กับอื่น ๆ จากโมเดลโอเพ่นซอร์สจากการกอดใบหน้า

บทความ WIP	สมุดบันทึก

การประเมินการสรุปด้วย Rouge

เราจะสำรวจการใช้งานของตัวชี้วัดรูจเพื่อวัดคุณภาพของบทสรุปที่สร้างขึ้นโดยแบบจำลองภาษา เราจะใช้สองรุ่น T5 หนึ่งในนั้นคือรุ่น T5-base และอีกรุ่นหนึ่งที่ได้รับการปรับแต่ง T5-base ที่ออกแบบมาโดยเฉพาะสำหรับการสร้างบทสรุป

บทความ	สมุดบันทึก

ตรวจสอบตัวแทนโดยใช้ Langsmith

ในตัวอย่างเริ่มต้นนี้คุณสามารถสังเกตวิธีการใช้ Langsmith เพื่อตรวจสอบการรับส่งข้อมูลระหว่างส่วนประกอบต่าง ๆ ที่ประกอบขึ้นเป็นตัวแทน เอเจนต์เป็นระบบ RAG ที่ใช้ฐานข้อมูล vectorial เพื่อสร้างพรอมต์ที่ได้รับการตกแต่งและส่งผ่านไปยังโมเดล Langsmith รวบรวมทั้งการใช้เครื่องมือของตัวแทนและการตัดสินใจที่ทำโดยแบบจำลองให้ข้อมูลตลอดเวลาเกี่ยวกับข้อมูลที่ส่ง/รับโทเค็นที่ใช้ไปแล้วระยะเวลาของการสืบค้นและทั้งหมดนี้ในสภาพแวดล้อมที่เป็นมิตรกับผู้ใช้อย่างแท้จริง

บทความ	สมุดบันทึก

การประเมินคุณภาพของบทสรุปโดยใช้ระยะการฝังด้วย Langsmith

ก่อนหน้านี้ในสมุดบันทึกตัวชี้วัด Rouge: การประเมินบทสรุปเราได้เรียนรู้วิธีการใช้ Rouge เพื่อประเมินว่าบทสรุปที่ดีที่สุดโดยประมาณที่มนุษย์สร้างขึ้นโดยมนุษย์ เวลานี้เราจะใช้ระยะการฝังและ Langsmith เพื่อตรวจสอบว่าโมเดลใดที่สร้างบทสรุปคล้ายกับการอ้างอิง

บทความ	สมุดบันทึก

การประเมินโซลูชันผ้าขี้ริ้วโดยใช้ Giskard

เราใช้ตัวแทนที่ทำหน้าที่เป็นผู้ช่วยทางการแพทย์และรวม Giskard เพื่อประเมินว่าคำตอบนั้นถูกต้องหรือไม่ ด้วยวิธีนี้ไม่เพียง แต่การตอบสนองของโมเดลเท่านั้นที่ได้รับการประเมิน แต่ยังรวมถึงการดึงข้อมูลในฐานข้อมูลเวกเตอร์ด้วย Giskard เป็นวิธีแก้ปัญหาที่อนุญาตให้ประเมินโซลูชัน RAG ที่สมบูรณ์

บทความ	สมุดบันทึก

รู้เบื้องต้นเกี่ยวกับห้องสมุด LM-Evaluation จาก Eluther.ai

ห้องสมุด LM-EVAL โดย Eleutherai ช่วยให้เข้าถึงเกณฑ์มาตรฐานทางวิชาการที่กลายเป็นมาตรฐานอุตสาหกรรมได้อย่างง่ายดาย รองรับการประเมินผลของทั้งแบบจำลองโอเพ่นซอร์สและ API จากผู้ให้บริการเช่น OpenAI และยังช่วยให้การประเมินของอะแดปเตอร์ที่สร้างขึ้นโดยใช้เทคนิคเช่น LORA

ในสมุดบันทึกนี้ฉันจะมุ่งเน้นไปที่คุณสมบัติเล็ก ๆ แต่สำคัญของห้องสมุด: การประเมินโมเดลที่เข้ากันได้กับห้องสมุด Transformers ของ Hugging Face

บทความ - WIP	สมุดบันทึก

การปรับแต่งและการเพิ่มประสิทธิภาพที่ดี

ในส่วน Finetuning & Optimization เราจะสำรวจเทคนิคที่แตกต่างกันเช่นการปรับแต่งแบบดีหรือ LORA และเราจะใช้ห้องสมุด Peft ที่กอดเพื่อปรับโมเดลภาษาขนาดใหญ่อย่างมีประสิทธิภาพ เราจะสำรวจเทคนิคต่าง ๆ เช่น quantization เพื่อลดน้ำหนักของแบบจำลอง

การปรับจูนโดยใช้ไลบรารี PEFT จากการกอดใบหน้า

ในโน้ตบุ๊กนี้มีการฝึกอบรมสองรุ่นโดยใช้การปรับจูนจากไลบรารี PEFT เทคนิคนี้ไม่เพียง แต่ช่วยให้เราสามารถฝึกอบรมโดยการปรับน้ำหนักของพารามิเตอร์น้อยมาก แต่ยังช่วยให้เรามีรุ่นพิเศษที่แตกต่างกันในหน่วยความจำที่ใช้โมเดลพื้นฐานเดียวกัน

การปรับจูนเป็นเทคนิคเพิ่มเติมและน้ำหนักของโมเดลที่ผ่านการฝึกอบรมมาก่อนจะไม่ได้รับการแก้ไข น้ำหนักที่เราแก้ไขในกรณีนี้คือโทเค็นเสมือนจริงที่เราเพิ่มลงในพรอมต์

บทความ	สมุดบันทึก

ปรับแต่งด้วย Lora โดยใช้ Peft จากการกอดใบหน้า

หลังจากคำอธิบายสั้น ๆ เกี่ยวกับวิธีการปรับแต่งเทคนิคการปรับแต่ง LORA เราจะปรับโมเดลจากตระกูล Bloom เพื่อสอนให้สร้างพรอมต์ที่สามารถใช้ในการสอนแบบจำลองภาษาขนาดใหญ่ได้

บทความ	สมุดบันทึก

ปรับแต่งรุ่น 7B ใน GPU 16GB เดียวโดยใช้ Qlora

เราจะได้เห็นการแนะนำสั้น ๆ เกี่ยวกับการวัดปริมาณที่ใช้เพื่อลดขนาดของแบบจำลองภาษาขนาดใหญ่ขนาดใหญ่ ด้วยการหาปริมาณคุณสามารถโหลดโมเดลขนาดใหญ่ลดทรัพยากรหน่วยความจำที่จำเป็น นอกจากนี้ยังใช้กับกระบวนการปรับจูนคุณสามารถปรับแต่งโมเดลใน GPU เดียวโดยไม่ต้องใช้ทรัพยากรทั้งหมด หลังจากคำอธิบายสั้น ๆ เราจะเห็นตัวอย่างเกี่ยวกับวิธีที่จะปรับแต่งโมเดล Bloom 7B Ina A T4 16GB GPU บน Google Colab

บทความ	สมุดบันทึก

เทคนิคการตัดแต่งกิ่งสำหรับแบบจำลองภาษาขนาดใหญ่

ส่วนนี้ยังอยู่ระหว่างการก่อสร้าง เป้าหมายคือการสร้างหลักสูตรที่จะพาเราจากเทคนิคการตัดแต่งกิ่งที่ง่ายที่สุดในการสร้างแบบจำลองโดยใช้เทคนิคเดียวกับที่ใช้โดย บริษัท ชั้นนำในสาขาเช่น Microsoft, Google, Nvidia หรือ OpenAI เพื่อสร้างแบบจำลองของพวกเขา

ตัดโมเดล DistilGPT2 โดยใช้ L1 Norm เพื่อกำหนดเซลล์ประสาทที่สำคัญน้อยกว่า

ในสมุดบันทึกแรกกระบวนการตัดแต่งกิ่งจะถูกนำไปใช้กับเลเยอร์ฟีดไปข้างหน้าของแบบจำลอง DistilGPT2 ซึ่งหมายความว่าแบบจำลองจะลดน้ำหนักในเลเยอร์เฉพาะเหล่านั้น เซลล์ประสาทที่จะตัดถูกเลือกตามคะแนนความสำคัญของพวกเขาซึ่งเราคำนวณโดยใช้บรรทัดฐาน L1 ของน้ำหนักของพวกเขา มันเป็น aproach ง่าย ๆ สำหรับตัวอย่างแรกนี้ที่สามารถใช้เมื่อคุณต้องการสร้างแบบจำลองการตัดแต่งที่เลียนแบบโมเดลพื้นฐานในทุกพื้นที่

โดยการเปลี่ยนโครงสร้างของโมเดลต้องสร้างไฟล์กำหนดค่าใหม่เพื่อให้แน่ใจว่าทำงานได้อย่างถูกต้องกับไลบรารี transformers

สมุดบันทึก: การตัดแต่งรุ่น DistilGPT2

ตัดโมเดล LLAMA3.2

ในสมุดบันทึกเล่มแรกนี้เราพยายามทำซ้ำกระบวนการตัดแต่งกิ่งที่ใช้กับโมเดล DistilGPT2 แต่นำไปใช้กับรุ่น Llama โดยไม่คำนึงถึงคุณลักษณะของโมเดลกระบวนการตัดแต่งกิ่งจะส่งผลให้แบบจำลองที่ใช้ไม่ได้อย่างสมบูรณ์ สมุดบันทึกนี้ทำหน้าที่เป็นแบบฝึกหัดเพื่อทำความเข้าใจว่าการรู้โครงสร้างของโมเดลที่จะได้รับการตัดแต่งกิ่ง

สมุดบันทึก: การตัดแต่งรูปแบบ LLAMA3.2 ไม่ถูกต้อง aproach

สมุดบันทึกเล่มที่สองกล่าวถึงปัญหาที่พบเมื่อใช้กระบวนการตัดแต่งกิ่งเดียวกันกับโมเดล Llama ที่ใช้สำหรับ DistilGPT2

วิธีการที่ถูกต้องคือการรักษาเลเยอร์ MLP ของแบบจำลองเป็นคู่มากกว่าชั้นแต่ละชั้นและเพื่อคำนวณความสำคัญของเซลล์ประสาทโดยพิจารณาทั้งสองชั้นเข้าด้วยกัน นอกจากนี้เราเปลี่ยนไปใช้น้ำหนักสัมบูรณ์สูงสุดเพื่อตัดสินใจว่าเซลล์ประสาทใดยังคงอยู่ในเลเยอร์ตัดแต่ง

บทความการตัดแต่งกิ่ง Llama3	สมุดบันทึก: การตัดแต่งรูปแบบ llama3.2 ที่ถูกต้อง aproach ที่ถูกต้อง

การตัดแต่งความลึกที่มีโครงสร้าง กำจัดบล็อกที่สมบูรณ์จากรุ่นภาษาขนาดใหญ่

การตัดแต่งกิ่งเชิงลึกในรูปแบบ LLAMA-3.2

ในสมุดบันทึกนี้เราจะดูตัวอย่างของการตัดแต่งความลึกซึ่งเกี่ยวข้องกับการลบเลเยอร์ทั้งหมดออกจากโมเดล สิ่งแรกที่ควรทราบคือการลบเลเยอร์ทั้งหมดออกจากโมเดลหม้อแปลงมักจะมีผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพของโมเดล นี่คือการเปลี่ยนแปลงทางสถาปัตยกรรมที่รุนแรงมากขึ้นเมื่อเทียบกับการกำจัดเซลล์ประสาทอย่างง่ายจากเลเยอร์ MLP ดังที่เห็นในตัวอย่างก่อนหน้า

สมุดบันทึก: การตัดแต่งความลึกเป็นโมเดล Llama

2- โครงการ

ภาษาธรรมชาติถึง SQL ..

ในโครงการเริ่มต้นที่ตรงไปตรงมานี้เราจะพัฒนาเครื่องกำเนิด SQL จากภาษาธรรมชาติ เราจะเริ่มต้นด้วยการสร้างพรอมต์เพื่อใช้โซลูชันสองแบบ: หนึ่งที่ใช้โมเดล OpenAI ที่ทำงานบน Azure และอีกรุ่นหนึ่งที่มีโมเดลโอเพนซอร์ซจากการกอดใบหน้า

บทความ	สมุดบันทึก
สร้างพรอมต์ NL2SQL สำหรับ openai	การสร้างที่รวดเร็วสำหรับ openai
เช็ด	การสร้างที่รวดเร็วสำหรับ defog/sqlcoder
การกำหนดค่าการกำหนดค่า Azure	ใช้จุดอนุมานของ Azure

สร้างและเผยแพร่ LLM

ในโครงการขนาดเล็กนี้เราจะสร้างโมเดลใหม่ที่จัดแนว Microsoft-Phi-3-model กับ DPO แล้วเผยแพร่เพื่อกอดใบหน้า

บทความ	สมุดบันทึก
เช็ด	จัดแนวกับ DPO A รุ่น Phi3-3

3- โซลูชั่น Enterprise Architecting

สถาปัตยกรรมโซลูชัน NL2SQL สำหรับฐานข้อมูลองค์กรขนาดใหญ่

ในโซลูชันเริ่มต้นนี้เราออกแบบสถาปัตยกรรมสำหรับระบบ NL2SQL ที่สามารถใช้งานได้ในฐานข้อมูลขนาดใหญ่ ระบบมีวัตถุประสงค์เพื่อใช้กับสองหรือสามรุ่นที่แตกต่างกัน ในความเป็นจริงเราใช้สามรุ่นในตัวอย่าง

มันเป็นสถาปัตยกรรมที่ช่วยให้การกำหนดการจัดทำโครงการอย่างรวดเร็วโดยให้บริการเพียงไม่กี่ตารางในฐานข้อมูลทำให้เราสามารถเพิ่มตารางเพิ่มเติมได้ตามจังหวะของเรา

การถอดรหัสความเสี่ยง: การเปลี่ยนธนาคารด้วยการฝังลูกค้า

ในโซลูชันนี้เราสำรวจพลังการเปลี่ยนแปลงของการฝังตัวและแบบจำลองภาษาขนาดใหญ่ (LLMS) ในการประเมินความเสี่ยงของลูกค้าและคำแนะนำผลิตภัณฑ์ในอุตสาหกรรมการเงิน เราจะเปลี่ยนรูปแบบที่เราจัดเก็บข้อมูลลูกค้าและดังนั้นเราจะเปลี่ยนวิธีการที่ข้อมูลนี้เดินทางภายในระบบเพื่อให้ได้เปรียบที่สำคัญ

มีส่วนร่วมในหลักสูตร:

กรุณาหากคุณพบปัญหาใด ๆ ให้เปิดปัญหา ฉันจะพยายามอย่างเต็มที่เพื่อแก้ไขโดยเร็วที่สุดและให้เครดิตคุณ

หากคุณต้องการบริจาคหรือแนะนำหัวข้อโปรดอย่าลังเลที่จะเริ่มการสนทนา ฉันดีใจที่ได้รับความคิดเห็นหรือคำแนะนำใด ๆ

อย่าอายแบ่งปันหลักสูตรบนเครือข่ายสังคมออนไลน์ของคุณกับเพื่อนของคุณ เชื่อมต่อกับฉันใน LinkedIn หรือ Twitter และอย่าลังเลที่จะแบ่งปันสิ่งที่คุณต้องการหรือถามคำถามใด ๆ ที่คุณอาจมี

ให้ดาว️ไปยังที่เก็บ มันช่วยฉันได้มากและกระตุ้นให้ฉันเพิ่มบทเรียนต่อไป เป็นวิธีที่ดีในการสนับสนุนหลักสูตรโอเพ่นซอร์สฟรีเช่นนี้

ข้อมูลอ้างอิงและเอกสารที่ใช้ในหลักสูตร:

Tom Kocmi, Christian Federmann, แบบจำลองภาษาขนาดใหญ่เป็นผู้ประเมินคุณภาพที่ทันสมัยของคุณภาพการแปล การประเมิน LLMS ด้วย LLMS

Pere Martra บทนำเกี่ยวกับโมเดลภาษาขนาดใหญ่ด้วย openai

React: การประสานการใช้เหตุผลและทำหน้าที่ในแบบจำลองภาษา ส่วน Langchain & Agents ตัวอย่างผู้ช่วยทางการแพทย์

กำลังของสเกลสำหรับการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับแต่ง

LORA: การปรับระดับต่ำของแบบจำลองภาษาขนาดใหญ่ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับแต่ง Lora

Qlora: การเพิ่มประสิทธิภาพอย่างมีประสิทธิภาพของ LLMs เชิงปริมาณ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับจูน Qlora

วิธีการแจ้ง LLMs สำหรับข้อความถึง SQL: การศึกษาในการตั้งค่า zero-shot, domain เดี่ยวและการตั้งค่าข้ามโดเมน โครงการ. ภาษาธรรมชาติถึง SQL

Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, 2024. มีอยู่ที่: https://doi.org/10.48550/arxiv.2407.14679

ขยาย