![]() | นี่คือพื้นที่เก็บข้อมูลที่ไม่เป็นทางการสำหรับหนังสือ: แบบจำลองภาษาขนาดใหญ่: ใช้และใช้กลยุทธ์สำหรับแบบจำลองภาษาขนาดใหญ่ (APRESS) หนังสือเล่มนี้ขึ้นอยู่กับเนื้อหาของที่เก็บนี้ แต่สมุดบันทึกกำลังได้รับการปรับปรุงและฉันกำลังรวมตัวอย่างและบทใหม่ ๆ หากคุณกำลังมองหาที่เก็บอย่างเป็นทางการสำหรับหนังสือเล่มนี้ด้วยสมุดบันทึกต้นฉบับคุณควรเยี่ยมชมที่เก็บของ Apress ซึ่งคุณสามารถค้นหาสมุดบันทึกทั้งหมดในรูปแบบดั้งเดิมของพวกเขาตามที่ปรากฏในหนังสือ ซื้อที่: [Amazon] [Springer] |
โปรดทราบว่าหลักสูตรบน GitHub ไม่มีข้อมูลทั้งหมดที่อยู่ในหนังสือ
การใช้งานจริงเกี่ยวกับแบบจำลองภาษาขนาดใหญ่และแอปพลิเคชันของพวกเขาคือ ?? ในการพัฒนาอย่างถาวร? ฉันจะโพสต์บทเรียนและตัวอย่างที่แตกต่างกันเมื่อฉันทำเสร็จ
หลักสูตรนี้มอบประสบการณ์การใช้งานจริงโดยใช้โมเดลจาก OpenAI และห้องสมุด Hugging Face เราจะได้เห็นและใช้เครื่องมือและฝึกฝนมากมายกับโครงการขนาดเล็กที่จะเติบโตขึ้นเพราะเราสามารถใช้ความรู้ใหม่ที่ได้รับ
บางหัวข้อและเทคโนโลยีที่กล่าวถึงในส่วนนี้รวมถึง: chatbots, การสร้างรหัส, OpenAI API, กอดหน้า, ฐานข้อมูลเวกเตอร์, Langchain, การปรับแต่งอย่างละเอียด
แต่ละบทเรียนสอดคล้องกันโดยสมุดบันทึกและบทความ สมุดบันทึกมีข้อมูลที่เพียงพอสำหรับการทำความเข้าใจรหัสภายในบทความนี้ให้คำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับรหัสและหัวข้อที่ครอบคลุม
คำแนะนำของฉันคือให้บทความเปิดอยู่ข้างสมุดบันทึกและทำตาม บทความจำนวนมากเสนอเคล็ดลับเล็ก ๆ เกี่ยวกับรูปแบบที่คุณสามารถแนะนำให้รู้จักกับสมุดบันทึก ฉันแนะนำให้ติดตามพวกเขาเพื่อเพิ่มความชัดเจนของแนวคิด
สมุดบันทึกส่วนใหญ่โฮสต์บน colab ในขณะที่บางคนอยู่ใน Kaggle Kaggle ให้หน่วยความจำมากขึ้นในเวอร์ชันฟรีเมื่อเทียบกับ colab แต่ฉันพบว่าการคัดลอกและแบ่งปันโน้ตบุ๊กนั้นง่ายกว่าใน colab และไม่ใช่ทุกคนที่มีบัญชี Kaggle
สมุดบันทึกบางเล่มต้องการหน่วยความจำมากกว่าที่ Colab ให้ไว้ฟรี ในขณะที่เรากำลังทำงานกับแบบจำลองภาษาขนาดใหญ่นี่เป็นสถานการณ์ทั่วไปที่จะเกิดขึ้นอีกหากคุณทำงานกับพวกเขาต่อไป คุณสามารถเรียกใช้สมุดบันทึกในสภาพแวดล้อมของคุณเองหรือเลือกใช้ colab เวอร์ชันมืออาชีพ
สมุดบันทึกแต่ละเล่มได้รับการสนับสนุนด้วยบทความกลางที่มีการอธิบายรหัสในรายละเอียด
ในส่วนแรกของหลักสูตรนี้เราจะเรียนรู้ที่จะทำงานร่วมกับ OpenAI API โดยการสร้างโครงการเล็ก ๆ สองโครงการ เราจะเจาะลึกบทบาทของ OpenAi และวิธีการให้คำแนะนำที่จำเป็นแก่โมเดลผ่านการแจ้งเตือนเพื่อให้มันทำงานตามที่เราต้องการ
โครงการแรกคือ Chatbot ร้านอาหารที่รุ่นจะรับคำสั่งซื้อลูกค้า การสร้างในโครงการนี้เราจะสร้างเครื่องกำเนิดคำสั่ง SQL ที่นี่เราจะพยายามสร้างพรอมต์ที่ปลอดภัยซึ่งยอมรับคำสั่ง SQL Creation เท่านั้นและไม่มีอะไรอื่น
เราจะใช้ Openai GPT-3.5 และแผงเพื่อพัฒนา chatbot ตรงไปตรงมาที่เหมาะสำหรับร้านอาหารฟาสต์ฟู้ด ในระหว่างหลักสูตรเราจะสำรวจพื้นฐานของวิศวกรรมที่รวดเร็วรวมถึงการทำความเข้าใจบทบาทของ OpenAI ที่หลากหลายการจัดการการตั้งค่าอุณหภูมิและวิธีการหลีกเลี่ยงการฉีดทันที
| แผงบทความ / บทความ gradio | แผงโน๊ตบุ๊ค / โน๊ตบุ๊ค Gradio |
|---|
ตามกรอบงานเดียวกันที่ใช้ในบทความก่อนหน้านี้เพื่อสร้าง chatbot เราได้ทำการปรับเปลี่ยนสองสามอย่างเพื่อพัฒนาภาษาธรรมชาติให้กับนักแปล SQL ในกรณีนี้โมเดลจะต้องได้รับโครงสร้างของตารางและการปรับเปลี่ยนเพื่อให้การทำงานที่ราบรื่นและหลีกเลี่ยงความผิดปกติใด ๆ ที่อาจเกิดขึ้น ด้วยการปรับเปลี่ยนเหล่านี้ในสถานที่นักแปลมีความสามารถในการแปลงการสืบค้นภาษาธรรมชาติเป็นแบบสอบถาม SQL @FMQuaglia ได้สร้างสมุดบันทึกโดยใช้ DBML เพื่ออธิบายตารางที่ไกลออกไปนั้นดีกว่าต้นฉบับ
| บทความ / บทความ gradio | Notebook / Notebook Gradio / Notebook DBML |
|---|
เราจะสำรวจเทคนิคทางวิศวกรรมที่รวดเร็วเพื่อปรับปรุงผลลัพธ์ที่เราได้รับจากแบบจำลอง เช่นวิธีการจัดรูปแบบคำตอบและรับการตอบสนองที่มีโครงสร้างโดยใช้ตัวอย่างช็อตเพียงไม่กี่ตัวอย่าง
| บทความ | สมุดบันทึก |
|---|
การแนะนำสั้น ๆ เกี่ยวกับฐานข้อมูลเวกเตอร์เทคโนโลยีที่จะมาพร้อมกับเราในบทเรียนมากมายตลอดหลักสูตร เราจะทำงานในตัวอย่างของการสร้างการเพิ่มการดึงข้อมูลโดยใช้ข้อมูลจากชุดข้อมูลข่าวต่าง ๆ ที่เก็บไว้ใน Chromadb
หากมีแง่มุมหนึ่งที่ได้รับความสำคัญในโลกของแบบจำลองภาษาขนาดใหญ่มันเป็นการสำรวจวิธีการใช้ประโยชน์จากข้อมูลที่เป็นกรรมสิทธิ์กับพวกเขา ในบทเรียนนี้เราสำรวจวิธีแก้ปัญหาที่เป็นไปได้ที่เกี่ยวข้องกับการจัดเก็บข้อมูลในฐานข้อมูลเวกเตอร์ Chromadb ในกรณีของเราและใช้มันเพื่อสร้างพรอมต์ที่ได้รับการเสริมสมรรถนะ
| บทความ | สมุดบันทึก |
|---|
เราปรับปรุงระบบ RAG โดยการแนะนำเลเยอร์แคชความหมายที่สามารถพิจารณาได้ว่ามีการถามคำถามที่คล้ายกันมาก่อนหรือไม่ หากยืนยันจะดึงข้อมูลจากระบบแคชที่สร้างขึ้นด้วย FAISS แทนการเข้าถึงฐานข้อมูลเวกเตอร์
แรงบันดาลใจและรหัสพื้นฐานของแคชความหมายที่มีอยู่ในสมุดบันทึกนี้มีอยู่เนื่องจากหลักสูตร: https://maven.com/boring-bot/advanced-llm/1/home จาก Hamza Farooq
| บทความ | สมุดบันทึก |
|---|---|
| เช็ด | สมุดบันทึก |
Langchain เป็นหนึ่งในห้องสมุดในจักรวาลของแบบจำลองภาษาขนาดใหญ่ที่มีส่วนร่วมในการปฏิวัติครั้งนี้มากที่สุด ช่วยให้เราสามารถใช้สายการโทรไปยังรุ่นและระบบอื่น ๆ ทำให้เราสามารถสร้างแอปพลิเคชันตามแบบจำลองภาษาขนาดใหญ่ ในหลักสูตรเราจะใช้มันหลายครั้งสร้างโครงการที่ซับซ้อนมากขึ้น
ในบทเรียนนี้เราใช้ Langchain เพื่อปรับปรุงสมุดบันทึกจากบทเรียนก่อนหน้านี้ซึ่งเราใช้ข้อมูลจากชุดข้อมูลสองชุดเพื่อสร้างพรอมต์ที่ได้รับการตกแต่ง เวลานี้ด้วยความช่วยเหลือของ Langchain เราได้สร้างท่อที่รับผิดชอบในการดึงข้อมูลจากฐานข้อมูลเวกเตอร์และส่งผ่านไปยังรูปแบบภาษา โน้ตบุ๊กถูกตั้งค่าให้ทำงานกับชุดข้อมูลที่แตกต่างกันสองชุดและสองรุ่นที่แตกต่างกัน หนึ่งในโมเดลได้รับการฝึกฝนสำหรับการสร้างข้อความในขณะที่อีกรุ่นหนึ่งได้รับการฝึกฝนสำหรับการสร้าง text2Text
| บทความ | สมุดบันทึก |
|---|
เราจะสร้างระบบตอบสนองความคิดเห็นโดยใช้ไปป์ไลน์สองรุ่นที่สร้างด้วย Langchain ในการตั้งค่านี้โมเดลที่สองจะรับผิดชอบในการควบคุมการตอบสนองที่สร้างขึ้นโดยรุ่นแรก
วิธีหนึ่งที่มีประสิทธิภาพในการป้องกันไม่ให้ระบบของเราสร้างการตอบสนองที่ไม่พึงประสงค์คือการใช้โมเดลที่สองที่ไม่มีการโต้ตอบโดยตรงกับผู้ใช้เพื่อจัดการการสร้างการตอบสนอง
วิธีการนี้สามารถลดความเสี่ยงของการตอบสนองที่ไม่พึงประสงค์ที่สร้างขึ้นโดยรุ่นแรกในการตอบสนองต่อรายการของผู้ใช้
ฉันจะสร้างสมุดบันทึกแยกต่างหากสำหรับงานนี้ หนึ่งจะเกี่ยวข้องกับโมเดลจาก OpenAI และคนอื่น ๆ จะใช้โมเดลโอเพนซอร์ซที่จัดทำโดยการกอดใบหน้า ผลลัพธ์ที่ได้ในโน้ตบุ๊กทั้งสามนั้นแตกต่างกันมาก ระบบทำงานได้ดีขึ้นมากกับโมเดล OpenAI และ LLAMA2
| บทความ | สมุดบันทึก |
|---|---|
| บทความ Openai | สมุดบันทึก Openai |
| บทความ Llama2-7B | สมุดบันทึก LLAMA2-7B |
| ไม่มีบทความ | สมุดบันทึก GPT-J |
ตัวแทนเป็นหนึ่งในเครื่องมือที่ทรงพลังที่สุดในโลกของแบบจำลองภาษาขนาดใหญ่ เอเจนต์มีความสามารถในการตีความคำขอของผู้ใช้และการใช้เครื่องมือและห้องสมุดในการกำจัดจนกว่าจะได้ผลลัพธ์ที่คาดหวัง
ด้วยตัวแทน Langchain เราจะสร้างในไม่กี่บรรทัดหนึ่งในตัวแทนที่ง่ายที่สุด แต่ทรงพลังอย่างไม่น่าเชื่อ ตัวแทนจะทำหน้าที่เป็นผู้ช่วยนักวิเคราะห์ข้อมูลและช่วยเราในการวิเคราะห์ข้อมูลที่มีอยู่ในไฟล์ Excel ใด ๆ มันจะสามารถระบุแนวโน้มใช้โมเดลทำการคาดการณ์ โดยสรุปเราจะสร้างเอเจนต์ง่ายๆที่เราสามารถใช้ในงานประจำวันของเราเพื่อวิเคราะห์ข้อมูลของเรา
| บทความ | สมุดบันทึก |
|---|
ในตัวอย่างนี้มีสองเทคโนโลยีที่เห็นก่อนหน้านี้: ตัวแทนและฐานข้อมูลเวกเตอร์ ข้อมูลทางการแพทย์จะถูกเก็บไว้ใน Chromadb และมีการสร้างตัวแทน Langchain ซึ่งจะนำมาใช้เฉพาะเมื่อจำเป็นเพื่อสร้างพรอมต์ที่ได้รับการเสริมซึ่งจะถูกส่งไปยังโมเดลเพื่อตอบคำถามของผู้ใช้
กล่าวอีกนัยหนึ่งระบบผ้าขี้ริ้วถูกสร้างขึ้นเพื่อช่วย chatbot ทางการแพทย์
ความสนใจ!!! ใช้เป็นตัวอย่างเท่านั้น ไม่มีใครควรใช้คำแนะนำของการบูตในฐานะแพทย์ตัวจริง ฉันขอปฏิเสธความรับผิดชอบทั้งหมดสำหรับการใช้งานที่อาจมอบให้กับ Chatbot ฉันได้สร้างมันขึ้นมาเป็นตัวอย่างของเทคโนโลยีที่แตกต่างกันเท่านั้น
| บทความ | สมุดบันทึก |
|---|
ตัวชี้วัดที่ใช้ในการวัดประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่นั้นค่อนข้างแตกต่างจากที่เราใช้ในแบบจำลองดั้งเดิมมากขึ้น เราเปลี่ยนไปจากตัวชี้วัดเช่นความแม่นยำคะแนน F1 หรือการเรียกคืนและย้ายไปสู่ตัวชี้วัดเช่น Bleu, Rouge หรือ Meteor
ตัวชี้วัดเหล่านี้ได้รับการปรับให้เหมาะกับงานเฉพาะที่กำหนดให้กับโมเดลภาษา
ในส่วนนี้เราจะสำรวจตัวอย่างของตัวชี้วัดเหล่านี้หลายตัวและวิธีการใช้เพื่อตรวจสอบว่าโมเดลหนึ่งนั้นเหนือกว่าอีกรุ่นหนึ่งสำหรับงานที่กำหนดหรือไม่ เราจะเจาะลึกสถานการณ์การปฏิบัติที่ตัวชี้วัดเหล่านี้ช่วยให้เราตัดสินใจอย่างชาญฉลาดเกี่ยวกับประสิทธิภาพของโมเดลที่แตกต่างกัน
Bleu เป็นหนึ่งในตัวชี้วัดแรกที่ได้รับการประเมินคุณภาพของการแปล ในสมุดบันทึกเราเปรียบเทียบคุณภาพของการแปลที่ทำโดย Google กับอื่น ๆ จากโมเดลโอเพ่นซอร์สจากการกอดใบหน้า
| บทความ WIP | สมุดบันทึก |
|---|
เราจะสำรวจการใช้งานของตัวชี้วัดรูจเพื่อวัดคุณภาพของบทสรุปที่สร้างขึ้นโดยแบบจำลองภาษา เราจะใช้สองรุ่น T5 หนึ่งในนั้นคือรุ่น T5-base และอีกรุ่นหนึ่งที่ได้รับการปรับแต่ง T5-base ที่ออกแบบมาโดยเฉพาะสำหรับการสร้างบทสรุป
| บทความ | สมุดบันทึก |
|---|
ในตัวอย่างเริ่มต้นนี้คุณสามารถสังเกตวิธีการใช้ Langsmith เพื่อตรวจสอบการรับส่งข้อมูลระหว่างส่วนประกอบต่าง ๆ ที่ประกอบขึ้นเป็นตัวแทน เอเจนต์เป็นระบบ RAG ที่ใช้ฐานข้อมูล vectorial เพื่อสร้างพรอมต์ที่ได้รับการตกแต่งและส่งผ่านไปยังโมเดล Langsmith รวบรวมทั้งการใช้เครื่องมือของตัวแทนและการตัดสินใจที่ทำโดยแบบจำลองให้ข้อมูลตลอดเวลาเกี่ยวกับข้อมูลที่ส่ง/รับโทเค็นที่ใช้ไปแล้วระยะเวลาของการสืบค้นและทั้งหมดนี้ในสภาพแวดล้อมที่เป็นมิตรกับผู้ใช้อย่างแท้จริง
| บทความ | สมุดบันทึก |
|---|
ก่อนหน้านี้ในสมุดบันทึกตัวชี้วัด Rouge: การประเมินบทสรุปเราได้เรียนรู้วิธีการใช้ Rouge เพื่อประเมินว่าบทสรุปที่ดีที่สุดโดยประมาณที่มนุษย์สร้างขึ้นโดยมนุษย์ เวลานี้เราจะใช้ระยะการฝังและ Langsmith เพื่อตรวจสอบว่าโมเดลใดที่สร้างบทสรุปคล้ายกับการอ้างอิง
| บทความ | สมุดบันทึก |
|---|
เราใช้ตัวแทนที่ทำหน้าที่เป็นผู้ช่วยทางการแพทย์และรวม Giskard เพื่อประเมินว่าคำตอบนั้นถูกต้องหรือไม่ ด้วยวิธีนี้ไม่เพียง แต่การตอบสนองของโมเดลเท่านั้นที่ได้รับการประเมิน แต่ยังรวมถึงการดึงข้อมูลในฐานข้อมูลเวกเตอร์ด้วย Giskard เป็นวิธีแก้ปัญหาที่อนุญาตให้ประเมินโซลูชัน RAG ที่สมบูรณ์
| บทความ | สมุดบันทึก |
|---|
ห้องสมุด LM-EVAL โดย Eleutherai ช่วยให้เข้าถึงเกณฑ์มาตรฐานทางวิชาการที่กลายเป็นมาตรฐานอุตสาหกรรมได้อย่างง่ายดาย รองรับการประเมินผลของทั้งแบบจำลองโอเพ่นซอร์สและ API จากผู้ให้บริการเช่น OpenAI และยังช่วยให้การประเมินของอะแดปเตอร์ที่สร้างขึ้นโดยใช้เทคนิคเช่น LORA
ในสมุดบันทึกนี้ฉันจะมุ่งเน้นไปที่คุณสมบัติเล็ก ๆ แต่สำคัญของห้องสมุด: การประเมินโมเดลที่เข้ากันได้กับห้องสมุด Transformers ของ Hugging Face
| บทความ - WIP | สมุดบันทึก |
|---|
ในส่วน Finetuning & Optimization เราจะสำรวจเทคนิคที่แตกต่างกันเช่นการปรับแต่งแบบดีหรือ LORA และเราจะใช้ห้องสมุด Peft ที่กอดเพื่อปรับโมเดลภาษาขนาดใหญ่อย่างมีประสิทธิภาพ เราจะสำรวจเทคนิคต่าง ๆ เช่น quantization เพื่อลดน้ำหนักของแบบจำลอง
ในโน้ตบุ๊กนี้มีการฝึกอบรมสองรุ่นโดยใช้การปรับจูนจากไลบรารี PEFT เทคนิคนี้ไม่เพียง แต่ช่วยให้เราสามารถฝึกอบรมโดยการปรับน้ำหนักของพารามิเตอร์น้อยมาก แต่ยังช่วยให้เรามีรุ่นพิเศษที่แตกต่างกันในหน่วยความจำที่ใช้โมเดลพื้นฐานเดียวกัน
การปรับจูนเป็นเทคนิคเพิ่มเติมและน้ำหนักของโมเดลที่ผ่านการฝึกอบรมมาก่อนจะไม่ได้รับการแก้ไข น้ำหนักที่เราแก้ไขในกรณีนี้คือโทเค็นเสมือนจริงที่เราเพิ่มลงในพรอมต์
| บทความ | สมุดบันทึก |
|---|
หลังจากคำอธิบายสั้น ๆ เกี่ยวกับวิธีการปรับแต่งเทคนิคการปรับแต่ง LORA เราจะปรับโมเดลจากตระกูล Bloom เพื่อสอนให้สร้างพรอมต์ที่สามารถใช้ในการสอนแบบจำลองภาษาขนาดใหญ่ได้
| บทความ | สมุดบันทึก |
|---|
เราจะได้เห็นการแนะนำสั้น ๆ เกี่ยวกับการวัดปริมาณที่ใช้เพื่อลดขนาดของแบบจำลองภาษาขนาดใหญ่ขนาดใหญ่ ด้วยการหาปริมาณคุณสามารถโหลดโมเดลขนาดใหญ่ลดทรัพยากรหน่วยความจำที่จำเป็น นอกจากนี้ยังใช้กับกระบวนการปรับจูนคุณสามารถปรับแต่งโมเดลใน GPU เดียวโดยไม่ต้องใช้ทรัพยากรทั้งหมด หลังจากคำอธิบายสั้น ๆ เราจะเห็นตัวอย่างเกี่ยวกับวิธีที่จะปรับแต่งโมเดล Bloom 7B Ina A T4 16GB GPU บน Google Colab
| บทความ | สมุดบันทึก |
|---|
ส่วนนี้ยังอยู่ระหว่างการก่อสร้าง เป้าหมายคือการสร้างหลักสูตรที่จะพาเราจากเทคนิคการตัดแต่งกิ่งที่ง่ายที่สุดในการสร้างแบบจำลองโดยใช้เทคนิคเดียวกับที่ใช้โดย บริษัท ชั้นนำในสาขาเช่น Microsoft, Google, Nvidia หรือ OpenAI เพื่อสร้างแบบจำลองของพวกเขา
ในสมุดบันทึกแรกกระบวนการตัดแต่งกิ่งจะถูกนำไปใช้กับเลเยอร์ฟีดไปข้างหน้าของแบบจำลอง DistilGPT2 ซึ่งหมายความว่าแบบจำลองจะลดน้ำหนักในเลเยอร์เฉพาะเหล่านั้น เซลล์ประสาทที่จะตัดถูกเลือกตามคะแนนความสำคัญของพวกเขาซึ่งเราคำนวณโดยใช้บรรทัดฐาน L1 ของน้ำหนักของพวกเขา มันเป็น aproach ง่าย ๆ สำหรับตัวอย่างแรกนี้ที่สามารถใช้เมื่อคุณต้องการสร้างแบบจำลองการตัดแต่งที่เลียนแบบโมเดลพื้นฐานในทุกพื้นที่
โดยการเปลี่ยนโครงสร้างของโมเดลต้องสร้างไฟล์กำหนดค่าใหม่เพื่อให้แน่ใจว่าทำงานได้อย่างถูกต้องกับไลบรารี transformers
| สมุดบันทึก: การตัดแต่งรุ่น DistilGPT2 |
|---|
ในสมุดบันทึกเล่มแรกนี้เราพยายามทำซ้ำกระบวนการตัดแต่งกิ่งที่ใช้กับโมเดล DistilGPT2 แต่นำไปใช้กับรุ่น Llama โดยไม่คำนึงถึงคุณลักษณะของโมเดลกระบวนการตัดแต่งกิ่งจะส่งผลให้แบบจำลองที่ใช้ไม่ได้อย่างสมบูรณ์ สมุดบันทึกนี้ทำหน้าที่เป็นแบบฝึกหัดเพื่อทำความเข้าใจว่าการรู้โครงสร้างของโมเดลที่จะได้รับการตัดแต่งกิ่ง
| สมุดบันทึก: การตัดแต่งรูปแบบ LLAMA3.2 ไม่ถูกต้อง aproach |
|---|
สมุดบันทึกเล่มที่สองกล่าวถึงปัญหาที่พบเมื่อใช้กระบวนการตัดแต่งกิ่งเดียวกันกับโมเดล Llama ที่ใช้สำหรับ DistilGPT2
วิธีการที่ถูกต้องคือการรักษาเลเยอร์ MLP ของแบบจำลองเป็นคู่มากกว่าชั้นแต่ละชั้นและเพื่อคำนวณความสำคัญของเซลล์ประสาทโดยพิจารณาทั้งสองชั้นเข้าด้วยกัน นอกจากนี้เราเปลี่ยนไปใช้น้ำหนักสัมบูรณ์สูงสุดเพื่อตัดสินใจว่าเซลล์ประสาทใดยังคงอยู่ในเลเยอร์ตัดแต่ง
| บทความการตัดแต่งกิ่ง Llama3 | สมุดบันทึก: การตัดแต่งรูปแบบ llama3.2 ที่ถูกต้อง aproach ที่ถูกต้อง |
|---|
ในสมุดบันทึกนี้เราจะดูตัวอย่างของการตัดแต่งความลึกซึ่งเกี่ยวข้องกับการลบเลเยอร์ทั้งหมดออกจากโมเดล สิ่งแรกที่ควรทราบคือการลบเลเยอร์ทั้งหมดออกจากโมเดลหม้อแปลงมักจะมีผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพของโมเดล นี่คือการเปลี่ยนแปลงทางสถาปัตยกรรมที่รุนแรงมากขึ้นเมื่อเทียบกับการกำจัดเซลล์ประสาทอย่างง่ายจากเลเยอร์ MLP ดังที่เห็นในตัวอย่างก่อนหน้า
| สมุดบันทึก: การตัดแต่งความลึกเป็นโมเดล Llama |
|---|
ในโครงการเริ่มต้นที่ตรงไปตรงมานี้เราจะพัฒนาเครื่องกำเนิด SQL จากภาษาธรรมชาติ เราจะเริ่มต้นด้วยการสร้างพรอมต์เพื่อใช้โซลูชันสองแบบ: หนึ่งที่ใช้โมเดล OpenAI ที่ทำงานบน Azure และอีกรุ่นหนึ่งที่มีโมเดลโอเพนซอร์ซจากการกอดใบหน้า
| บทความ | สมุดบันทึก |
|---|---|
| สร้างพรอมต์ NL2SQL สำหรับ openai | การสร้างที่รวดเร็วสำหรับ openai |
| เช็ด | การสร้างที่รวดเร็วสำหรับ defog/sqlcoder |
| การกำหนดค่าการกำหนดค่า Azure | ใช้จุดอนุมานของ Azure |
ในโครงการขนาดเล็กนี้เราจะสร้างโมเดลใหม่ที่จัดแนว Microsoft-Phi-3-model กับ DPO แล้วเผยแพร่เพื่อกอดใบหน้า
| บทความ | สมุดบันทึก |
|---|---|
| เช็ด | จัดแนวกับ DPO A รุ่น Phi3-3 |
ในโซลูชันเริ่มต้นนี้เราออกแบบสถาปัตยกรรมสำหรับระบบ NL2SQL ที่สามารถใช้งานได้ในฐานข้อมูลขนาดใหญ่ ระบบมีวัตถุประสงค์เพื่อใช้กับสองหรือสามรุ่นที่แตกต่างกัน ในความเป็นจริงเราใช้สามรุ่นในตัวอย่าง
มันเป็นสถาปัตยกรรมที่ช่วยให้การกำหนดการจัดทำโครงการอย่างรวดเร็วโดยให้บริการเพียงไม่กี่ตารางในฐานข้อมูลทำให้เราสามารถเพิ่มตารางเพิ่มเติมได้ตามจังหวะของเรา
ในโซลูชันนี้เราสำรวจพลังการเปลี่ยนแปลงของการฝังตัวและแบบจำลองภาษาขนาดใหญ่ (LLMS) ในการประเมินความเสี่ยงของลูกค้าและคำแนะนำผลิตภัณฑ์ในอุตสาหกรรมการเงิน เราจะเปลี่ยนรูปแบบที่เราจัดเก็บข้อมูลลูกค้าและดังนั้นเราจะเปลี่ยนวิธีการที่ข้อมูลนี้เดินทางภายในระบบเพื่อให้ได้เปรียบที่สำคัญ
กรุณาหากคุณพบปัญหาใด ๆ ให้เปิดปัญหา ฉันจะพยายามอย่างเต็มที่เพื่อแก้ไขโดยเร็วที่สุดและให้เครดิตคุณ
หากคุณต้องการบริจาคหรือแนะนำหัวข้อโปรดอย่าลังเลที่จะเริ่มการสนทนา ฉันดีใจที่ได้รับความคิดเห็นหรือคำแนะนำใด ๆ
อย่าอายแบ่งปันหลักสูตรบนเครือข่ายสังคมออนไลน์ของคุณกับเพื่อนของคุณ เชื่อมต่อกับฉันใน LinkedIn หรือ Twitter และอย่าลังเลที่จะแบ่งปันสิ่งที่คุณต้องการหรือถามคำถามใด ๆ ที่คุณอาจมี
ให้ดาว️ไปยังที่เก็บ มันช่วยฉันได้มากและกระตุ้นให้ฉันเพิ่มบทเรียนต่อไป เป็นวิธีที่ดีในการสนับสนุนหลักสูตรโอเพ่นซอร์สฟรีเช่นนี้
Tom Kocmi, Christian Federmann, แบบจำลองภาษาขนาดใหญ่เป็นผู้ประเมินคุณภาพที่ทันสมัยของคุณภาพการแปล การประเมิน LLMS ด้วย LLMS
Pere Martra บทนำเกี่ยวกับโมเดลภาษาขนาดใหญ่ด้วย openai
React: การประสานการใช้เหตุผลและทำหน้าที่ในแบบจำลองภาษา ส่วน Langchain & Agents ตัวอย่างผู้ช่วยทางการแพทย์
กำลังของสเกลสำหรับการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับแต่ง
LORA: การปรับระดับต่ำของแบบจำลองภาษาขนาดใหญ่ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับแต่ง Lora
Qlora: การเพิ่มประสิทธิภาพอย่างมีประสิทธิภาพของ LLMs เชิงปริมาณ ส่วนการปรับแต่งและการเพิ่มประสิทธิภาพที่ดี ตัวอย่างการปรับจูน Qlora
วิธีการแจ้ง LLMs สำหรับข้อความถึง SQL: การศึกษาในการตั้งค่า zero-shot, domain เดี่ยวและการตั้งค่าข้ามโดเมน โครงการ. ภาษาธรรมชาติถึง SQL
Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, 2024. มีอยู่ที่: https://doi.org/10.48550/arxiv.2407.14679