นี่คือคอลเลกชันแบบเปิดของวิธีการเครื่องมือและคำแนะนำทีละขั้นตอนเพื่อช่วยในการฝึกอบรมที่ประสบความสำเร็จของแบบจำลองภาษาขนาดใหญ่และแบบจำลองหลายรูปแบบและการอนุมานของพวกเขา
นี่คือวัสดุทางเทคนิคที่เหมาะสำหรับวิศวกรฝึกอบรมและผู้ประกอบการ LLM/VLM นั่นคือเนื้อหาที่นี่มีสคริปต์จำนวนมากและคำสั่ง Copy-N-Paste เพื่อให้คุณสามารถตอบสนองความต้องการของคุณได้อย่างรวดเร็ว
repo นี้เป็นการถ่ายโอนข้อมูลสมองอย่างต่อเนื่องของประสบการณ์ของฉันในการฝึกอบรมแบบจำลองภาษาขนาดใหญ่ (LLM) (และ VLMs); ความรู้มากมายที่ฉันได้รับในขณะที่ฝึกอบรมโมเดล Open-Source Bloom-176B ในปี 2022 และ IDEFICS-80B แบบหลายโมเดลในปี 2566 และรุ่น RAG ที่บริบทในปี 2567
ฉันรวบรวมข้อมูลนี้เป็นส่วนใหญ่เพื่อตัวเองเพื่อที่ฉันจะได้พบวิธีแก้ปัญหาที่ฉันได้ค้นคว้ามาแล้วในอดีตและได้ผล แต่ตามปกติฉันยินดีที่จะแบ่งปันบันทึกเหล่านี้กับชุมชน ML ที่กว้างขึ้น
ตอนที่ 1. ข้อมูลเชิงลึก
ตอนที่ 2. ฮาร์ดแวร์
คำนวณ - ตัวเร่งความเร็วซีพียูหน่วยความจำ CPU
ที่เก็บข้อมูล - ระบบไฟล์ท้องถิ่นกระจายและแชร์
เครือข่าย - เครือข่ายภายในและอินเตอร์โหนด
ส่วนที่ 3
ตอนที่ 4. การฝึกอบรม
ส่วนที่ 5 การอนุมาน
ตอนที่ 6. การพัฒนา
การดีบักและการแก้ไขปัญหา - วิธีการดีบักปัญหาง่ายและยาก
และการดีบักอื่น ๆ
การทดสอบ - เคล็ดลับและเครื่องมือมากมายในการสร้างการเขียนแบบทดสอบที่สนุกสนาน
ตอนที่ 7. เบ็ดเตล็ด
ฉันประกาศการอัปเดตที่สำคัญใด ๆ ในช่อง Twitter ของฉัน https://twitter.com/stasbekman
ดาวน์โหลดหนังสือ PDF เวอร์ชัน
ฉันจะพยายามสร้างใหม่สัปดาห์ละครั้งหรือมากกว่านั้น แต่ถ้าคุณต้องการล่าสุดคำแนะนำสำหรับการสร้างอยู่ที่นี่
ขอบคุณ HuggingFace ที่อนุญาตให้ฉันเป็นเจ้าภาพ PDF ของหนังสือของฉันที่ HF Hub
หากคุณต้องการหารือเกี่ยวกับสิ่งที่เกี่ยวข้องกับ ML Engineering repo นี้มีการอภิปรายของชุมชน - ดังนั้นโปรดอย่าลังเลที่จะแบ่งปันประสบการณ์ของคุณหรือเริ่มการสนทนาใหม่เกี่ยวกับสิ่งที่คุณหลงใหล
ตัวเร่งความเร็วระดับไฮเอนด์:
เครือข่าย:
สิ่งที่คุณมีแนวโน้มที่จะต้องค้นหาอย่างรวดเร็วและบ่อยครั้ง
เครื่องมือ:
คำแนะนำ:
สิ่งนี้จะไม่เป็นไปได้หากฉันได้รับความไว้วางใจจากการฝึกอบรม LLM/VLM ที่เฉพาะเจาะจงฉันได้เรียนรู้ความรู้เบื้องต้นจาก นี่เป็นสิทธิพิเศษที่มีเพียงไม่กี่คนเท่านั้นที่ได้รับความสุขเนื่องจากค่าใช้จ่ายในการเช่ากลุ่ม ML ขนาดใหญ่ที่มีราคาแพง ดังนั้นหวังว่าส่วนที่เหลือของชุมชน ML จะเรียนรู้จากบันทึกเหล่านี้
ขอขอบคุณเป็นพิเศษไปที่ Thom Wolf ที่เสนอว่าฉันเป็นผู้นำการฝึกอบรม Bloom-176B กลับมาเมื่อฉันไม่รู้อะไรเกี่ยวกับการฝึกอบรมขนาดใหญ่ นี่คือโครงการที่ทำให้ฉันเข้าสู่กระบวนการเรียนรู้ที่เข้มข้น และแน่นอนว่า HuggingFace เพื่อให้โอกาสฉันได้ทำงานเต็มเวลาใน Bloom-176B และต่อมาในการฝึกอบรม IDEFICS-80B
เมื่อเร็ว ๆ นี้ฉันยังคงขยายความรู้และประสบการณ์ของฉันในขณะที่การฝึกอบรมรูปแบบและการสร้างระบบการฝึกอบรม/การอนุมานที่ปรับขนาดได้ที่ Contementual.ai และฉันรู้สึกขอบคุณโอกาสที่จะได้รับ Aman และ Douwe
ฉันอยากจะบอกว่าต้องขอบคุณผู้มีส่วนร่วมจำนวนมากที่ทำให้ข้อความนี้ยอดเยี่ยมและปราศจากข้อผิดพลาด
หากคุณพบข้อผิดพลาดพิมพ์ผิดหรือต้องการเสนอการปรับปรุงโปรดอย่าลังเลที่จะเปิดปัญหาหรือมีส่วนร่วมในการประชาสัมพันธ์
เนื้อหาของไซต์นี้มีการกระจายภายใต้แหล่งอ้างอิงที่มาจากการระบุแหล่งที่มา 4.0
@misc { bekman2024mlengineering ,
author = { Bekman, Stas } ,
title = { Machine Learning Engineering Open Book } ,
year = { 2023-2024 } ,
publisher = { Stasosphere Online Inc. } ,
journal = { GitHub repository } ,
url = { https://github.com/stas00/ml-engineering }
}✔ การเรียนรู้ของเครื่อง: ML Engineering Open Book | ML Ways | การพอร์ต
✔ มัคคุเทศก์: ศิลปะการดีบัก
✔ แอปพลิเคชัน: ipyexperiments
✔ เครื่องมือและ Cheatsheets: Bash | Conda | Git | JUPYTER-NOTEBOOK | ทำให้ | Python Tensorboard | Unix