300 วัน __Generativeai
พื้นที่เก็บข้อมูลนี้ 300days_generativeai อุทิศให้กับการเรียนรู้อย่างต่อเนื่อง 300 วันโดยมุ่งเน้นไปที่ AI กำเนิดศึกษาหนังสือและงานวิจัยที่แตกต่างกันทุกวัน ฉันจะทบทวนการเรียนรู้ที่ผ่านมาอัปเดตความเข้าใจและดำน้ำลึกลงไปในความซับซ้อนของ AI Generative
| เลขที่ | หนังสือ | สถานะ |
|---|
| 1 | Mastering Pytorch: สร้างและปรับใช้แบบจำลองการเรียนรู้ลึกจาก CNNs ไปจนถึงแบบจำลองหลายรูปแบบ LLMS และอื่น ๆ (Ashish Ranjan Jha) | อย่างต่อเนื่อง |
| 2 | ถ่ายโอนการเรียนรู้สำหรับการประมวลผลภาษาธรรมชาติ (Paul Azunre) | |
| 3 | สร้างรูปแบบภาษาขนาดใหญ่ (ตั้งแต่เริ่มต้น) (MEAP) (Sebastian Raschka) | อย่างต่อเนื่อง |
| 4 | เรียนรู้ AI Generative ด้วย Pytorch (Mark Liu) | |
| 5 | AI Generative ในการดำเนินการ (MEAP V02) (Amit Bahree) | |
| 6 | การทำความเข้าใจ Langchain: คู่มือที่ครอบคลุมเกี่ยวกับการสร้างแอพพลิเคชั่นรูปแบบภาษาแห่งอนาคต (Jeffery Owens) | |
| 7 | Playbook ของนักพัฒนาเพื่อความปลอดภัยรูปแบบภาษาขนาดใหญ่ (Steve Wilson) | |
| เลขที่ | งานวิจัย | หัวข้อ | สถานะ |
|---|
| 1 | แบบจำลองเครือข่ายประสาท Deep Lenet-5 Convolutional นวนิยายสำหรับการจดจำภาพ | Lenet-5 | ✅เสร็จสิ้น |
| 2 | ลึกลงไปกับการโน้มน้าวใจ | Googlenet | ✅เสร็จสิ้น |
วันที่ 1 จาก 300DaysofGenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับการเรียนรู้ Pytorch ฉันมุ่งเน้นไปที่พื้นฐานของการเรียนรู้เชิงลึกโดยเฉพาะอย่างยิ่งผ่านการสอน "การเรียนรู้อย่างลึกซึ้งกับ Pytorch: บทช่วยสอน Blitz 60 นาที" ฉันเรียนรู้เกี่ยวกับสถาปัตยกรรมเครือข่ายประสาทรวมถึงการเชื่อมต่ออย่างสมบูรณ์, convolutional และเลเยอร์กำเริบและสำรวจโมดูลสำคัญของ Pytorch เช่น Torch.Autograd สำหรับความแตกต่างอัตโนมัติและ Torch.nn สำหรับการสร้างเครือข่าย ฉันฝึกฝนการแพร่กระจายไปข้างหน้าและย้อนกลับการคำนวณการสูญเสียและการไล่ระดับสีการไล่ระดับสีสูงสุดในการสร้างเครือข่ายประสาทไปข้างหน้าอย่างง่าย ในการประชุมที่กำลังจะมาถึงวาระการประชุมของฉันรวมถึงการดำน้ำลึกลงไปในพลังของเครือข่ายประสาท (CNNS) วิวัฒนาการทางสถาปัตยกรรมของพวกเขาและการพัฒนาแบบจำลองของแบบจำลองเช่น Lenet, Alexnet, VGG, Googlenet, Inception V3, Resnet, Densenet
- ทรัพยากรเพิ่มเติม:
- การเรียนรู้อย่างลึกซึ้งกับ Pytorch: Blitz 60 นาที
วันที่ 2 ของ 300DaysofGenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับการเรียนรู้ Pytorch ฉันมีช่วงเวลาสั้น ๆ แต่มีประสิทธิผลในการดำน้ำในสถาปัตยกรรม CNN ลึก ฉันสำรวจว่าทำไม CNNs จึงมีประสิทธิภาพสำหรับงานเช่นการจำแนกภาพและการตรวจจับวัตถุโดยเน้นประสิทธิภาพของพารามิเตอร์การสกัดคุณลักษณะอัตโนมัติและการเรียนรู้แบบลำดับชั้น ฉันได้ตรวจสอบนวัตกรรมทางสถาปัตยกรรมต่าง ๆ เช่นอวกาศความลึกความกว้างและ CNNs หลายคแบบ ฉันยังตรวจสอบการใช้งานของ Alexnet ใน Pytorch โดยมุ่งเน้นไปที่โครงสร้างเลเยอร์และวิธีการใช้ประโยชน์จากฟังก์ชั่นการออกกลางคันและการเปิดใช้งาน นอกจากนี้ฉันยังสังเกตเห็นความพร้อมใช้งานของรุ่น CNN ที่กำหนดไว้ล่วงหน้าในแพ็คเกจ Torchvision ของ Pytorch รวมถึง Alexnet, VGG, Resnet และอื่น ๆ
วันที่ 3 ของ 300daysofgenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับการเรียนรู้ pytorch ฉันได้เตรียมชุดข้อมูลสำหรับงานการจำแนกรูปภาพใช้กระบวนการปรับแต่งอย่างละเอียดสำหรับแบบจำลอง Alexnet ที่ผ่านการฝึกอบรมมาก่อนและแก้ไขปัญหาพฤติกรรมที่กำหนดขึ้นในระหว่างการฝึกอบรม ฉันสร้างตัวโหลดข้อมูลฟังก์ชั่นตัวช่วยที่กำหนดไว้สำหรับการสร้างภาพและการปรับแต่งแบบจำลองและแก้ไขเลเยอร์สุดท้ายของรุ่นที่ผ่านการฝึกอบรมมาก่อนเพื่อให้ตรงกับจำนวนคลาสในชุดข้อมูลของฉัน ในระหว่างกระบวนการปรับแต่งฉันพบคำเตือนที่เกี่ยวข้องกับการใช้การดำเนินการ
adaptive_avg_pool2d_backward_cuda ซึ่งไม่มีการดำเนินการที่กำหนด เพื่อแก้ไขปัญหานี้ฉันได้เรียนรู้เกี่ยวกับวิธีการที่แตกต่างกันเพื่อเปิดใช้งานพฤติกรรมการกำหนดใน pytorch เช่นการเลือกสรรที่เลือกสรรสำหรับการดำเนินการที่มีปัญหาหรือใช้ตัวเลือก warn_only=True เมื่อเปิดใช้งานอัลกอริทึมที่กำหนด
วันที่ 4 ของ 300DaysofGenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับการเรียนรู้ Pytorch ฉันได้เรียนรู้ว่า Googlenet หรือที่รู้จักกันในชื่อ Inception V1 เป็นสถาปัตยกรรมเครือข่ายประสาทแบบ convolutional ที่ก้าวล้ำซึ่งแนะนำโมดูล Inception ซึ่งมีชั้น convolutional แบบขนานที่มีขนาดเคอร์เนลที่แตกต่างกัน (1x1, 3x3, 5x5) ฉันได้ค้นพบว่า 1x1 convolutions มีความสำคัญต่อการลดมิติทำให้แบบจำลองสามารถรักษาประสิทธิภาพได้โดยการลดความลึกของแผนที่คุณลักษณะโดยไม่ต้องเปลี่ยนมิติเชิงพื้นที่ นอกจากนี้ฉันได้เรียนรู้ว่า Googlenet ใช้การรวมค่าเฉลี่ยทั่วโลกก่อนที่เลเยอร์เอาท์พุทเพื่อลดพารามิเตอร์และเพิ่มความทนทานต่อการ overfitting การสำรวจของฉันเกี่ยวกับ Inception V3 ได้แสดงให้ฉันเห็นว่ามันสร้างขึ้นจากการออกแบบดั้งเดิมด้วยโมดูลที่ซับซ้อนมากขึ้นและเลเยอร์เพิ่มเติมทำให้ประสิทธิภาพดีขึ้น โดยรวมแล้วตอนนี้ฉันมีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับเทคนิคนวัตกรรมใน Googlenet และ Inception V3 รวมถึงโมดูล Inception, 1x1 Convolutions และการรวมค่าเฉลี่ยทั่วโลกซึ่งมีความก้าวหน้าในการมองเห็นคอมพิวเตอร์
วันที่ 5 ของ 300DaysofGenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับการเรียนรู้ Pytorch ฉันทำงานเกี่ยวกับการใช้สถาปัตยกรรม Googlenet โดยมุ่งเน้นไปที่การก่อสร้างและการรวมโมดูลการลงทะเบียนหลายครั้งภายในเครือข่าย ฉันปรับปรุงพารามิเตอร์ของแต่ละโมดูล Inception เพื่อสะท้อนการกำหนดค่าที่ตั้งใจไว้อย่างถูกต้องซึ่งรวมถึงการปรับเลเยอร์ convolutional และการรวมเข้าด้วยกันเพื่อแยกคุณสมบัติอย่างมีประสิทธิภาพในระดับต่างๆ นอกจากนี้ฉันยังรวมเลเยอร์ convolutional เริ่มต้นด้วยการทำให้เป็นมาตรฐานแบบแบทช์และการเปิดใช้งาน RELU ตามด้วยเลเยอร์การรวมสูงสุดสำหรับการสุ่มตัวอย่าง ในขณะที่ทำงานกับโมเดลฉันยังพิจารณาถึงความสำคัญของตัวแยกประเภทเสริมซึ่งโดยทั่วไปจะรวมอยู่ในสถาปัตยกรรม googlenet เพื่อช่วยลดปัญหาการไล่ระดับสีที่หายไปโดยการกำกับดูแลระดับกลาง ตัวจําแนกเหล่านี้เป็นตัวจําแนกหลักรุ่นเล็ก ๆ ที่แนบมากับเลเยอร์ก่อนหน้านี้และปรับปรุงความสามารถของเครือข่ายในการเรียนรู้คุณสมบัติที่มีความหมายในระหว่างการฝึกอบรม
วันที่ 6 ของ 300DaysofGenerativeai
- ในเซสชั่นของวันนี้ฉันได้อ่าน "รูปแบบเครือข่ายประสาท Deep Lenet-5 Convolutional Neural สำหรับการจดจำภาพ" ซึ่งเสนอสถาปัตยกรรม Lenet-5 แบบดั้งเดิมที่ได้รับการปรับปรุงเพื่อปรับปรุงความสามารถในการจดจำภาพ ผู้เขียนที่อยู่ข้อ จำกัด ของการเรียนรู้ของเครื่องทั่วไปและรุ่น CNN ก่อนหน้านี้เช่นความต้องการฮาร์ดแวร์สูงและความเร็วการบรรจบกันช้า วิธีการใหม่ของพวกเขาทำให้โครงสร้างเครือข่ายง่ายขึ้นในขณะที่เพิ่มความเร็วในการฝึกอบรมและปรับเปลี่ยนฟังก์ชั่นการเปิดใช้งานเป็นหน่วยเชิงเส้นที่แก้ไขด้วยลอการิทึม (L RELU) ผลการทดลองเกี่ยวกับชุดข้อมูล MNIST แสดงให้เห็นว่าโมเดลที่ได้รับการปรับปรุงนั้นมีอัตราการรับรู้เกิน 98%ซึ่งมีประสิทธิภาพสูงกว่าอัลกอริทึมที่ทันสมัยอื่น ๆ อย่างมีนัยสำคัญซึ่งให้การอ้างอิงที่มีค่าสำหรับความก้าวหน้าในเทคโนโลยีการจดจำภาพ
วันที่ 7 จาก 300DaysofGenerativeai
- ในเซสชั่นของวันนี้เกี่ยวกับ "สร้างรูปแบบภาษาขนาดใหญ่ (ตั้งแต่เริ่มต้น)" โดย Sebastian Raschka ฉันเจาะลึกลงไปในพื้นฐานของรูปแบบภาษาขนาดใหญ่ (LLMs) และการก่อสร้างของพวกเขา ฉันสำรวจสถาปัตยกรรมหม้อแปลงซึ่งรวมถึงทั้งตัวเข้ารหัสและตัวถอดรหัสโดยเน้นกลไกการใส่ใจในตนเองที่ช่วยให้แบบจำลองสามารถมุ่งเน้นไปที่ส่วนต่าง ๆ ของข้อความอินพุต ฉันตรวจสอบสองขั้นตอนสำคัญในการสร้าง LLMS: การเตรียมการบน Corpora ข้อความดิบขนาดใหญ่สำหรับการทำนายคำต่อไปและการปรับแต่งในชุดข้อมูลขนาดเล็กที่มีป้ายกำกับสำหรับงานที่เฉพาะเจาะจง นอกจากนี้ฉันได้เรียนรู้เกี่ยวกับความสามารถในการกำเนิดของแบบจำลองเช่น GPT และพฤติกรรมฉุกเฉินของพวกเขาซึ่งช่วยให้พวกเขาทำงานที่หลากหลายเช่นการแปลและการจำแนกประเภทแม้จะไม่มีการฝึกอบรมที่ชัดเจนสำหรับงานเหล่านั้น