เมื่อเร็ว ๆ นี้การเริ่มต้นของปัญญาประดิษฐ์ของจีนเมื่อเร็ว ๆ นี้ได้เปิดตัวรูปแบบภาษาขนาดใหญ่ล่าสุดอย่างเงียบ ๆ Deepseek-V3-0324 ซึ่งได้รับความสนใจอย่างกว้างขวางในอุตสาหกรรมปัญญาประดิษฐ์ โมเดลปรากฏบนห้องสมุดทรัพยากร AI กอดใบหน้าที่ 641GB เพื่อดำเนินการต่อสไตล์คีย์ต่ำตามปกติของ Deepseek มันไม่ได้ดำเนินการประชาสัมพันธ์ขนาดใหญ่และมาพร้อมกับไฟล์ readme ที่ว่างเปล่าและน้ำหนักรุ่น
รุ่นนี้ได้รับใบอนุญาตด้วย MIT ช่วยให้สามารถใช้งานได้ฟรีเพื่อวัตถุประสงค์ทางการค้าและสามารถทำงานได้โดยตรงกับฮาร์ดแวร์เกรดผู้บริโภคเช่น Apple Mac Studio ด้วย M3 Ultra Chip นักวิจัย AI Awni Hannun เปิดเผยในโซเชียลมีเดียว่า Deepseek-V3-0324 เวอร์ชัน 4 บิตนั้นทำงานได้เร็วกว่า 20 โทเค็นต่อวินาทีในชิป Ultra 512GB M3 แม้จะมีราคาสูงของสตูดิโอ MAC แต่ความสามารถในการเรียกใช้โมเดลขนาดใหญ่ในท้องถิ่นจะทำลายการพึ่งพาอาศัยของ AI บนสุดก่อนหน้านี้บนศูนย์ข้อมูล

Deepseek-V3-0324 ใช้สถาปัตยกรรม Hybrid Expert (MOE) ซึ่งเปิดใช้งานเฉพาะพารามิเตอร์ประมาณ 37 พันล้านพารามิเตอร์แทนที่จะเป็นพารามิเตอร์ทั้งหมด 685 พันล้านพารามิเตอร์เมื่อทำงาน ในเวลาเดียวกันโมเดลยังรวมเอาความสนใจที่มีศักยภาพมายาวนาน (MLA) และเทคโนโลยีการทำนายแบบหลายท็อก (MTP) MLA ช่วยเพิ่มความสามารถในการทำความเข้าใจตามบริบทของโมเดลในตำรายาว MTP ช่วยให้โมเดลสามารถสร้างโทเค็นหลายตัวในแต่ละครั้งและความเร็วเอาต์พุตจะเพิ่มขึ้นเกือบ 80% เวอร์ชันเชิงปริมาณ 4 บิตลดความต้องการพื้นที่เก็บข้อมูลเป็น 352GB ทำให้สามารถทำงานบนฮาร์ดแวร์ระดับผู้บริโภคระดับสูงได้
ตามที่ผู้ทดสอบยุคแรก Deepseek-V3-0324 ได้รับการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า นักวิจัยของ AI Xeophon อ้างว่าแบบจำลองได้ก้าวกระโดดครั้งใหญ่ในการทดสอบทั้งหมดเกินกว่า Claude Sonnet 3.5 ของมานุษยวิทยาเพื่อเป็นรูปแบบที่ไม่น่าสนใจที่ดีที่สุด ยิ่งไปกว่านั้นซึ่งแตกต่างจาก Sonnet ที่ต้องสมัครสมาชิกน้ำหนักของ Deepseek-V3-0324 สามารถดาวน์โหลดได้ฟรี

กลยุทธ์การเปิดตัวโอเพ่นซอร์สของ Deepseek นั้นตรงกันข้ามกับ บริษัท AI ตะวันตก Openai และมานุษยวิทยาของสหรัฐอเมริกาได้กำหนดเกณฑ์การชำระเงินสำหรับโมเดลในขณะที่ บริษัท AI จีนมีแนวโน้มที่จะหลวมใบอนุญาตโอเพ่นซอร์สมากขึ้น กลยุทธ์นี้ได้เร่งการพัฒนาระบบนิเวศ AI ของจีนและยักษ์ใหญ่ด้านเทคโนโลยีเช่น Baidu, Alibaba และ Tencent ได้ติดตามชุดสูทและเปิดตัวโมเดล AI โอเพนซอร์ส เมื่อเผชิญกับข้อ จำกัด ของชิป Nvidia บริษัท จีนได้เปลี่ยนข้อเสียของพวกเขาให้กลายเป็นข้อได้เปรียบในการแข่งขันโดยเน้นประสิทธิภาพและการเพิ่มประสิทธิภาพ
Deepseek-V3-0324 น่าจะเป็นพื้นฐานของรูปแบบการอนุมาน Deepseek-R2 ที่กำลังจะมาถึง ความต้องการคอมพิวเตอร์แบบจำลองการอนุมานในปัจจุบันมีขนาดใหญ่มาก หาก Deepseek-R2 ทำงานได้ดีมันจะเป็นความท้าทายโดยตรงกับ GPT-5 ของ Openai ที่มีข่าวลือ
สำหรับผู้ใช้และนักพัฒนาซอฟต์แวร์ที่ต้องการสัมผัสกับ Deepseek-V3-0324 น้ำหนักแบบจำลองเต็มรูปแบบสามารถดาวน์โหลดได้จากการกอดใบหน้า แต่ไฟล์มีขนาดใหญ่และต้องการทรัพยากรที่เก็บข้อมูลและการคำนวณสูง นอกจากนี้คุณยังสามารถเลือกบริการคลาวด์เช่น OpenRouter ซึ่งให้การเข้าถึง API ฟรีและอินเทอร์เฟซแชทที่เป็นมิตร อินเทอร์เฟซแชทของ Deepseek อาจได้รับการอัปเดตเพื่อรองรับเวอร์ชันใหม่ นักพัฒนายังสามารถรวมโมเดลผ่านผู้ให้บริการให้เหตุผลเช่นห้องปฏิบัติการไฮเพอร์โบลิก
เป็นที่น่าสังเกตว่า Deepseek-V3-0324 มีการเปลี่ยนแปลงในรูปแบบการสื่อสารตั้งแต่สไตล์การสนทนาที่เหมือนมนุษย์ไปจนถึงสไตล์ที่เป็นทางการและเทคนิคมากขึ้น การเปลี่ยนแปลงนี้มีวัตถุประสงค์เพื่อปรับให้เข้ากับสถานการณ์แอปพลิเคชันระดับมืออาชีพและทางเทคนิค แต่อาจส่งผลกระทบต่อการอุทธรณ์ในแอปพลิเคชันที่มุ่งเน้นผู้บริโภค
กลยุทธ์โอเพ่นซอร์สของ Deepseek กำลังปรับเปลี่ยนภูมิทัศน์ AI ทั่วโลก ก่อนหน้านี้ช่องว่าง AI ของจีนกับสหรัฐอเมริกาอยู่ห่างออกไป 1-2 ปี แต่ตอนนี้มันแคบลงอย่างมีนัยสำคัญถึง 3-6 เดือนและบางพื้นที่ก็ประสบความสำเร็จ เช่นเดียวกับที่ระบบ Android ได้รับการปกครองทั่วโลกผ่านโอเพนซอร์สโมเดลโอเพนซอร์ส AI คาดว่าจะโดดเด่นในการแข่งขันด้วยแอพพลิเคชั่นที่หลากหลายและนวัตกรรมร่วมของนักพัฒนาและส่งเสริมการใช้เทคโนโลยี AI ที่กว้างขึ้น