กษัตริย์ระเบิด! Deepseek-V3-0324 ได้รับการปล่อยตัวอย่างเงียบ ๆ ฟรีสำหรับการใช้งานเชิงพาณิชย์และคอมพิวเตอร์เกรดผู้บริโภคสามารถทำงานได้! - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-22 02:00:02

2025 Binance Direct

สาขาปัญญาประดิษฐ์ได้นำไปสู่ดาวดวงใหม่ที่พราว-Deepseek-V3-0324 รูปแบบภาษาขนาดใหญ่ โมเดล AI นี้พัฒนาโดยทีมงาน Deepseek กำลังปรับเปลี่ยนภูมิทัศน์อุตสาหกรรมด้วยความจุ 641GB ที่น่าทึ่งและสถาปัตยกรรมเทคโนโลยีที่ก้าวหน้า สิ่งที่น่าแปลกใจที่สุดคือโมเดลที่ทรงพลังนี้ได้รับการปล่อยตัวในลักษณะต่ำที่สำคัญบนแพลตฟอร์มกอดใบหน้าโดยไม่มีการประชาสัมพันธ์เบื้องต้นใด ๆ

การแสดงของ Deepseek-V3 นั้นยอดเยี่ยมมาก ตามรายงานการทดสอบโดยนักวิจัย AI Xeophon บนแพลตฟอร์มโซเชียลมีเดีย X โมเดลได้ประสบความสำเร็จในการก้าวกระโดดเชิงคุณภาพในตัวชี้วัดการทดสอบทั้งหมด ประสิทธิภาพของมันยังเกินกว่าระบบการค้า CLAUDE SONNET 3.5 เชิงพาณิชย์ที่ได้รับการยกย่องอย่างกว้างขวางของมานุษยวิทยา ความคืบหน้าการพัฒนานี้เป็นแรงบันดาลใจให้กับชุมชนการวิจัย AI ทั้งหมด

หนึ่งในคุณสมบัติที่สะดุดตาที่สุดของ Deepseek-V3 คือคุณสมบัติโอเพ่นซอร์สอย่างเต็มที่ ซึ่งแตกต่างจากรูปแบบธุรกิจที่ บริษัท AI ตะวันตกส่วนใหญ่วางโมเดลขั้นสูงไว้เบื้องหลัง Paywalls, Deepseek-V3 ใช้ใบอนุญาต MIT ซึ่งหมายความว่าทุกคนสามารถดาวน์โหลดและใช้แบบจำลองได้ฟรีแม้เพื่อการค้า แนวคิดการแบ่งปันที่เปิดกว้างนี้กำลังทำลายอุปสรรคการชำระเงินในด้านปัญญาประดิษฐ์และอนุญาตให้เทคโนโลยีขั้นสูงเพื่อประโยชน์ของนักพัฒนาที่หลากหลาย

ในแง่ของสถาปัตยกรรมทางเทคนิค Deepseek-V3 ใช้ระบบผู้เชี่ยวชาญไฮบริด (MOE) ปฏิวัติ สถาปัตยกรรมที่เป็นนวัตกรรมนี้ช่วยให้แบบจำลองสามารถเปิดใช้งานพารามิเตอร์ประมาณ 37 พันล้านพารามิเตอร์เมื่อประมวลผลงานเฉพาะในขณะที่โมเดลที่ไม่ใช่แบบดั้งเดิมต้องการการเปิดใช้งานพารามิเตอร์ทั้งหมด 685 พันล้านพารามิเตอร์ กลไกการเปิดใช้งานการเลือกนี้ช่วยปรับปรุงประสิทธิภาพการคำนวณอย่างมากและลดความต้องการทรัพยากรในการคำนวณอย่างมีนัยสำคัญในขณะที่มั่นใจว่าประสิทธิภาพ ความก้าวหน้านี้เปิดเส้นทางใหม่สำหรับการเพิ่มประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่

Deepseek-V3 ยังรวมเอาเทคโนโลยีที่ทันสมัยสองอย่าง: ความสนใจที่มีศักยภาพยาวนาน (MLA) และการทำนายแบบหลายท็อก (MTP) เทคโนโลยี MLA ช่วยเพิ่มความเข้าใจตามบริบทของแบบจำลองอย่างมีนัยสำคัญเมื่อประมวลผลข้อความยาวในขณะที่เทคโนโลยี MTP ช่วยให้สามารถสร้างโทเค็นหลายตัวในขั้นตอนเดียวเพิ่มความเร็วเอาท์พุทเกือบ 80% นวัตกรรมทางเทคโนโลยีเหล่านี้เป็นพื้นฐานทางเทคนิคสำหรับประสิทธิภาพที่ยอดเยี่ยมของ Deepseek-V3

น่าแปลกที่รุ่นประสิทธิภาพสูงนี้ค่อนข้างเป็นมิตรกับฮาร์ดแวร์ นักพัฒนา Simon Willison ชี้ให้เห็นว่าหลังจากการหาปริมาณ 4 บิตการครอบครองแบบจำลองการจัดเก็บข้อมูลสามารถลดลงเป็น 352GB ทำให้สามารถทำงานบนอุปกรณ์ผู้บริโภคระดับไฮเอนด์ได้ นักวิจัย AI Awni Hannun ยืนยันว่าในสตูดิโอ M3 Ultra Chip Mac พร้อมหน่วยความจำ 512GB Deepseek-V3 สามารถทำงานได้มากกว่า 20 โทเค็นต่อวินาที ความสามารถในการดำเนินงานที่แปลเป็นภาษาท้องถิ่นนี้จะแบ่งการพึ่งพาแบบจำลอง AI แบบดั้งเดิมในโครงสร้างพื้นฐานระดับศูนย์ข้อมูล

เมื่อเปรียบเทียบกับเวอร์ชันก่อนหน้า DeepSeek-V3 ยังได้รับการเปลี่ยนแปลงที่สำคัญในรูปแบบการโต้ตอบ ความคิดเห็นของผู้ใช้ก่อนหน้านี้แสดงให้เห็นว่าโมเดลใหม่นำเสนอการแสดงออกที่เป็นทางการและเทคนิคมากขึ้นซึ่งตรงกันข้ามกับรูปแบบการสนทนาที่เป็นมนุษย์มากขึ้นของเวอร์ชันก่อนหน้า การปรับรูปแบบนี้อาจสะท้อนถึงการพิจารณาการกำหนดตำแหน่งระดับมืออาชีพของแบบจำลองใหม่ทำให้เหมาะสำหรับสถานการณ์แอปพลิเคชันทางเทคนิคมากขึ้น

กลยุทธ์การเปิดตัวของ Deepseek-V3 สะท้อนให้เห็นถึงความแตกต่างอย่างมีนัยสำคัญในรูปแบบธุรกิจระหว่าง บริษัท AI จีนและเพื่อนร่วมงานตะวันตก ในสภาพแวดล้อมที่ชิปขั้นสูงมี จำกัด บริษัท จีนให้ความสำคัญกับการเพิ่มประสิทธิภาพอัลกอริทึมและการปรับปรุงประสิทธิภาพมากขึ้น "นวัตกรรมภายใต้ข้อ จำกัด ของฮาร์ดแวร์" นี้อาจกลายเป็นข้อได้เปรียบในการแข่งขันที่ไม่เหมือนใคร ยักษ์ใหญ่ด้านเทคโนโลยีของจีนรวมถึง Baidu, Alibaba และ Tencent ได้ติดตามกลยุทธ์โอเพ่นซอร์สเพื่อร่วมกันส่งเสริมระบบนิเวศ AI ที่เปิดกว้างขึ้น

ผู้เชี่ยวชาญในอุตสาหกรรมเชื่อว่า Deepseek-V3 มีแนวโน้มที่จะเป็นพื้นฐานของแบบจำลองการอนุมานรุ่นต่อไป Deepseek-R2 เมื่อพิจารณาว่า Hwang Junxun ซีอีโอของ Nvidia เคยชี้ให้เห็นว่าการใช้การคำนวณแบบจำลอง R1 ของ Deepseek นั้นเป็น 100 เท่าของ AI ที่ไม่ได้รับการอนุมัติมันมีค่ายิ่งกว่าที่จะบรรลุประสิทธิภาพดังกล่าวภายใต้ข้อ จำกัด ของทรัพยากร หาก R2 ยังคงดำเนินต่อไปตามวิถีการพัฒนานี้มีแนวโน้มที่จะก่อให้เกิดความท้าทายอย่างมากต่อ GPT-5 ที่กำลังจะมาถึงของ OpenAI

ปัจจุบันนักพัฒนาสามารถดาวน์โหลดน้ำหนักแบบจำลองเต็มรูปแบบผ่านการกอดใบหน้าหรือสัมผัสกับอินเทอร์เฟซ API ผ่านแพลตฟอร์มเช่น OpenRouter กลยุทธ์เปิดกว้างของ Deepseek คือการกำหนดรูปแบบการพัฒนา AI ทั่วโลกซึ่งแสดงให้เห็นว่ายุคใหม่ของการสร้างความนิยมและนวัตกรรมและการเปิดกว้างกำลังจะมาถึง

<｜ สิ้นสุดประโยค ｜>