Voice AI คือ "ในขั้นตอนเดียว"! ขั้นตอนโอเพนซอร์ส 130b โมเดลเสียงที่โดดเด่นการสนทนาแบบเรียลไทม์ + การโคลนนิ่งอารมณ์การระเบิดกำลังจะมา - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-15 03:25:02

เทคโนโลยีการโต้ตอบด้วยเสียงเพิ่งนำไปสู่การพัฒนาครั้งใหญ่ Step Audio ซึ่งเป็น บริษัท AI ในประเทศชั้นนำประกาศแหล่งที่มาของแบบจำลองเสียงที่มีขนาดใหญ่มากด้วยพารามิเตอร์ 130 พันล้านพารามิเตอร์ ความสำเร็จที่เป็นนวัตกรรมนี้ได้รับความสนใจอย่างกว้างขวางในอุตสาหกรรมและได้รับการยกย่องว่าเป็นเหตุการณ์สำคัญในการพัฒนาเทคโนโลยี AI เสียง โมเดลนี้ไม่เพียง แต่เป็นระบบการสนทนาด้วยเสียงแบบเรียลไทม์โอเพนซอร์สครั้งแรกที่รวมความเข้าใจในการพูดและการควบคุมการสร้าง แต่ยังระบุว่าเทคโนโลยีการโต้ตอบด้วยเสียงจะย้ายไปสู่ความสูงใหม่ด้วยฟังก์ชั่นที่ครอบคลุมและเทคโนโลยีขั้นสูง

ไฮไลต์หลักของโมเดลโอเพ่นซอร์สนี้คือการออกแบบแบบบูรณาการและความสามารถในการควบคุมที่ทรงพลัง ไม่เพียง แต่เข้าใจคำสั่งเสียงของผู้ใช้อย่างถูกต้อง แต่ยังควบคุมกระบวนการสร้างเสียงได้อย่างยืดหยุ่นทำให้ผู้ใช้มีประสบการณ์แบบโต้ตอบส่วนบุคคลที่ไม่เคยมีมาก่อน การออกแบบนี้ทำให้การโต้ตอบด้วยเสียงเป็นธรรมชาติและราบรื่นขึ้นปรับปรุงประสบการณ์ผู้ใช้อย่างมาก

ในแง่ของการสนับสนุนภาษาโมเดลนี้แสดงให้เห็นถึงความสามารถในการประมวลผลหลายภาษาที่ยอดเยี่ยมสามารถสลับระหว่างภาษาจีนอังกฤษญี่ปุ่นและภาษาอื่น ๆ ได้อย่างราบรื่นและรับมือกับสถานการณ์การสื่อสารข้ามภาษาได้อย่างง่ายดาย นอกจากนี้ยังสนับสนุนภาษาถิ่นที่หลากหลายเช่นภาษากวางตุ้งภาษาเสฉวน ฯลฯ ทำให้การโต้ตอบทางเสียงใกล้เคียงกับชีวิตประจำวันและมีมนุษยธรรมมากขึ้น

นอกเหนือจากความสามารถในการประมวลผลภาษาแล้วรุ่นนี้ยังมีฟังก์ชั่นการควบคุมอารมณ์เสียงดี ผู้ใช้สามารถตั้งค่าเสียงทางอารมณ์ตามความต้องการของพวกเขาเช่นความสุขความเศร้า ฯลฯ เพื่อให้การแสดงออกของ AI ติดเชื้อมากขึ้น ในเวลาเดียวกันความเร็วในการพูดและสไตล์จังหวะสามารถปรับได้ตามความต้องการของฉากเพื่อตอบสนองความต้องการการแสดงออกที่หลากหลาย สิ่งที่น่าประหลาดใจยิ่งกว่านั้นคือรูปแบบนี้ยังรองรับรูปแบบเสียงที่สร้างสรรค์มากขึ้นเช่นแร็พและฮัมเพลงซึ่งให้ความเป็นไปได้ไม่ จำกัด สำหรับการสร้างเนื้อหา

นอกจากนี้รุ่นนี้ยังมีฟังก์ชั่นการโคลนเสียงและผู้ใช้สามารถสร้างผู้ช่วยเสียงที่เป็นส่วนตัวผ่านเทคโนโลยีนี้และยังตระหนักถึง "แบบจำลอง" และ "มรดก" ของเสียง ฟังก์ชั่นนี้นำสถานการณ์แอพพลิเคชั่นและความเป็นไปได้มากขึ้นในเทคโนโลยีการโต้ตอบด้วยเสียง

โอเพ่นซอร์สของ Jieyue เช่นรูปแบบเสียงที่ทรงพลังจะส่งเสริมความก้าวหน้าทางเทคโนโลยีและนวัตกรรมแอปพลิเคชันอย่างไม่ต้องสงสัยอย่างมากในอุตสาหกรรมทั้งหมด ไม่เพียง แต่จะช่วยลดระดับแอปพลิเคชันของเทคโนโลยี AI ได้อย่างมาก แต่ยังแสดงให้เห็นว่าการโต้ตอบด้วยเสียงจะกลายเป็นที่ชาญฉลาดเป็นธรรมชาติและเป็นส่วนตัวในอนาคตรวมเข้ากับชีวิตประจำวันของผู้คนอย่างแท้จริง

ที่อยู่โครงการ: https://github.com/stepfun-ai/step-audio/tree/main