งาปล่อยโมเดล CSM: การปรับแต่งอารมณ์แบบเรียลไทม์การสังเคราะห์คำพูด AI ย้ายไปสู่ระดับใหม่ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-20 07:50:02

เมื่อวันที่ 13 มีนาคมเซซามีเปิดตัวโมเดลการสังเคราะห์เสียงล่าสุดอย่างเป็นทางการ CSM ซึ่งดึงดูดความสนใจอย่างกว้างขวางจากอุตสาหกรรมอย่างรวดเร็ว จากการแนะนำอย่างเป็นทางการ CSM ใช้สถาปัตยกรรมการเรียนรู้แบบหลายรูปแบบแบบ end-to-end ตามหม้อแปลงซึ่งสามารถเข้าใจข้อมูลบริบทอย่างลึกซึ้งและสร้างเสียงธรรมชาติและอารมณ์ เอฟเฟกต์เสียงนั้นสมจริงมากเกือบจะเหมือนกับคนจริงและน่าทึ่งมาก

โมเดล CSM ไม่เพียง แต่รองรับการสร้างเสียงแบบเรียลไทม์เท่านั้น แต่ยังจัดการกับข้อความและอินพุตเสียงด้วย ผู้ใช้สามารถปรับพารามิเตอร์เพื่อควบคุมลักษณะเช่นโทนเสียงโทนเสียงจังหวะและอารมณ์แสดงความยืดหยุ่นสูงมาก ความสามารถในการสร้างเสียงส่วนบุคคลนี้ช่วยให้ CSM ทำงานได้ดีในสถานการณ์แอปพลิเคชันที่หลากหลาย

CSM ถือเป็นความก้าวหน้าครั้งสำคัญในด้านเทคโนโลยีเสียง AI การออกเสียงของมันนั้นเป็นธรรมชาติอย่างยิ่งและถึงระดับของ "ไม่รู้จักที่จะสังเคราะห์เทียมหรือคนจริง" ผู้ใช้บางคนบันทึกวิดีโอเพื่อแสดงว่า CSM แทบจะไม่ล่าช้าและเรียกมันว่า "รุ่นที่แข็งแกร่งที่สุดเท่าที่เคยมีมา" ก่อนหน้านี้งาได้เปิดแหล่งที่มาของ CSM-1B รุ่นเล็ก ๆ ซึ่งรองรับบทสนทนาหลายรอบเพื่อสร้างเสียงที่สอดคล้องกันซึ่งได้รับการยกย่องอย่างกว้างขวาง

ในปัจจุบัน CSM ได้รับการฝึกฝนเป็นภาษาอังกฤษเป็นหลักและทำได้ดีมาก อย่างไรก็ตาม CSM ยังคงมีข้อ จำกัด บางประการในแง่ของการสนับสนุนหลายภาษา ปัจจุบันโมเดลไม่สนับสนุนภาษาจีน แต่เซซามีกล่าวว่าคาดว่าจะขยายการสนับสนุนภาษาในอนาคตเพื่อตอบสนองความต้องการของผู้ใช้มากขึ้น

เซซามียังกล่าวอีกว่าจะโอเพ่นซอร์สผลการวิจัยการตัดสินใจที่จุดประกายการอภิปรายอย่างรุนแรงในหมู่นักพัฒนาชุมชนใน GitHub CSM ไม่เพียง แต่เหมาะสำหรับการสนทนา AI เท่านั้น แต่ยังอาจส่งเสริมนวัตกรรมในประสบการณ์การโต้ตอบด้วยเสียงในด้านต่าง ๆ เช่นการศึกษาและความบันเทิง โดยทั่วไปแล้วคนในอุตสาหกรรมเชื่อว่า CSM อาจปรับเปลี่ยนมาตรฐานของผู้ช่วยเสียง AI และนำประสบการณ์การสนทนาของมนุษย์กับคอมพิวเตอร์ธรรมชาติมากขึ้น