Alibaba Tongyi Audio Model Model Funaudiollm โอเพนซอร์สรองรับการสนทนาทางอารมณ์หนังสือเสียงและสถานการณ์อื่น ๆ - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-22 07:50:01

โครงการ Funaudiollm เพิ่งเปิดตัวโดย Alibaba Tongyi Labs เป็นยุคใหม่ของเทคโนโลยีการสร้างเสียง โครงการโอเพ่นซอร์สนี้นิยามความเป็นไปได้ของการโต้ตอบด้วยเสียงของมนุษย์กับคอมพิวเตอร์ผ่านสองรุ่นหลักของมัน Sensevoice และ Cosyvoice Funaudiollm ไม่เพียง แต่แสดงให้เห็นถึงการสะสมอย่างลึกซึ้งของอาลีบาบาในด้านปัญญาประดิษฐ์ แต่ยังชี้ให้เห็นทิศทางสำหรับการพัฒนาในอนาคตของเทคโนโลยีเสียงอัจฉริยะ

ในฐานะที่เป็นเครื่องมือสร้างเสียงของโครงการความก้าวหน้าทางเทคโนโลยีของ Cosyvoice นั้นน่าประทับใจ หลังจากการฝึกอบรมข้อมูลหลายภาษา 150,000 ชั่วโมงแบบจำลองไม่เพียง แต่ประสบความสำเร็จในการสร้างภาษาห้าภาษาที่ราบรื่น ได้แก่ ภาษาจีนอังกฤษญี่ปุ่นกวางตุ้งและเกาหลี แต่ยังมาถึงระดับใหม่ในการจำลองเสียงและการควบคุมอารมณ์ ความสามารถในการสร้างเสียงที่ไม่เหมือนใครเป็นศูนย์ช่วยให้โมเดลสามารถปรับให้เข้ากับเสียงของผู้พูดใหม่ได้อย่างรวดเร็วซึ่งให้ความเป็นไปได้ไม่ จำกัด สำหรับบริการเสียงส่วนบุคคล โดยเฉพาะอย่างยิ่งในการสังเคราะห์เสียงข้ามภาษา Cosyvoice ได้แสดงให้เห็นถึงความสามารถในการปรับตัวที่น่าทึ่งปูทางสำหรับแอปพลิเคชันการโต้ตอบด้วยเสียงทั่วโลก

Sensevoice แสดงถึงเกณฑ์มาตรฐานใหม่ในเทคโนโลยีการรู้จำเสียงพูด หลังจากการฝึกอบรมข้อมูลหลายภาษา 400,000 ชั่วโมงความแม่นยำในการรับรู้ของมันนั้นเกินกว่ารุ่นกระซิบที่มีอยู่ในมากกว่า 50 ภาษา ในการรับรู้ของจีนและกวางตุ้งอัตราความแม่นยำเพิ่มขึ้นมากกว่า 50%ซึ่งนำการปฏิวัติมาสู่การประยุกต์ใช้เสียงอัจฉริยะในตลาดจีน เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่า Sensevoice รวมการจดจำอารมณ์และฟังก์ชั่นการตรวจจับเหตุการณ์เสียงทำให้เครื่องไม่เพียง แต่เข้าใจภาษา แต่ยังเข้าใจอารมณ์และข้อมูลฉากของผู้พูดด้วย

微信截图_20240708084503.png

Funaudiollm มีสถานการณ์แอพพลิเคชั่นที่กว้างมากตั้งแต่การแปลแบบเรียลไทม์หลายภาษาไปจนถึงการสนทนาด้วยเสียงทางอารมณ์ตั้งแต่พอดคาสต์แบบโต้ตอบไปจนถึงหนังสือเสียงอัจฉริยะทุกฟิลด์มีคุณค่าเชิงพาณิชย์จำนวนมาก ด้วยการรวมการยอมรับที่แม่นยำของ Sensevoice ความเข้าใจที่ดีของ LLM และ Cosyvoice รุ่นธรรมชาติทำให้โครงการประสบความสำเร็จในการโต้ตอบด้วยเสียงแบบ end-to-end ที่แท้จริง ความสามารถในการแปลเสียงเป็นคำพูดที่ไร้รอยต่อนี้จะปฏิวัติวิธีการสื่อสารข้ามภาษาและนำความเป็นไปได้ใหม่ ๆ มาสู่การแลกเปลี่ยนธุรกิจและวัฒนธรรมในยุคโลกาภิวัตน์

ในแง่ของการใช้งานด้านเทคนิค Cosyvoice ใช้เทคโนโลยีการเข้ารหัสเชิงปริมาณการพูดขั้นสูงเพื่อให้แน่ใจว่าความเป็นธรรมชาติและความคล่องแคล่วของการพูดที่สร้างขึ้น SenseVoice รวมฟังก์ชั่นเช่นการรู้จำเสียงพูดอัตโนมัติการรู้จำภาษาการรับรู้อารมณ์และการตรวจจับเหตุการณ์เสียงเข้ากับโมเดลแบบครบวงจรผ่านกรอบการเรียนรู้แบบหลายงานเพื่อปรับปรุงประสิทธิภาพและความแม่นยำของระบบอย่างมาก สถาปัตยกรรมทางเทคนิคนี้ไม่เพียง แต่ลดต้นทุนการคำนวณ แต่ยังให้พื้นฐานที่ดีสำหรับการเพิ่มประสิทธิภาพแบบจำลองที่ตามมาและการขยายการทำงาน

ทัศนคติที่เปิดกว้างของห้องปฏิบัติการอาลีบาบา ทีมงานโครงการไม่เพียง แต่เปิดตัวโมเดลและรหัสที่สมบูรณ์บน ModelsCope และ HuggingFace แต่ยังให้การฝึกอบรมโดยละเอียดการให้เหตุผลและคำแนะนำการปรับแต่งอย่างละเอียดเกี่ยวกับ GitHub จิตวิญญาณโอเพ่นซอร์สนี้จะส่งเสริมการวิจัยและการพัฒนาแอปพลิเคชันในด้านเทคโนโลยีเสียงและมีผลกระทบเชิงบวกต่ออุตสาหกรรมทั้งหมด

ที่อยู่โครงการ: https://github.com/funaudiollm