เมื่อวันที่ 19 มีนาคมโมเดล Text-to-Speech (TTS) โอเพนซอร์สที่เรียกว่า Orpheus TTS ได้รับการเปิดเผยอย่างเป็นทางการ แบบจำลองนี้ดึงดูดความสนใจอย่างรวดเร็วด้วยการแสดงออกทางอารมณ์ของมนุษย์เอฟเฟกต์เสียงที่เป็นธรรมชาติและราบรื่นและลักษณะการส่งออกแบบเรียลไทม์แบบเรียลไทม์ มีรายงานว่า Orpheus TTS ทำงานได้ดีในสถานการณ์การสนทนาแบบเรียลไทม์และคาดว่าจะนำความก้าวหน้าใหม่มาสู่การโต้ตอบด้วยเสียงอัจฉริยะ
Orpheus TTS มุ่งเน้นไปที่เวลาแฝงต่ำและการแสดงออกทางอารมณ์สูง คุณสมบัติหลักของมันรวมถึง: เวลาแฝงต่ำเป็นพิเศษพร้อมเวลาแฝงเริ่มต้นประมาณ 200 มิลลิวินาที ผ่านการเพิ่มประสิทธิภาพแคช KV ของสตรีมอินพุตและโมเดลความล่าช้าสามารถบีบอัดได้ถึง 25-50 มิลลิวินาทีเพื่อตอบสนองความต้องการของการสนทนาแบบเรียลไทม์ การแสดงออกทางอารมณ์และการส่งออกเสียงเป็นธรรมชาติและราบรื่นซึ่งอาจใกล้เคียงกับอารมณ์ของมนุษย์สนับสนุนการเปลี่ยนแปลงการเปลี่ยนแปลงระดับเสียงสูงและปรับปรุงประสบการณ์การโต้ตอบ สตรีมเอาต์พุตแบบเรียลไทม์รองรับการสร้างการสตรีมเสียงเพื่อให้แน่ใจว่าการสร้างเสียงและอินพุตนั้นถูกซิงโครไนซ์และเหมาะสำหรับสถานการณ์เช่นผู้ช่วยเสมือนระบบบริการลูกค้า
ด้วยความล่าช้าที่ต่ำและลักษณะธรรมชาติที่สูง Orpheus TTS ถือว่ามีศักยภาพในวงกว้างในสาขาการสนทนาแบบเรียลไทม์ ไม่ว่าจะเป็นผู้ช่วยเสียงอัจฉริยะการศึกษาออนไลน์หรือการพากย์ของแองเคอร์เสมือนและตัวละครเกมโมเดลนี้สามารถให้ประสบการณ์การโต้ตอบด้วยเสียงที่มีมนุษยธรรมมากขึ้น นอกจากนี้ธรรมชาติของโอเพนซอร์สยังช่วยให้นักพัฒนามีความเป็นไปได้ในการปรับแต่งมากขึ้น
ด้วยการรวมกันของการแสดงออกทางอารมณ์ผลกระทบตามธรรมชาติและเวลาแฝงต่ำเป็นพิเศษ Orpheus TTS ถือเป็นความสูงใหม่สำหรับเทคโนโลยี TTS มันไม่เพียง แต่ปรับปรุงคุณภาพของการสังเคราะห์เสียงพูด แต่ยังเปิดสถานการณ์ใหม่สำหรับสถานการณ์แบบอินเทอร์แอคทีฟแบบไดนามิกผ่านสตรีมเอาต์พุตแบบเรียลไทม์ ในอนาคตโมเดลนี้อาจกลายเป็นมาตรฐานในสาขา TTS โอเพ่นซอร์ส
ที่อยู่: https://github.com/canopyai/orpheus-tts