Bilibili เพิ่งเปิดตัวโมเดลข้อความเป็นคำพูดที่เรียกว่า Indextts รุ่นนี้ใช้เทคโนโลยี XTTS และ Tortoise และใช้สถาปัตยกรรมสไตล์ GPT เมื่อประมวลผลข้อความภาษาจีนระบบที่เป็นนวัตกรรมนี้มีฟังก์ชั่นการออกเสียงแบบพินมินที่ไม่เหมือนใครและสามารถควบคุมการหยุดชั่วคราวได้อย่างถูกต้องผ่านเครื่องหมายวรรคตอน การแนะนำของเทคโนโลยีนี้ทำให้เอฟเฟกต์ข้อความเป็นคำพูดเป็นธรรมชาติและราบรื่นขึ้นปรับปรุงประสบการณ์ผู้ใช้อย่างมากและดึงดูดความสนใจอย่างกว้างขวาง
หลังจากการฝึกอบรมข้อมูลหลายหมื่นชั่วโมงระบบ Indextts ได้ประสบความสำเร็จในการเป็นผู้นำในด้านการปฏิบัติงานซึ่งเหนือกว่าระบบ TTS ยอดนิยมในปัจจุบันเช่น XTTS, Cosyvoice2, การพูดปลาและ F5-TTS โมดูลหลายโมดูลได้รับการปรับให้เหมาะสมอย่างยิ่งโดยเฉพาะอย่างยิ่งกับการปรับปรุงที่สำคัญในการแสดงคุณสมบัติตามเงื่อนไขของลำโพงและคุณภาพเสียง ด้วยการแนะนำการสร้างแบบจำลองไฮบริด Indextts สามารถแก้ไขอักขระภาษาจีนที่ผิดพลาดได้อย่างรวดเร็วเพื่อปรับปรุงประสบการณ์การใช้งานของผู้ใช้
แบบจำลองนี้ใช้เครื่องเข้ารหัสเสียงที่มีเงื่อนไขล่าสุดและตัวถอดรหัสด้วยเสียง BigVgan2 ซึ่งไม่เพียง แต่ช่วยเพิ่มความมั่นคงของการฝึกอบรม แต่ยังช่วยเพิ่มความคล้ายคลึงกันและคุณภาพเสียงของเสียง ทีม R&D กล่าวว่าพวกเขาได้ส่งเอกสารที่เกี่ยวข้องกับ Arxiv และวางแผนที่จะปล่อยพารามิเตอร์และรหัสโมเดลในอีกไม่กี่สัปดาห์ข้างหน้า นอกจากนี้ Indextts ยังมีชุดทดสอบที่หลากหลายรวมถึงคำศัพท์หลายคำศัพท์และชุดตรวจสอบอัตนัยและวัตถุประสงค์สำหรับการวิเคราะห์เชิงลึกโดยนักวิจัย
Indextts ทำงานได้ดีในหลายบทวิจารณ์โดยเฉพาะอย่างยิ่งในแง่ของอัตราความผิดพลาดของคำ (WER) และความคล้ายคลึงกันของลำโพง (SS) ซึ่งมีประสิทธิภาพสูงกว่ารุ่นเพียร์หลายรุ่น ตัวอย่างเช่นในการทดสอบแมนดารินอัตราความผิดพลาดของคำของ Indextts อยู่ที่ 1.3%ซึ่งต่ำกว่าประสิทธิภาพของรุ่นอื่นมากแสดงให้เห็นถึงความแม่นยำและความเสถียรที่แข็งแกร่ง ในเวลาเดียวกันในการประเมินคุณภาพเสียงคะแนน MOS ของ Indextts ก็ถึง 4.01 แสดงคุณภาพเสียงและโทนเสียงที่ยอดเยี่ยม
ด้วยความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยีและการขยายตัวของสถานการณ์แอปพลิเคชันการเปิดตัวของ Indextts ถือเป็นความก้าวหน้าของเทคโนโลยีข้อความเป็นคำพูดในระดับที่สูงขึ้น สำหรับข้อมูลเพิ่มเติมเกี่ยวกับระบบผู้ใช้สามารถติดต่อทีมงานที่เกี่ยวข้องเพื่อรับประสบการณ์ผู้ใช้โดยละเอียดและการสนับสนุนทางเทคนิค
ที่อยู่โครงการ: https://github.com/index-tts/index-tts