Bilibili lanzó recientemente un modelo de texto a voz llamado Indextts. Este modelo se basa en tecnología XTTS y tortuga y adopta una arquitectura de estilo GPT. Al procesar el texto chino, este sistema innovador tiene una función única de pronunciación de carácter chino de corrección de pinyin, y puede controlar con precisión las pausas en cualquier posición a través de signos de puntuación. La introducción de esta tecnología hace que el efecto de texto a voz sea más natural y suave, mejorando en gran medida la experiencia del usuario y atrayendo una atención generalizada.
Después de decenas de miles de horas de capacitación en datos, el sistema Indextts ha logrado el liderazgo de la industria en el rendimiento, superando los sistemas TTS populares actuales, como XTTS, Cosyvoice2, Fish-discal y F5-TTS. Múltiples módulos del sistema han sido profundamente optimizados, especialmente con mejoras significativas en la representación de características condicionales de los altavoces y la calidad de audio. Al introducir el modelado híbrido, Indextts puede corregir rápidamente los caracteres chinos mal, mejorando aún más la experiencia del usuario.
El modelo adopta el último codificador condicional y el decodificador de voz basado en BigVgan2, que no solo mejora la estabilidad del entrenamiento, sino que también mejora la similitud y la calidad del sonido del sonido. El equipo de I + D dijo que han presentado documentos relevantes en ARXIV y planea liberar parámetros y código del modelo en las próximas semanas. Además, IndextTS también proporciona una variedad de conjuntos de pruebas, que incluyen vocabulario multisilable y conjuntos de revisión subjetiva y objetiva para el análisis en profundidad por parte de los investigadores.
Indextts funcionó bien en múltiples revisiones, especialmente en términos de tasa de error de palabras (WER) y similitud de altavoces (SS), que superaron a muchos modelos pares. Por ejemplo, en las pruebas de mandarina, la tasa de error de palabras de Indextts fue solo del 1.3%, que es mucho más bajo que el rendimiento de otros modelos, que muestra su fuerte precisión y estabilidad. Al mismo tiempo, en la evaluación de calidad de sonido, la puntuación MOS de Indextts también alcanzó 4.01, mostrando su excelente calidad y tono de sonido.
Con el avance continuo de la tecnología y la expansión de los escenarios de aplicación, la liberación de Indextts marca el avance de la tecnología de texto a voz a un nivel superior. Para obtener más información sobre el sistema, los usuarios pueden comunicarse con el equipo relevante para obtener experiencia detallada del usuario y soporte técnico.
Dirección del proyecto: https://github.com/index-tts/index-tts