Proyecto de alineación de texto a voz
Descripción general del proyecto
Este proyecto explora e implementa varias técnicas de alineación de texto a voz (TTS), con el objetivo de mejorar la calidad y la eficiencia de los sistemas TTS. Nuestro trabajo abarca múltiples enfoques, cada uno abordando diferentes aspectos del desafío de alineación.
Estructura de proyectos
Este repositorio se organiza en tres ramas principales, cada una que representa un enfoque distinto para la alineación de TTS:
MoBoAligner
- Estado : completado, solo para referencia
- Descripción : Implementación no oficial del "Moboaligner: un modelo de alineación neuronal para TTS no autorregresses con Búsqueda de límites monotónicos" Papel "
- Propósito : Aprendizaje y comparación de referencia
- Limitación : no es adecuada para aplicaciones a gran escala debido a las limitaciones de duración máxima
RoMoAligner
- Estado : Desarrollo detenido, solo para referencia
- Descripción : Intento de mejora experimental Combinar una alineación aproximada con Moboaligner
- Propósito : Explore las técnicas de aprendizaje auto-supervisadas en la alineación de TTS
- Limitación : las mejoras de rendimiento fueron limitadas y no cumplieron con las expectativas
OTA ? Enfoque actual
- Estado : en planificación activa y desarrollo temprano
- Descripción : Adaptación del método "One TTS para gobernarlos a todos" (OTA) para el modelado de pausa implícita
- Objetivo : Desarrolle una solución para manejar pausas implícitas sin depender de tokens de silencio explícitos
- Progreso : fase de desarrollo y planificación conceptual
Enfoque actual
Nuestro enfoque principal está en la rama OTA , donde estamos explorando formas de adaptar el método OTA para mejorar la alineación, especialmente en el manejo de pausas implícitas en el habla.
Cómo usar este repositorio
- Consulte cada rama para obtener detalles de implementación específicos y progreso.
- Consulte Readmes de rama individuales para obtener instrucciones de configuración y uso.
- Para los últimos desarrollos, concéntrese en la rama
OTA .
Que contribuye
Agradecemos contribuciones a cualquiera de nuestras ramas. Si está interesado en contribuir:
- Verifique los problemas en la rama relevante para las tareas con las que puede ayudar.
- Bifurca el repositorio y cree una solicitud de extracción con sus mejoras.
- Para cambios importantes, abra primero un problema para discutir lo que le gustaría cambiar.
Hoja de ruta
Expresiones de gratitud
- Papel moboaligner original
- Papel OTA
Apreciamos el apoyo e interés de la comunidad de procesamiento de discursos y TTS para avanzar en esta investigación.