TTS-Dataset-Prompts
[¡En gran medida abandonado, lo siento!]
Este repositorio tiene como objetivo ser un conjunto decente de oraciones para las personas que buscan clonar sus propias voces (por ejemplo, usando Tacotron 2).
Cada conjunto de 50 líneas tiene como objetivo cumplir con los siguientes criterios:
- Cada fonema se representa al menos una vez, de acuerdo con CMUDICT (versiones de las vocales de diferentes estresas cuentan como fonemas separados; las consonantes deben estar presentes dos veces)
- Cada fonema es aproximadamente tan frecuente como en el discurso regular (entre 50% y 150% de la frecuencia presente en Moby Dick, a menos que el fonema solo esté presente 4 o menos veces en el lote)
- Cada línea es de longitud aproximadamente igual cuando se habla (14-18 sílabas + puntuación no final)
- Las palabras con pronunciaciones dependientes del contexto (excepto las muy comunes, como
the ) se evitan para facilitar el procesamiento - Al menos 10 líneas contienen comas
- Al menos 10 líneas están formadas por múltiples oraciones más cortas (de modo que la IA aprende a detenerse naturalmente)
Se proporcionarán archivos de texto adicionales para obtener preguntas y indicaciones de exclamación, siguiendo las mismas reglas. Se han separado porque algunas arquitecturas de texto a voz se ocupan de manera mal con la puntuación final que afecta la entonación de toda la oración. Puede ser beneficioso usarlos para capacitar a un modelo separado, según lo recomendado por Talqu y como se hace para algunas voces en el servicio Mekatron (desaparecido).
Este repositorio utiliza la biblioteca G2P-EN para determinar los recuentos de fonemas para que coincida con la fonetización de UberDuck.
Otros buenos sets de inmediato
- (¡Multilingües!) Scripts de ejemplo de Microsoft CustomVoice (no todas las listas de inmediato están bien diseñadas, por ejemplo, las indicaciones de chat EN-US solo incluyen / ʒ / como parte de la palabra "Indonesia")
- Pasaje de arcoiris y pasaje del abuelo (fonéticamente completo)
- Lista de inmediato de CMU Arctic (fonéticamente equilibrado, pero solo una oración por línea)
- Mocha-Timit ("Diseñado para incluir los principales procesos de habla conectados en inglés (por ejemplo, asimilaciones, formas débiles ...)")
- Timit (un montón de oraciones en su mayoría aleatorias)
- (¡Multilingües!) Frases de voz comunes (nada fonéticamente equilibrado, también bastante corto)
- Transcripción de LJSpeech (abundan los fragmentos de oraciones, que personalmente creo que es útil)
- Oraciones de Harvard (fonéticamente equilibradas, pero solo una oración por línea y todas son de igual longitud)
- La lista VITS-Fast-Fine-Auting (tanto inglés como china, pero las oraciones muy cortas y la gramática no son perfectas)