TTS-DATASET-PROMPTS
[Amplamente abandonado, desculpe!]
Este repositório pretende ser um conjunto decente de frases para pessoas que desejam clonar suas próprias vozes (por exemplo, usando o Tacotron 2).
Cada conjunto de 50 linhas visa cumprir os seguintes critérios:
- Cada fonema é representado pelo menos uma vez, de acordo com o CMUDICT (as versões de vogais de maneira diferente da contagem de vogais como fonemas separados; consoantes precisam estar presentes duas vezes)
- Cada fonema é aproximadamente tão frequente quanto na fala regular (entre 50% e 150% a frequência presente em Moby Dick, a menos que o fonema esteja presente apenas 4 ou menos vezes no lote)
- Cada linha é de comprimento aproximadamente igual quando falado (14-18 sílabas + pontuação não final)
- Palavras com pronúncias dependentes do contexto (exceto as muito comuns, como
the ) são evitadas para facilitar o processamento - Pelo menos 10 linhas contêm vírgulas
- Pelo menos 10 linhas são compostas de várias frases mais curtas (para que a IA aprenda a pausar naturalmente)
Arquivos de texto adicionais serão fornecidos para perguntas e exclamação, seguindo as mesmas regras. Eles foram separados porque algumas arquiteturas de texto em fala lidam mal ao final da pontuação que afeta a entonação de toda a frase. Pode ser benéfico usá -los para treinar um modelo separado, conforme recomendado pelo Talqu e como feito para algumas vozes no Serviço Mekatron (extinto).
Este repositório usa a biblioteca G2P-EN para determinar a contagem de fonemas, a fim de corresponder à fotografia de Uberduck.
Outros bons conjuntos de prompts
- (Multilíngue!) Microsoft CustomVoice Exemplo de scripts (nem todas as listas de prompts são bem projetadas, por exemplo, os avisos de bate-papo em EN-Us incluem / ʒ / como parte da palavra "Indonésia")
- Passagem do arco -íris e passagem do avô (foneticamente completo)
- Lista de prompts do CMU Arctic (foneticamente equilibrado, mas apenas uma frase por linha)
- Mocha-Timit ("Projetado para incluir os principais processos de fala conectados em inglês (por exemplo, assimilações, formas fracas ..)")
- Timit (um monte de frases principalmente aleatórias)
- (Multilíngue!) Frases de voz comuns (nem de todo foneticamente equilibrado, também bastante curto)
- LJSpeech Transcript (fragmentos de sentença abundam, que eu pessoalmente considero úteis)
- Harvard frases (foneticamente equilibradas, mas apenas uma frase por linha e todas elas são iguais)
- A lista Vits-Fast-Fine-Tuning (inglês e chinês, mas frases muito curtas e a gramática não é perfeita)