Ganyutts é uma ferramenta Vits + So-Vits para gerar fala a partir de texto. Foi originalmente feito para a elite do jogo perigosa, mas eu o separei do projeto principal, então agora pode funcionar como uma ferramenta de inferência independente ou API. Edditts está disponível aqui.
Definitivamente, isso é apenas um projeto de brinquedo, então não espere muito. Ainda há muitas coisas com codificação e o código não é muito limpo. Vou tentar limpá -lo no futuro.
Acabei de fazer esse repositório para minha própria conveniência, mas fique à vontade para usá -lo, se quiser.
Sugiro usar um ambiente virtual para isso (conda ou venv). Além disso, recomendo o uso do Python 3.9 ou superior. A GPU não é necessária, mas acelerará a inferência.
pip install -r requirements.txtPara o Phonemizer, você precisa ter o Espeak instalado. No Windows, você pode baixá -lo aqui . No Linux, você pode instalá -lo usando o gerenciador de pacotes.
O programa precisa de um arquivo de configuração chamado config.json na pasta root. Um arquivo de exemplo é fornecido. Você pode alterar os caminhos para os modelos e as teclas da API. Os caminhos da Phonemizer são relevantes apenas para os usuários do Windows, você pode editar aqui se tiver o Espeak instalado em um local diferente. Se você deseja usar o modo interativo, precisará obter uma tecla API do OpenAI. É super barato e vale a qualidade das respostas.
Para iniciar a API, execute o seguinte comando:
python main.pyEste aplicativo fornece uma API de frasco simples para o texto em fala. Você pode enviar uma solicitação de postagem para o servidor, ele retornará o arquivo WAV de áudio.
Exemplo de órgão de solicitação:
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}Resposta:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}Um api_client_example.py é fornecido para testar a API.
Existem dois scripts de inferência, um para VITs e outro para o pipeline Vits + So-Vits. Você pode usá -los para criar áudio simplesmente da CLI.
Apenas para VITs:
python inference_vits.py -t " Let's get started. I'll be your guide today. "Para Vits + So-Vits:
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today " Use -h ou --help para mais informações.
Todos os modelos devem estar na pasta Modelos, você deve baixá -lo manualmente do meu repo Huggingface. Além disso, não se esqueça de baixar o modelo Hubert, ele é necessário para os SO-Vits. Estou usando "checkpoint_best_legacy_500.pt"