Download de GanyuTTS - Download de código fonte GanyuTTS

GanyuTTS

Código-Fonte de IA

1.0.0

Baixar

Ganyutts

Ganyutts é uma ferramenta Vits + So-Vits para gerar fala a partir de texto. Foi originalmente feito para a elite do jogo perigosa, mas eu o separei do projeto principal, então agora pode funcionar como uma ferramenta de inferência independente ou API. Edditts está disponível aqui.

Definitivamente, isso é apenas um projeto de brinquedo, então não espere muito. Ainda há muitas coisas com codificação e o código não é muito limpo. Vou tentar limpá -lo no futuro.

Acabei de fazer esse repositório para minha própria conveniência, mas fique à vontade para usá -lo, se quiser.

Instalação

Sugiro usar um ambiente virtual para isso (conda ou venv). Além disso, recomendo o uso do Python 3.9 ou superior. A GPU não é necessária, mas acelerará a inferência.

pip install -r requirements.txt

Para o Phonemizer, você precisa ter o Espeak instalado. No Windows, você pode baixá -lo aqui . No Linux, você pode instalá -lo usando o gerenciador de pacotes.

Uso

Arquivo de configuração

O programa precisa de um arquivo de configuração chamado config.json na pasta root. Um arquivo de exemplo é fornecido. Você pode alterar os caminhos para os modelos e as teclas da API. Os caminhos da Phonemizer são relevantes apenas para os usuários do Windows, você pode editar aqui se tiver o Espeak instalado em um local diferente. Se você deseja usar o modo interativo, precisará obter uma tecla API do OpenAI. É super barato e vale a qualidade das respostas.

API principal

Para iniciar a API, execute o seguinte comando:

python main.py

Este aplicativo fornece uma API de frasco simples para o texto em fala. Você pode enviar uma solicitação de postagem para o servidor, ele retornará o arquivo WAV de áudio.

Exemplo de órgão de solicitação:

{
    "text" : " Hello, world! " ,
    "sid1" : " 22 " , # speaker id in the multi-speaker VITS model
    "sid2" : " ganyu " # speaker id in the SO-VITS model
}

Resposta:

{
    "audio" : " <audio wav> " # base64 encoded raw audio
}

Um api_client_example.py é fornecido para testar a API.

Inferência simples

Existem dois scripts de inferência, um para VITs e outro para o pipeline Vits + So-Vits. Você pode usá -los para criar áudio simplesmente da CLI.

Apenas para VITs:

python inference_vits.py -t " Let's get started. I'll be your guide today. "

Para Vits + So-Vits:

python inference_vits_sovits.py -t " Let's get started. I'll be your guide today "

Use -h ou --help para mais informações.

Modelos

Todos os modelos devem estar na pasta Modelos, você deve baixá -lo manualmente do meu repo Huggingface. Além disso, não se esqueça de baixar o modelo Hubert, ele é necessário para os SO-Vits. Estou usando "checkpoint_best_legacy_500.pt"