Ganyutts是用於從文本中生成語音的VITS + SO-VITS工具。它最初是為遊戲精英製作的,但我將其與主要項目分開,因此現在可以用作獨立推理工具或API。 Edditts可在此處使用。
這絕對只是一個玩具項目,所以不要期望太多。仍然有很多東西進行了硬編碼,並且代碼不是很乾淨。將來我會嘗試清理它。
我只是為了自己的便利而製作了此存儲庫,但是如果願意,請隨時使用它。
我建議為此使用虛擬環境(CONDA或VENV)。另外,我建議使用Python 3.9或更高。不需要GPU,但它將加快推理。
pip install -r requirements.txt對於Phonemizer ,您需要安裝ESPEAK 。在Windows上,您可以從這裡下載它。在Linux上,您可以使用軟件包管理器安裝它。
該程序需要一個名為config.json的配置文件。提供了一個示例文件。您可以更改模型和API鍵的路徑。 PhoneMizer路徑僅與Windows用戶有關,如果您在其他位置安裝了ESPEAK,則可以在此處進行編輯。如果要使用交互式模式,則需要從OpenAI獲取API鍵。它非常便宜,值得回應的質量。
要啟動API,請運行以下命令:
python main.py該應用為文本到語音提供了簡單的燒瓶API。您可以將發布請求發送到服務器,它將返回音頻WAV文件。
示例請求主體:
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}回覆:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}提供了用於測試API的API_CLIENT_EXAMPLE.PY。
有兩個推理腳本,一個用於VIT,另一個用於VIT + SO-VITS管道。您可以使用它們簡單地從CLI創建音頻。
僅對於VIT:
python inference_vits.py -t " Let's get started. I'll be your guide today. "對於vits + so-vits:
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today "使用-h或--help以獲取更多信息。
所有型號都應在模型文件夾中,您必須從我的HuggingFace Repo手動下載它。另外,不要忘記下載Hubert模型,這是So-Vits所需的。我正在使用“ checkpoint_best_legacy_500.pt”