Ganyutts는 텍스트에서 음성을 생성하기위한 vits + so-vits 도구입니다. 원래 게임 엘리트 위험을 위해 만들어졌지만 메인 프로젝트에서 분리 했으므로 이제 독립형 추론 도구 또는 API로 기능 할 수 있습니다. Edditts는 여기에서 제공됩니다.
이것은 확실히 장난감 프로젝트 일 뿐이므로 너무 많이 기대하지 마십시오. 여전히 하드 코딩 된 많은 것들이 있으며 코드는 그다지 깨끗하지 않습니다. 나는 앞으로 그것을 정리하려고 노력할 것이다.
나는 방금 내 자신의 편의를 위해이 repo를 만들었지 만 원한다면 자유롭게 사용하십시오.
이를 위해 가상 환경을 사용하는 것이 좋습니다 (Conda 또는 Venv). 또한 Python 3.9 이상을 사용하는 것이 좋습니다. GPU는 필요하지 않지만 추론 속도를 높입니다.
pip install -r requirements.txt음소제 를 위해서는 ESPEAK를 설치해야합니다. Windows에서 여기 에서 다운로드 할 수 있습니다. Linux에서는 패키지 관리자를 사용하여 설치할 수 있습니다.
이 프로그램에는 루트 폴더에서 config.json 이라는 구성 파일이 필요합니다. 예제 파일이 제공됩니다. 모델과 API 키로 경로를 변경할 수 있습니다. 음소 경로는 Windows 사용자와 관련이 있으며 다른 위치에 ESPEAK를 설치 한 경우 여기에서 편집 할 수 있습니다. 대화식 모드를 사용하려면 OpenAI에서 API 키를 가져와야합니다. 매우 저렴하고 응답의 품질이 가치가 있습니다.
API를 시작하려면 다음 명령을 실행하십시오.
python main.py이 앱은 텍스트 음성 연사를위한 간단한 플라스크 API를 제공합니다. 서버에 게시물 요청을 보낼 수 있습니다. 오디오 WAV 파일을 반환합니다.
예제 요청 본문 :
{
"text" : " Hello, world! " ,
"sid1" : " 22 " , # speaker id in the multi-speaker VITS model
"sid2" : " ganyu " # speaker id in the SO-VITS model
}응답:
{
"audio" : " <audio wav> " # base64 encoded raw audio
}API를 테스트하기 위해 API_CLIENT_EXALLE.PY가 제공됩니다.
두 개의 추론 스크립트가 있습니다. 하나는 vits 용이고 하나는 vits + so-vits 파이프 라인을위한 것입니다. CLI에서 간단히 오디오를 생성하는 데 사용할 수 있습니다.
vits 만 :
python inference_vits.py -t " Let's get started. I'll be your guide today. "vits + so-vits :
python inference_vits_sovits.py -t " Let's get started. I'll be your guide today " 자세한 내용은 -h 또는 --help 사용하십시오.
모든 모델은 모델 폴더에 있어야하므로 Huggingface Repo에서 수동으로 다운로드해야합니다. 또한 Hubert 모델을 다운로드하는 것을 잊지 마십시오. "checkpoint_best_legacy_500.pt"를 사용하고 있습니다.