vits simple api 다운로드 -Vits vits simple api 소스 코드 다운로드

vits simple api

AI 소스 코드

v0.6.14

다운로드

vits-simple-api

Vits API를 호출하기 만하면됩니다

영어 | 中文文档

특징

온라인 데모

포옹 얼굴 덕분에 감사합니다!

Colab 노트북

다른 ID는 다른 언어를 지원할 수 있습니다

https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164
https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4
흥분 : https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111
속삭임 : https://artrajz-vits-simple-api.hf.space/w2v2-vits?text=こんにちは&id=3&emotion=2077

ssml.mov

전개

선택할 수있는 두 가지 배포 옵션이 있습니다. 선택한 옵션에 관계없이 배포 후 모델을 가져와 응용 프로그램을 사용해야합니다.

Docker Deployment (Linux 권장)

1 단계 : Docker 이미지를 당깁니다

Docker 이미지를 가져 오려면 다음 명령을 실행하십시오. 스크립트의 프롬프트를 따라 이미지를 다운로드하고 가져 오는 데 필요한 파일을 선택하십시오.

bash -c " $( wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh ) "

프로젝트 구성 파일 및 모델 폴더의 기본 경로는 /usr/local/vits-simple-api/ 입니다.

2 단계 : 시작하십시오

컨테이너를 시작하려면 다음 명령을 실행하십시오.

docker-compose up -d

이미지 업데이트

이미지를 업데이트하려면 다음 명령을 실행하십시오.

docker-compose pull

그런 다음 컨테이너를 다시 시작하십시오.

docker-compose up -d

가상 환경 배포

1 단계 : 프로젝트를 복제하십시오

다음 명령을 사용하여 프로젝트 저장소를 복제하십시오.

git clone https://github.com/Artrajz/vits-simple-api.git

2 단계 : 파이썬 종속성을 설치합니다

이 프로젝트에는 Python 버전 3.10이있는 가상 환경을 사용하는 것이 좋습니다. 프로젝트에 필요한 파이썬 종속성을 설치하려면 다음 명령을 실행하십시오.

특정 종속성을 설치하는 문제가 발생하면 아래에 요약 된 일반적인 문제를 참조하십시오.

pip install -r requirements.txt

3 단계 : 시작하십시오

프로그램을 시작하려면 다음 명령을 실행하십시오.

python app.py

Windows 빠른 배포 패키지

1 단계 : 배포 패키지를 다운로드하여 추출합니다

릴리스 페이지로 이동하여 최신 배포 패키지를 다운로드하십시오. 다운로드 된 파일을 추출하십시오.

2 단계 : 시작하십시오

start.bat 실행하려면 프로그램을 시작하십시오.

모델 로딩

1 단계 : Vits 모델 다운로드

Vits 모델 파일을 다운로드하여 data/models 폴더에 배치하십시오.

2 단계 : 모델 로딩

자동 모델 로딩

버전 0.6.6에서 시작하여 data/models 폴더의 모든 모델을 자동으로로드하는 것이 기본 동작입니다. 초보자가 더 쉽게 사용할 수 있습니다.

수동 모델 로딩

초기 시작 후 config.yaml 구성 파일이 생성됩니다. 수동로드 모드를 활성화하려면 tts_config.auto_load false 로 변경해야합니다.

config.yaml에서 tts_config.models 수정하거나 브라우저의 관리자 패널에서 수정할 수 있습니다.

참고 : 버전 0.6.6 후 모델 로딩 경로가 수정되었습니다. 아래 단계를 따라 모델 경로를 다시 구성하십시오!

경로는 절대 경로 또는 상대 경로 일 수 있습니다. 상대 경로 인 경우 Project Root 디렉토리의 data/models 폴더에서 시작됩니다.

예를 들어, data/models 폴더에 다음 파일이있는 경우

 ├─model1
│  │─G_1000.pth
│  └─config.json
└─model2
   │─G_1000.pth
   └─config.json

Yaml 파일에서 이와 같은 구성을 작성하십시오.

 tts_config :
  auto_load : false
  models :
  - config_path : model1/config.json
    model_path : model1/G_1000.pth
  - config_path : model2/config.json
    model_path : model2/G_1000.pth
	# GPT-SoVITS
  - sovits_path : gpt_sovits1/model1_e8_s11536.pth
    gpt_path : gpt_sovits1/model1-e15.ckpt
  - sovits_path : gpt_sovits2/model2_e8_s11536.pth
    gpt_path : gpt_sovits2/model2-e15.ckpt

관리자 패널을 통한 모델로드는 편리하지만 data/models 폴더 외부에서 모델을로드하려면 config.yaml 구성 파일을 수정 하여만 그렇게 할 수 있습니다. 이 방법은 절대 경로를 직접 제공하는 것입니다.

절대 경로 예 :

 tts_config :
  auto_load : false
  models :
  - config_path : D://model3/config.json
    model_path : D://model3/G_1000.pth

Models_Path : 이것은 데이터 디렉토리에 대한 모델 폴더이며 기본값은 "모델"입니다. auto_load가 true로 설정되면 Models_Path 디렉토리의 모든 모델이로드됩니다.

다른 모델

Bert 모델 및 감정 모델을 다운로드 한 후 각각 data/bert 및 data/emotional 폴더에 배치하십시오. 해당 이름을 찾고 그에 따라 삽입하십시오.

GPU가 가속화되었습니다

창

CUDA를 설치하십시오

그래픽 카드에서 지원하는 최고 버전의 CUDA를 확인하십시오.

 nvidia-smi

Cuda 11.7 예를 들어 공식 웹 사이트에서 다운로드하십시오.

Pytorch의 GPU 버전을 설치하십시오

https://pytorch.org/

 pip install torch --index-url https://download.pytorch.org/whl/cu118

리눅스

설치 프로세스는 비슷하지만 테스트 할 환경이 없습니다.

webui

추론 프론트 엔드

http://127.0.0.1:23456

*포트는 포트 23456의 기본 설정에 따라 수정 가능합니다.

관리자 백엔드

기본 주소는 http://127.0.0.1:23456/admin입니다.

첫 번째 시작 후 config.yaml 파일에서 'admin'을 검색하여 초기 사용자 이름과 비밀번호를 찾을 수 있습니다.

기능 옵션 설명

관리자 백엔드를 비활성화합니다

관리자 백엔드는 모델로드 및 언로드 모델을 허용하며 로그인 인증이있는 동안 추가 보안을 위해 config.yaml 에서 관리자 백엔드를 비활성화 할 수 있습니다.

 ' IS_ADMIN_ENABLED ' : !!bool 'false'

이 추가 측정은 관리자 백엔드를 공개 네트워크에 접근 할 수 없게 할 때 절대적인 보안을 보장하는 데 도움이됩니다.

BERT-VITS2 구성 및 언어/버트 모델 사용

Bert-Vits2 v2.0에서 시작하여 모델은 세 가지 언어 버트 모델을로드해야합니다. 하나 또는 두 개의 언어 만 사용하면 모델 데이터 섹션의 config.json 파일에 lang 매개 변수를 추가 할 수 있습니다. ["zh"] 값은 모델이 중국어 만 사용하고 중국어 버트 모델을로드 할 것임을 나타냅니다. ["zh", "ja"] 는 중국과 일본 이중 언어 모델의 사용을 나타내며 중국어와 일본어 버트 모델 만로드됩니다. 마찬가지로이 패턴은 다른 언어 조합에 대해 계속됩니다.

예:

 "data" : {
  "lang" : [ " zh " , " ja " ],
  "training_files" : " filelists/train.list " ,
  "validation_files" : " filelists/val.list " ,
  "max_wav_value" : 32768.0 ,
  ...

맞춤형 중국 다이성 사전

다성 문자의 잘못된 발음으로 문제가 발생하면 다음 방법을 사용하여 해결해 볼 수 있습니다.

폴리 포닉 워드를 추가하려면 data 디렉토리에서 phrases_dict.txt를 만들고 엽니 다.

{
"一骑当千" : [[ "yí" ], [ "jì" ], [ "dāng" ], [ "qiān" ]],
}

GPT-Sovits 참조 오디오 사전 설정

config.yaml 파일에서 gpt-sovits 구성을 찾으십시오. 사전 설정 섹션 아래에 사전 설정을 추가하십시오. 키가 사전 설정 이름으로 사용되는 여러 사전 설정을 추가 할 수 있습니다. 아래는 두 개의 기본 사전 설정, 기본 및 기본값 2입니다.

 gpt_sovits_config:
  hz: 50
  is_half: false
  id: 0
  lang: auto
  format: wav
  segment_size: 50
  presets:
    default:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto
    default2:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto

읽기 API

Legado에서 테스트

VITS, BERT-VITS2, GPT-SOVIT를 포함한 여러 모델을 읽는 데 사용될 수 있습니다. 매개 변수 in 시작하여 텍스트의 스피커를 따옴표로 구성하고 nr 로 시작하는 매개 변수는 해설자를 구성합니다.

gpt-sovits를 사용하려면 config.yaml 파일의 presets 섹션에서 참조 오디오를 미리 구성하고 아래 URL에서 사전 설정을 수정해야합니다.

URL의 IP는 API가 시작된 후 일반적으로 192.168로 시작하는 로컬 영역 네트워크 IP를 사용하여 찾을 수 있습니다.

수정 후 읽기 엔진을 선택하고 읽기 엔진을 추가하고 소스를 붙여 넣고 읽기 엔진을 활성화하십시오.

 {
  "concurrentRate" : "1" ,
  "contentType" : "audio/wav" ,
  "enabledCookieJar" : false ,
  "header" : "" ,
  "id" : 1709643305070 ,
  "lastUpdateTime" : 1709821070082 ,
  "loginCheckJs" : "" ,
  "loginUi" : "" ,
  "loginUrl" : "" ,
  "name" : "vits-simple-api" ,
  "url" : "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
}

자주 묻는 질문

BERT-VITS2 버전 호환성

Bert-Vits2 모델과의 호환성을 보장하려면 "xxx"버전 매개 변수 "버전"을 추가하여 config.json 파일을 수정하십시오. 예를 들어, 모델 버전이 1.0.1 인 경우 구성 파일을 다음과 같이 작성해야합니다.

{
  "version" : " 1.0.1 " ,
  "train" : {
    "log_interval" : 10 ,
    "eval_interval" : 100 ,
    "seed" : 52 ,
    ...

중국어 추가 버전의 경우 버전을 extra 또는 zh-clap 으로 변경해야하며 추가 수정 버전의 경우 버전은 2.4 또는 extra-fix 이어야합니다.

API

얻다

스피커 목록

http://127.0.0.1:23456/voice/speakers를 받으십시오
역할 ID의 매핑 테이블을 스피커 이름으로 반환합니다.

음성 vits

http://127.0.0.1:23456/voice/vits?text=text를 얻으십시오
다른 매개 변수가 지정되지 않은 경우 기본값이 사용됩니다.
http://127.0.0.1:23456/voice/vits?text=]을 받으십시오. 텍스트=9zh뉴는 thext] text ]&lang=mix를 얻으십시오
lang = 혼합되면 텍스트에 주석이 달라야합니다.
http://127.0.0.1:23456/voice/vits?text=text&id=142&format=wav&lang=zh&length=1.4를 얻으십시오
텍스트는 "텍스트"이고, 역할 ID는 142이고, 오디오 형식은 wav이고, 텍스트 언어는 ZH이고, 음성 길이는 1.4이고, 다른 매개 변수는 기본값입니다.

확인하다

http://127.0.0.1:23456/voice/check?id=0&model=vits를 받으십시오

우편

api_test.py 참조하십시오

API 키

API 키 인증을 활성화하려면 config.yaml 에서 api_key_enabled: true 설정하십시오. API 키는 api_key: api-key 입니다. 이를 활성화 한 후 GET 요청에 api_key 매개 변수를 추가하고 게시물 요청에 대한 헤더에 X-API-KEY 매개 변수를 추가해야합니다.

매개 변수

vits

이름	매개 변수	필수입니다	기본	유형	지침
합성 된 텍스트	텍스트	진실		str	음성 합성에 필요한 텍스트.
스피커 ID	ID	거짓	`config.yaml` 에서	int	스피커 ID.
오디오 형식	체재	거짓	`config.yaml` 에서	str	Wav, Ogg, Silk, Mp3, Flac에 대한 지원
텍스트 언어	랭	거짓	`config.yaml` 에서	str	합성 될 텍스트의 언어. 사용 가능한 옵션에는 Auto, Zh, JA 및 Mix가 포함됩니다. lang = mix 일 때 텍스트는 [zh] 또는 [ja]로 래핑해야합니다. 기본 모드는 자동으로 텍스트의 언어를 감지합니다.
오디오 길이	길이	거짓	`config.yaml` 에서	뜨다	합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다.
소음	소음	거짓	`config.yaml` 에서	뜨다	합성의 무작위성을 제어하는 샘플 노이즈.
SDP 노이즈	시원	거짓	`config.yaml` 에서	뜨다	음소 발음의 길이를 제어하는 확률 기간 예측 소음.
세그먼트 크기	segment_size	거짓	`config.yaml` 에서	int	구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다.
스트리밍 응답	스트리밍	거짓	거짓	부	더 빠른 초기 응답으로 스트리밍 된 합성 음성.

VITS 음성 변환

이름	매개 변수	필수입니다	유형	지침
업로드 오디오	업로드	진실	파일	업로드 할 오디오 파일. Wav 또는 Ogg에 있어야합니다
소스 역할 ID	original_id	진실	int	오디오 파일을 업로드하는 데 사용 된 역할의 ID.
대상 역할 ID	Target_id	진실	int	오디오를 변환하는 대상 역할의 ID.

Hubert-Vits

이름	매개 변수	필수입니다	유형	지침
업로드 오디오	업로드	진실	파일	업로드 할 오디오 파일. WAV 또는 OGG 형식이어야합니다.
대상 스피커 ID	ID	진실	int	대상 스피커 ID.
오디오 형식	체재	진실	str	웨이브, 오그, 실크
오디오 길이	길이	진실	뜨다	합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다.
소음	소음	진실	뜨다	합성의 무작위성을 제어하는 샘플 노이즈.
SDP 노이즈	시원	진실	뜨다	음소 발음의 길이를 제어하는 확률 기간 예측 소음.

W2V2-VITS

이름	매개 변수	필수입니다	기본	유형	지침
합성 된 텍스트	텍스트	진실		str	음성 합성에 필요한 텍스트.
스피커 ID	ID	거짓	`config.yaml` 에서	int	스피커 ID.
오디오 형식	체재	거짓	`config.yaml` 에서	str	Wav, Ogg, Silk, Mp3, Flac에 대한 지원
텍스트 언어	랭	거짓	`config.yaml` 에서	str	합성 될 텍스트의 언어. 사용 가능한 옵션에는 Auto, Zh, JA 및 Mix가 포함됩니다. lang = mix 일 때 텍스트는 [zh] 또는 [ja]로 래핑해야합니다. 기본 모드는 자동으로 텍스트의 언어를 감지합니다.
오디오 길이	길이	거짓	`config.yaml` 에서	뜨다	합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다.
소음	소음	거짓	`config.yaml` 에서	뜨다	합성의 무작위성을 제어하는 샘플 노이즈.
SDP 노이즈	시원	거짓	`config.yaml` 에서	뜨다	음소 발음의 길이를 제어하는 확률 기간 예측 소음.
세그먼트 크기	segment_size	거짓	`config.yaml` 에서	int	구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다.
치수 감정	감정	거짓	0	int	범위는 innnky의 모델 All_emotions.npy의 범위 (0-5457)와 같은 NPY 형식의 감정 참조 파일에 따라 다릅니다.

치수 감정

이름	매개 변수	필수입니다	기본	유형	지침
업로드 오디오	업로드	진실		파일	치수 감정 벡터를 저장하는 NPY 파일을 반환하십시오.

Bert-vits2

이름	매개 변수	필수입니다	기본	유형	지침
합성 된 텍스트	텍스트	진실		str	음성 합성에 필요한 텍스트.
스피커 ID	ID	거짓	`config.yaml` 에서	int	스피커 ID.
오디오 형식	체재	거짓	`config.yaml` 에서	str	Wav, Ogg, Silk, Mp3, Flac에 대한 지원
텍스트 언어	랭	거짓	`config.yaml` 에서	str	"자동"은 자동 언어 감지 모드이며 기본 모드이기도합니다. 그러나 현재 전체 텍스트 구절의 언어를 감지하는 것만 지원하며 문장별로 언어를 구별 할 수 없습니다. 사용 가능한 다른 언어 옵션은 "ZH"및 "JA"입니다.
오디오 길이	길이	거짓	`config.yaml` 에서	뜨다	합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다.
소음	소음	거짓	`config.yaml` 에서	뜨다	합성의 무작위성을 제어하는 샘플 노이즈.
SDP 노이즈	시원	거짓	`config.yaml` 에서	뜨다	음소 발음의 길이를 제어하는 확률 기간 예측 소음.
세그먼트 크기	segment_size	거짓	`config.yaml` 에서	int	구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다.
SDP/DP 믹스 비율	SDP_RATIO	거짓	`config.yaml` 에서	int	합성 동안 SDP의 이론적 비율, 비율이 높을수록 합성 된 음성 톤의 분산이 클수록.
감정	감정	거짓	`config.yaml` 에서	int	0에서 9까지의 Bert-Vits2 v2.1에 사용할 수 있습니다
감정 참조 오디오	참조 _audio	거짓	없음		Bert-Vits2 v2.1은 참조 오디오를 사용하여 합성 된 오디오의 감정을 제어합니다.
텍스트 프롬프트	Text_prompt	거짓	`config.yaml` 에서	str	Bert-Vits2 v2.2 텍스트 프롬프트 감정 제어에 사용됩니다
스타일 텍스트	Style_Text	거짓	`config.yaml` 에서	str	Bert-Vits2 v2.3 텍스트 프롬프트 감정 제어에 사용됩니다
스타일 텍스트 무게	Style_weight	거짓	`config.yaml` 에서	뜨다	BERT-VITS2 v2.3 텍스트 프롬프트 무게 프롬프트 가중치에 사용됩니다
스트리밍 응답	스트리밍	거짓	거짓	부	더 빠른 초기 응답으로 스트리밍 된 합성 음성.

GPT-Sovits 음성 합성

이름	매개 변수	필수입니다	기본	유형	지침
합성 된 텍스트	텍스트	진실		str	음성 합성에 필요한 텍스트.
스피커 ID	ID	거짓	`config.yaml` 에서	int	스피커 ID. GPT-Sovits에서 각 모델은 스피커 ID 역할을하며 음성은 참조 오디오 사전 설정으로 전환됩니다.
오디오 형식	체재	거짓	`config.yaml` 에서	str	Wav, Ogg, Silk, Mp3, Flac에 대한 지원
텍스트 언어	랭	거짓	`config.yaml` 에서	str	"자동"은 자동 언어 감지 모드이며 기본 모드이기도합니다. 그러나 현재 전체 텍스트 구절의 언어를 인식하는 것만 지원하며 각 문장을 구별 할 수 없습니다.
참조 오디오	참조 _audio	거짓	없음		참조 _audio가 필요하지만 사전 설정으로 교체 할 수 있습니다.
참조 오디오 텍스트	prompt_text	거짓	`config.yaml` 에서	뜨다	참조 오디오의 실제 텍스트와 일치해야합니다.
참조 오디오 언어	Prompt_lang	거짓	`config.yaml` 에서	str	자동 텍스트 언어 인식을 위해 기본값으로 자동으로. 인식이 실패하면 수동으로 채우고, 중국어의 경우 Zh, 일본어의 경우, 영어를 위해 en.
참조 오디오 사전 설정	사전 설정	거짓	기본	str	참조 오디오를 사전 설정 사전 설정으로 교체하면 여러 사전 설정이 설정 될 수 있습니다.

SSML (음성 합성 마크 업 언어)

지원되는 요소 및 속성

speak 요소

기인하다	지침	필수입니다
ID	`config.yaml` 에서 기본값이 검색됩니다	거짓
랭	`config.yaml` 에서 기본값이 검색됩니다	거짓
길이	`config.yaml` 에서 기본값이 검색됩니다	거짓
소음	`config.yaml` 에서 기본값이 검색됩니다	거짓
시원	`config.yaml` 에서 기본값이 검색됩니다	거짓
segment_size	구두점 마크에 따라 텍스트를 세그먼트로 나눕니다. 세그먼트 길이의 합이 `segment_size` 를 초과하면 하나의 세그먼트로 취급됩니다. `segment_size<=0` 세분화가 없음을 의미합니다. 기본값은 0입니다.	거짓
model_type	기본값은 vits입니다. 옵션 : W2V2-Vits, Bert-Vits2	거짓
감정	W2V2-VIT를 사용할 때만 효과적입니다. 범위는 NPY 감정 참조 파일에 따라 다릅니다.	거짓
SDP_RATIO	Bert-vits2를 사용할 때만 효과적입니다.	거짓

voice 요소

speak 보다 우선 순위가 높습니다.

기인하다	지침	필수입니다
ID	`config.yaml` 에서 기본값이 검색됩니다	거짓
랭	`config.yaml` 에서 기본값이 검색됩니다	거짓
길이	`config.yaml` 에서 기본값이 검색됩니다	거짓
소음	`config.yaml` 에서 기본값이 검색됩니다	거짓
시원	`config.yaml` 에서 기본값이 검색됩니다	거짓
segment_size	구두점 마크에 따라 텍스트를 세그먼트로 나눕니다. 세그먼트 길이의 합이 `segment_size` 를 초과하면 하나의 세그먼트로 취급됩니다. `segment_size<=0` 세분화가 없음을 의미합니다. 기본값은 0입니다.	거짓
model_type	기본값은 vits입니다. 옵션 : W2V2-Vits, Bert-Vits2	거짓
감정	W2V2-VIT를 사용할 때만 효과적입니다. 범위는 NPY 감정 참조 파일에 따라 다릅니다.	거짓
SDP_RATIO	Bert-vits2를 사용할 때만 효과적입니다.	거짓

break 요소

기인하다	지침	필수입니다
힘	X- 매, 약한, 중간 (기본값), 강력한 X-Strong	거짓
시간	초 (예 : `2s` ) 또는 밀리 초 (예 : `500ms` )의 일시 정지 기간. 유효한 값은 0 ~ 5000 밀리 초입니다. 지원되는 최대 값보다 값을 더 설정하면 서비스는 `5000ms` 사용합니다. `time` 속성이 설정되면 `strength` 속성이 무시됩니다.	거짓

힘	상대 기간
X- 웨이크	250ms
약한	500ms
중간	750ms
강한	1000ms
x 강력한	1250ms

독서

이름	매개 변수	필수입니다	기본	유형	지침
합성 텍스트	텍스트	진실		str	연설로 합성 될 텍스트.
대담 자 모델 유형	in_model_type	거짓	`config.yaml` 에서 얻은 것입니다	str
대담 자 ID	in_id	거짓	`config.yaml` 에서 얻은 것입니다	int
대담 참조 오디오 사전 설정	사전 설정	거짓	기본	str	참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다.
내레이터 모델 유형	nr_model_type	거짓	`config.yaml` 에서 얻은 것입니다	str
내레이터 ID	nr_id	거짓	`config.yaml` 에서 얻은 것입니다	int
내레이터 참조 오디오 사전 설정	사전 설정	거짓	기본	str	참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다.
오디오 형식	체재	거짓	`config.yaml` 에서 얻은 것입니다	str	Wav, Ogg, Silk, Mp3, Flac을 지원합니다
텍스트 언어	랭	거짓	`config.yaml` 에서 얻은 것입니다	str	자동 언어 감지 모드의 '자동'도 기본 모드이기도합니다. 그러나 현재 전체 텍스트의 언어를 인식하는 것만 지원하며 각 문장을 구별 할 수 없습니다.
참조 오디오 사전 설정	사전 설정	거짓	기본	str	참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다.

모델의 다른 매개 변수는 config.yaml 파일에서 해당 모델의 기본 매개 변수를 사용합니다.

예

api_test.py 참조하십시오

의사소통

학습 및 의사 소통, 이제 중국 QQ 그룹 만 있습니다

감사의 말

vits : https : //github.com/jaywalnut310/vits
Moegoe : https : //github.com/cjangcjengh/moegoe
감정-vits : https : //github.com/innky/emotional-vits
vits-uma-genshin-honkai : https : //huggingface.co/spaces/zomehwh/vits-uma-genshin-honkai
vits_chinese : https : //github.com/playvoice/vits_chinese
bert_vits2 : https : //github.com/fishaudio/bert-vits2
gpt-sovits : https : //github.com/rvc-boss/gpt-sovits

모든 기고자들에게 감사합니다

확장하다

추가 정보

버전 v0.6.14
유형 AI 소스 코드
업데이트 시간 2025-08-24
크기 10.33MB
출처 Github