포옹 얼굴 덕분에 감사합니다!
Colab 노트북
다른 ID는 다른 언어를 지원할 수 있습니다
https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111https://artrajz-vits-simple-api.hf.space/w2v2-vits?text=こんにちは&id=3&emotion=2077선택할 수있는 두 가지 배포 옵션이 있습니다. 선택한 옵션에 관계없이 배포 후 모델을 가져와 응용 프로그램을 사용해야합니다.
Docker 이미지를 가져 오려면 다음 명령을 실행하십시오. 스크립트의 프롬프트를 따라 이미지를 다운로드하고 가져 오는 데 필요한 파일을 선택하십시오.
bash -c " $( wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh ) " 프로젝트 구성 파일 및 모델 폴더의 기본 경로는 /usr/local/vits-simple-api/ 입니다.
컨테이너를 시작하려면 다음 명령을 실행하십시오.
docker-compose up -d이미지를 업데이트하려면 다음 명령을 실행하십시오.
docker-compose pull그런 다음 컨테이너를 다시 시작하십시오.
docker-compose up -d다음 명령을 사용하여 프로젝트 저장소를 복제하십시오.
git clone https://github.com/Artrajz/vits-simple-api.git이 프로젝트에는 Python 버전 3.10이있는 가상 환경을 사용하는 것이 좋습니다. 프로젝트에 필요한 파이썬 종속성을 설치하려면 다음 명령을 실행하십시오.
특정 종속성을 설치하는 문제가 발생하면 아래에 요약 된 일반적인 문제를 참조하십시오.
pip install -r requirements.txt프로그램을 시작하려면 다음 명령을 실행하십시오.
python app.py릴리스 페이지로 이동하여 최신 배포 패키지를 다운로드하십시오. 다운로드 된 파일을 추출하십시오.
start.bat 실행하려면 프로그램을 시작하십시오.
Vits 모델 파일을 다운로드하여 data/models 폴더에 배치하십시오.
버전 0.6.6에서 시작하여 data/models 폴더의 모든 모델을 자동으로로드하는 것이 기본 동작입니다. 초보자가 더 쉽게 사용할 수 있습니다.
초기 시작 후 config.yaml 구성 파일이 생성됩니다. 수동로드 모드를 활성화하려면 tts_config.auto_load false 로 변경해야합니다.
config.yaml에서 tts_config.models 수정하거나 브라우저의 관리자 패널에서 수정할 수 있습니다.
참고 : 버전 0.6.6 후 모델 로딩 경로가 수정되었습니다. 아래 단계를 따라 모델 경로를 다시 구성하십시오!
경로는 절대 경로 또는 상대 경로 일 수 있습니다. 상대 경로 인 경우 Project Root 디렉토리의 data/models 폴더에서 시작됩니다.
예를 들어, data/models 폴더에 다음 파일이있는 경우
├─model1
│ │─G_1000.pth
│ └─config.json
└─model2
│─G_1000.pth
└─config.json
Yaml 파일에서 이와 같은 구성을 작성하십시오.
tts_config :
auto_load : false
models :
- config_path : model1/config.json
model_path : model1/G_1000.pth
- config_path : model2/config.json
model_path : model2/G_1000.pth
# GPT-SoVITS
- sovits_path : gpt_sovits1/model1_e8_s11536.pth
gpt_path : gpt_sovits1/model1-e15.ckpt
- sovits_path : gpt_sovits2/model2_e8_s11536.pth
gpt_path : gpt_sovits2/model2-e15.ckpt 관리자 패널을 통한 모델로드는 편리하지만 data/models 폴더 외부에서 모델을로드하려면 config.yaml 구성 파일을 수정 하여만 그렇게 할 수 있습니다. 이 방법은 절대 경로를 직접 제공하는 것입니다.
절대 경로 예 :
tts_config :
auto_load : false
models :
- config_path : D://model3/config.json
model_path : D://model3/G_1000.pth Bert 모델 및 감정 모델을 다운로드 한 후 각각 data/bert 및 data/emotional 폴더에 배치하십시오. 해당 이름을 찾고 그에 따라 삽입하십시오.
그래픽 카드에서 지원하는 최고 버전의 CUDA를 확인하십시오.
nvidia-smi
Cuda 11.7 예를 들어 공식 웹 사이트에서 다운로드하십시오.
https://pytorch.org/
pip install torch --index-url https://download.pytorch.org/whl/cu118
설치 프로세스는 비슷하지만 테스트 할 환경이 없습니다.
http://127.0.0.1:23456
*포트는 포트 23456의 기본 설정에 따라 수정 가능합니다.
기본 주소는 http://127.0.0.1:23456/admin입니다.
첫 번째 시작 후 config.yaml 파일에서 'admin'을 검색하여 초기 사용자 이름과 비밀번호를 찾을 수 있습니다.
관리자 백엔드는 모델로드 및 언로드 모델을 허용하며 로그인 인증이있는 동안 추가 보안을 위해 config.yaml 에서 관리자 백엔드를 비활성화 할 수 있습니다.
' IS_ADMIN_ENABLED ' : !!bool 'false'이 추가 측정은 관리자 백엔드를 공개 네트워크에 접근 할 수 없게 할 때 절대적인 보안을 보장하는 데 도움이됩니다.
Bert-Vits2 v2.0에서 시작하여 모델은 세 가지 언어 버트 모델을로드해야합니다. 하나 또는 두 개의 언어 만 사용하면 모델 데이터 섹션의 config.json 파일에 lang 매개 변수를 추가 할 수 있습니다. ["zh"] 값은 모델이 중국어 만 사용하고 중국어 버트 모델을로드 할 것임을 나타냅니다. ["zh", "ja"] 는 중국과 일본 이중 언어 모델의 사용을 나타내며 중국어와 일본어 버트 모델 만로드됩니다. 마찬가지로이 패턴은 다른 언어 조합에 대해 계속됩니다.
예:
"data" : {
"lang" : [ " zh " , " ja " ],
"training_files" : " filelists/train.list " ,
"validation_files" : " filelists/val.list " ,
"max_wav_value" : 32768.0 ,
... 다성 문자의 잘못된 발음으로 문제가 발생하면 다음 방법을 사용하여 해결해 볼 수 있습니다.
폴리 포닉 워드를 추가하려면 data 디렉토리에서 phrases_dict.txt를 만들고 엽니 다.
{
"一骑当千" : [[ "yí" ], [ "jì" ], [ "dāng" ], [ "qiān" ]],
}config.yaml 파일에서 gpt-sovits 구성을 찾으십시오. 사전 설정 섹션 아래에 사전 설정을 추가하십시오. 키가 사전 설정 이름으로 사용되는 여러 사전 설정을 추가 할 수 있습니다. 아래는 두 개의 기본 사전 설정, 기본 및 기본값 2입니다.
gpt_sovits_config:
hz: 50
is_half: false
id: 0
lang: auto
format: wav
segment_size: 50
presets:
default:
refer_wav_path: null
prompt_text: null
prompt_lang: auto
default2:
refer_wav_path: null
prompt_text: null
prompt_lang: auto
Legado에서 테스트
VITS, BERT-VITS2, GPT-SOVIT를 포함한 여러 모델을 읽는 데 사용될 수 있습니다. 매개 변수 in 시작하여 텍스트의 스피커를 따옴표로 구성하고 nr 로 시작하는 매개 변수는 해설자를 구성합니다.
gpt-sovits를 사용하려면 config.yaml 파일의 presets 섹션에서 참조 오디오를 미리 구성하고 아래 URL에서 사전 설정을 수정해야합니다.
URL의 IP는 API가 시작된 후 일반적으로 192.168로 시작하는 로컬 영역 네트워크 IP를 사용하여 찾을 수 있습니다.
수정 후 읽기 엔진을 선택하고 읽기 엔진을 추가하고 소스를 붙여 넣고 읽기 엔진을 활성화하십시오.
{
"concurrentRate" : "1" ,
"contentType" : "audio/wav" ,
"enabledCookieJar" : false ,
"header" : "" ,
"id" : 1709643305070 ,
"lastUpdateTime" : 1709821070082 ,
"loginCheckJs" : "" ,
"loginUi" : "" ,
"loginUrl" : "" ,
"name" : "vits-simple-api" ,
"url" : "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
}Bert-Vits2 모델과의 호환성을 보장하려면 "xxx"버전 매개 변수 "버전"을 추가하여 config.json 파일을 수정하십시오. 예를 들어, 모델 버전이 1.0.1 인 경우 구성 파일을 다음과 같이 작성해야합니다.
{
"version" : " 1.0.1 " ,
"train" : {
"log_interval" : 10 ,
"eval_interval" : 100 ,
"seed" : 52 ,
... 중국어 추가 버전의 경우 버전을 extra 또는 zh-clap 으로 변경해야하며 추가 수정 버전의 경우 버전은 2.4 또는 extra-fix 이어야합니다.
http://127.0.0.1:23456/voice/speakers를 받으십시오
역할 ID의 매핑 테이블을 스피커 이름으로 반환합니다.
http://127.0.0.1:23456/voice/vits?text=text를 얻으십시오
다른 매개 변수가 지정되지 않은 경우 기본값이 사용됩니다.
http://127.0.0.1:23456/voice/vits?text=]을 받으십시오. 텍스트=9zh뉴는 thext] text ]&lang=mix를 얻으십시오
lang = 혼합되면 텍스트에 주석이 달라야합니다.
http://127.0.0.1:23456/voice/vits?text=text&id=142&format=wav&lang=zh&length=1.4를 얻으십시오
텍스트는 "텍스트"이고, 역할 ID는 142이고, 오디오 형식은 wav이고, 텍스트 언어는 ZH이고, 음성 길이는 1.4이고, 다른 매개 변수는 기본값입니다.
api_test.py 참조하십시오 API 키 인증을 활성화하려면 config.yaml 에서 api_key_enabled: true 설정하십시오. API 키는 api_key: api-key 입니다. 이를 활성화 한 후 GET 요청에 api_key 매개 변수를 추가하고 게시물 요청에 대한 헤더에 X-API-KEY 매개 변수를 추가해야합니다.
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 합성 된 텍스트 | 텍스트 | 진실 | str | 음성 합성에 필요한 텍스트. | |
| 스피커 ID | ID | 거짓 | config.yaml 에서 | int | 스피커 ID. |
| 오디오 형식 | 체재 | 거짓 | config.yaml 에서 | str | Wav, Ogg, Silk, Mp3, Flac에 대한 지원 |
| 텍스트 언어 | 랭 | 거짓 | config.yaml 에서 | str | 합성 될 텍스트의 언어. 사용 가능한 옵션에는 Auto, Zh, JA 및 Mix가 포함됩니다. lang = mix 일 때 텍스트는 [zh] 또는 [ja]로 래핑해야합니다. 기본 모드는 자동으로 텍스트의 언어를 감지합니다. |
| 오디오 길이 | 길이 | 거짓 | config.yaml 에서 | 뜨다 | 합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다. |
| 소음 | 소음 | 거짓 | config.yaml 에서 | 뜨다 | 합성의 무작위성을 제어하는 샘플 노이즈. |
| SDP 노이즈 | 시원 | 거짓 | config.yaml 에서 | 뜨다 | 음소 발음의 길이를 제어하는 확률 기간 예측 소음. |
| 세그먼트 크기 | segment_size | 거짓 | config.yaml 에서 | int | 구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다. |
| 스트리밍 응답 | 스트리밍 | 거짓 | 거짓 | 부 | 더 빠른 초기 응답으로 스트리밍 된 합성 음성. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 업로드 오디오 | 업로드 | 진실 | 파일 | 업로드 할 오디오 파일. Wav 또는 Ogg에 있어야합니다 | |
| 소스 역할 ID | original_id | 진실 | int | 오디오 파일을 업로드하는 데 사용 된 역할의 ID. | |
| 대상 역할 ID | Target_id | 진실 | int | 오디오를 변환하는 대상 역할의 ID. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 업로드 오디오 | 업로드 | 진실 | 파일 | 업로드 할 오디오 파일. WAV 또는 OGG 형식이어야합니다. | |
| 대상 스피커 ID | ID | 진실 | int | 대상 스피커 ID. | |
| 오디오 형식 | 체재 | 진실 | str | 웨이브, 오그, 실크 | |
| 오디오 길이 | 길이 | 진실 | 뜨다 | 합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다. | |
| 소음 | 소음 | 진실 | 뜨다 | 합성의 무작위성을 제어하는 샘플 노이즈. | |
| SDP 노이즈 | 시원 | 진실 | 뜨다 | 음소 발음의 길이를 제어하는 확률 기간 예측 소음. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 합성 된 텍스트 | 텍스트 | 진실 | str | 음성 합성에 필요한 텍스트. | |
| 스피커 ID | ID | 거짓 | config.yaml 에서 | int | 스피커 ID. |
| 오디오 형식 | 체재 | 거짓 | config.yaml 에서 | str | Wav, Ogg, Silk, Mp3, Flac에 대한 지원 |
| 텍스트 언어 | 랭 | 거짓 | config.yaml 에서 | str | 합성 될 텍스트의 언어. 사용 가능한 옵션에는 Auto, Zh, JA 및 Mix가 포함됩니다. lang = mix 일 때 텍스트는 [zh] 또는 [ja]로 래핑해야합니다. 기본 모드는 자동으로 텍스트의 언어를 감지합니다. |
| 오디오 길이 | 길이 | 거짓 | config.yaml 에서 | 뜨다 | 합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다. |
| 소음 | 소음 | 거짓 | config.yaml 에서 | 뜨다 | 합성의 무작위성을 제어하는 샘플 노이즈. |
| SDP 노이즈 | 시원 | 거짓 | config.yaml 에서 | 뜨다 | 음소 발음의 길이를 제어하는 확률 기간 예측 소음. |
| 세그먼트 크기 | segment_size | 거짓 | config.yaml 에서 | int | 구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다. |
| 치수 감정 | 감정 | 거짓 | 0 | int | 범위는 innnky의 모델 All_emotions.npy의 범위 (0-5457)와 같은 NPY 형식의 감정 참조 파일에 따라 다릅니다. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 업로드 오디오 | 업로드 | 진실 | 파일 | 치수 감정 벡터를 저장하는 NPY 파일을 반환하십시오. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 합성 된 텍스트 | 텍스트 | 진실 | str | 음성 합성에 필요한 텍스트. | |
| 스피커 ID | ID | 거짓 | config.yaml 에서 | int | 스피커 ID. |
| 오디오 형식 | 체재 | 거짓 | config.yaml 에서 | str | Wav, Ogg, Silk, Mp3, Flac에 대한 지원 |
| 텍스트 언어 | 랭 | 거짓 | config.yaml 에서 | str | "자동"은 자동 언어 감지 모드이며 기본 모드이기도합니다. 그러나 현재 전체 텍스트 구절의 언어를 감지하는 것만 지원하며 문장별로 언어를 구별 할 수 없습니다. 사용 가능한 다른 언어 옵션은 "ZH"및 "JA"입니다. |
| 오디오 길이 | 길이 | 거짓 | config.yaml 에서 | 뜨다 | 합성 된 음성의 길이를 조정하며, 이는 음성의 속도를 조정하는 것과 같습니다. 값이 클수록 속도가 느립니다. |
| 소음 | 소음 | 거짓 | config.yaml 에서 | 뜨다 | 합성의 무작위성을 제어하는 샘플 노이즈. |
| SDP 노이즈 | 시원 | 거짓 | config.yaml 에서 | 뜨다 | 음소 발음의 길이를 제어하는 확률 기간 예측 소음. |
| 세그먼트 크기 | segment_size | 거짓 | config.yaml 에서 | int | 구두점 마크에 따라 텍스트를 단락으로 나누고 길이가 segment_size를 초과 할 때 하나의 단락으로 결합하십시오. segment_size <= 0 인 경우 텍스트는 단락으로 나뉘 지 않습니다. |
| SDP/DP 믹스 비율 | SDP_RATIO | 거짓 | config.yaml 에서 | int | 합성 동안 SDP의 이론적 비율, 비율이 높을수록 합성 된 음성 톤의 분산이 클수록. |
| 감정 | 감정 | 거짓 | config.yaml 에서 | int | 0에서 9까지의 Bert-Vits2 v2.1에 사용할 수 있습니다 |
| 감정 참조 오디오 | 참조 _audio | 거짓 | 없음 | Bert-Vits2 v2.1은 참조 오디오를 사용하여 합성 된 오디오의 감정을 제어합니다. | |
| 텍스트 프롬프트 | Text_prompt | 거짓 | config.yaml 에서 | str | Bert-Vits2 v2.2 텍스트 프롬프트 감정 제어에 사용됩니다 |
| 스타일 텍스트 | Style_Text | 거짓 | config.yaml 에서 | str | Bert-Vits2 v2.3 텍스트 프롬프트 감정 제어에 사용됩니다 |
| 스타일 텍스트 무게 | Style_weight | 거짓 | config.yaml 에서 | 뜨다 | BERT-VITS2 v2.3 텍스트 프롬프트 무게 프롬프트 가중치에 사용됩니다 |
| 스트리밍 응답 | 스트리밍 | 거짓 | 거짓 | 부 | 더 빠른 초기 응답으로 스트리밍 된 합성 음성. |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 합성 된 텍스트 | 텍스트 | 진실 | str | 음성 합성에 필요한 텍스트. | |
| 스피커 ID | ID | 거짓 | config.yaml 에서 | int | 스피커 ID. GPT-Sovits에서 각 모델은 스피커 ID 역할을하며 음성은 참조 오디오 사전 설정으로 전환됩니다. |
| 오디오 형식 | 체재 | 거짓 | config.yaml 에서 | str | Wav, Ogg, Silk, Mp3, Flac에 대한 지원 |
| 텍스트 언어 | 랭 | 거짓 | config.yaml 에서 | str | "자동"은 자동 언어 감지 모드이며 기본 모드이기도합니다. 그러나 현재 전체 텍스트 구절의 언어를 인식하는 것만 지원하며 각 문장을 구별 할 수 없습니다. |
| 참조 오디오 | 참조 _audio | 거짓 | 없음 | 참조 _audio가 필요하지만 사전 설정으로 교체 할 수 있습니다. | |
| 참조 오디오 텍스트 | prompt_text | 거짓 | config.yaml 에서 | 뜨다 | 참조 오디오의 실제 텍스트와 일치해야합니다. |
| 참조 오디오 언어 | Prompt_lang | 거짓 | config.yaml 에서 | str | 자동 텍스트 언어 인식을 위해 기본값으로 자동으로. 인식이 실패하면 수동으로 채우고, 중국어의 경우 Zh, 일본어의 경우, 영어를 위해 en. |
| 참조 오디오 사전 설정 | 사전 설정 | 거짓 | 기본 | str | 참조 오디오를 사전 설정 사전 설정으로 교체하면 여러 사전 설정이 설정 될 수 있습니다. |
지원되는 요소 및 속성
speak 요소
| 기인하다 | 지침 | 필수입니다 |
|---|---|---|
| ID | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 랭 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 길이 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 소음 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 시원 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| segment_size | 구두점 마크에 따라 텍스트를 세그먼트로 나눕니다. 세그먼트 길이의 합이 segment_size 를 초과하면 하나의 세그먼트로 취급됩니다. segment_size<=0 세분화가 없음을 의미합니다. 기본값은 0입니다. | 거짓 |
| model_type | 기본값은 vits입니다. 옵션 : W2V2-Vits, Bert-Vits2 | 거짓 |
| 감정 | W2V2-VIT를 사용할 때만 효과적입니다. 범위는 NPY 감정 참조 파일에 따라 다릅니다. | 거짓 |
| SDP_RATIO | Bert-vits2를 사용할 때만 효과적입니다. | 거짓 |
voice 요소
speak 보다 우선 순위가 높습니다.
| 기인하다 | 지침 | 필수입니다 |
|---|---|---|
| ID | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 랭 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 길이 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 소음 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| 시원 | config.yaml 에서 기본값이 검색됩니다 | 거짓 |
| segment_size | 구두점 마크에 따라 텍스트를 세그먼트로 나눕니다. 세그먼트 길이의 합이 segment_size 를 초과하면 하나의 세그먼트로 취급됩니다. segment_size<=0 세분화가 없음을 의미합니다. 기본값은 0입니다. | 거짓 |
| model_type | 기본값은 vits입니다. 옵션 : W2V2-Vits, Bert-Vits2 | 거짓 |
| 감정 | W2V2-VIT를 사용할 때만 효과적입니다. 범위는 NPY 감정 참조 파일에 따라 다릅니다. | 거짓 |
| SDP_RATIO | Bert-vits2를 사용할 때만 효과적입니다. | 거짓 |
break 요소
| 기인하다 | 지침 | 필수입니다 |
|---|---|---|
| 힘 | X- 매, 약한, 중간 (기본값), 강력한 X-Strong | 거짓 |
| 시간 | 초 (예 : 2s ) 또는 밀리 초 (예 : 500ms )의 일시 정지 기간. 유효한 값은 0 ~ 5000 밀리 초입니다. 지원되는 최대 값보다 값을 더 설정하면 서비스는 5000ms 사용합니다. time 속성이 설정되면 strength 속성이 무시됩니다. | 거짓 |
| 힘 | 상대 기간 |
|---|---|
| X- 웨이크 | 250ms |
| 약한 | 500ms |
| 중간 | 750ms |
| 강한 | 1000ms |
| x 강력한 | 1250ms |
| 이름 | 매개 변수 | 필수입니다 | 기본 | 유형 | 지침 |
|---|---|---|---|---|---|
| 합성 텍스트 | 텍스트 | 진실 | str | 연설로 합성 될 텍스트. | |
| 대담 자 모델 유형 | in_model_type | 거짓 | config.yaml 에서 얻은 것입니다 | str | |
| 대담 자 ID | in_id | 거짓 | config.yaml 에서 얻은 것입니다 | int | |
| 대담 참조 오디오 사전 설정 | 사전 설정 | 거짓 | 기본 | str | 참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다. |
| 내레이터 모델 유형 | nr_model_type | 거짓 | config.yaml 에서 얻은 것입니다 | str | |
| 내레이터 ID | nr_id | 거짓 | config.yaml 에서 얻은 것입니다 | int | |
| 내레이터 참조 오디오 사전 설정 | 사전 설정 | 거짓 | 기본 | str | 참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다. |
| 오디오 형식 | 체재 | 거짓 | config.yaml 에서 얻은 것입니다 | str | Wav, Ogg, Silk, Mp3, Flac을 지원합니다 |
| 텍스트 언어 | 랭 | 거짓 | config.yaml 에서 얻은 것입니다 | str | 자동 언어 감지 모드의 '자동'도 기본 모드이기도합니다. 그러나 현재 전체 텍스트의 언어를 인식하는 것만 지원하며 각 문장을 구별 할 수 없습니다. |
| 참조 오디오 사전 설정 | 사전 설정 | 거짓 | 기본 | str | 참조 오디오를 사전 설정된 설정으로 바꾸십시오.이 설정은 미리 여러 사전 설정으로 설정할 수 있습니다. |
모델의 다른 매개 변수는 config.yaml 파일에서 해당 모델의 기본 매개 변수를 사용합니다.
api_test.py 참조하십시오
학습 및 의사 소통, 이제 중국 QQ 그룹 만 있습니다