Pytorch generspeech의 구현 (Neurips'22) : Ood 사용자 정의 음성의 고 충실도 제로 샷 스타일 전송을 향한 텍스트 음성 음성 모델.
우리는이 저장소에서 구현 및 사전 제한 모델을 제공합니다.
오디오 샘플은 데모 페이지를 방문하십시오.
우리는 유전자 스피치를 사용하여 고 충실도 샘플을 생성 할 수있는 방법에 대한 예를 제공합니다.
자신의 데이터 세트를 시도하려면 NVIDIA GPU + CUDA CUDNN과 함께 제공되는 로컬 컴퓨터 에서이 리베르를 복제하고 아래 지침을 따르십시오.
여기에서 제공하는 사전 처리 된 모델과 여기에서 데이터를 사용할 수 있습니다. 각 폴더의 세부 사항은 다음과 같습니다.
| 모델 | 데이터 세트 (16 kHz) | 방사 |
|---|---|---|
| generspeech | Libritts, Esd | 음향 모델 (구성) |
| Hifi-gan | Libritts, Esd | 신경 보코더 |
| 인코더 | / | 감정 인코더 |
더 많은 지원되는 데이터 세트가 곧 출시 될 예정입니다.
generspeech 라는 적절한 콘다 환경이 다음과 같이 생성되고 활성화 될 수 있습니다.
conda env create -f environment.yaml
conda activate generspeech
기본적 으로이 구현은 torch.cuda.device_count() 에 의해 반환 된 것만 큼 많은 GPU를 병렬로 사용합니다. 교육 모듈을 실행하기 전에 CUDA_DEVICES_AVAILABLE ENVIRNALE 변수를 설정하여 사용할 GPU를 지정할 수 있습니다.
여기서 우리는 유전자 스피치를 사용하여 음성 합성 파이프 라인을 제공합니다.
checkpoints/GenerSpeech 에서 검사 점을 다운로드하여 넣으십시오.checkpoints/trainset_hifigan 에서 검사 점을 다운로드하고 넣으십시오.checkpoints/Emotion_encoder.pt 에 검사 점을 다운로드하여 넣습니다.data/binary/training_set 에서 통계 파일을 다운로드하여 넣습니다.CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' " 생성 된 wav 파일은 기본적으로 infer_out 에 저장됩니다.
raw_data_dir , processed_data_dir , binary_data_dir 를 설정하고 dataset을 raw_data_dir 로 다운로드하십시오.preprocess_cls 확인하십시오. 데이터 세트 구조는 프로세서 preprocess_cls 따라야하거나 데이터 세트에 따라 다시 쓸 수 있습니다. 우리는 modules/GenerSpeech/config/generspeech.yaml 의 예제로서 Libritts 프로세서를 제공합니다.emotion_encoder_path 에 글로벌 감정 인코더를 다운로드하십시오. 자세한 내용은이 지점을 참조하십시오. # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config또한 일반적인 MFA 데이터 처리 절차를 공유하는 natspeech를 통해 데이터 세트를 빌드 할 수도 있습니다. 또한 처리 된 데이터 세트 (16KHz Libritts+ESD)도 제공합니다.
CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml --exp_name GenerSpeech --resetCUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml --exp_name GenerSpeech --infer이 구현은 코드에 설명 된대로 다음 Github Repos의 코드의 일부를 사용합니다.
이 코드가 연구에 유용하다고 생각되면 우리의 작업을 인용하십시오.
@inproceedings { huanggenerspeech ,
title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
booktitle = { Advances in Neural Information Processing Systems }
}모든 조직이나 개인은이 백서에 언급 된 기술을 사용하여 정부 지도자, 정치 인물 및 유명인을 포함하여 동의하지 않고 누군가의 연설을 생성 할 수 없습니다. 이 항목을 준수하지 않으면 저작권법을 위반할 수 있습니다.