GenerSpeech 다운로드 - GenerSpeech 소스 코드 다운로드

GenerSpeech

AI 소스 코드

1.0.0

다운로드

Generspeech : 일반화 가능한 도메인 외부 텍스트 음성 연설을위한 스타일 전송으로

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | Zhejiang University, SEA AI Lab

Pytorch generspeech의 구현 (Neurips'22) : Ood 사용자 정의 음성의 고 충실도 제로 샷 스타일 전송을 향한 텍스트 음성 음성 모델.

우리는이 저장소에서 구현 및 사전 제한 모델을 제공합니다.

오디오 샘플은 데모 페이지를 방문하십시오.

소식

2022 년 12 월 : Github에서 발표 된 Generspeech (Neurips 2022) .

주요 기능

표현적인 텍스트 음성 연설을위한 다단계 스타일 전송 .
OOD (Distribution) 스타일 참조에 대한 모델 일반화 향상 .

빠른 시작

우리는 유전자 스피치를 사용하여 고 충실도 샘플을 생성 할 수있는 방법에 대한 예를 제공합니다.

자신의 데이터 세트를 시도하려면 NVIDIA GPU + CUDA CUDNN과 함께 제공되는 로컬 컴퓨터 에서이 리베르를 복제하고 아래 지침을 따르십시오.

데이터 세트 및 사전 치료 된 모델을 지원합니다

여기에서 제공하는 사전 처리 된 모델과 여기에서 데이터를 사용할 수 있습니다. 각 폴더의 세부 사항은 다음과 같습니다.

모델	데이터 세트 (16 kHz)	방사
generspeech	Libritts, Esd	음향 모델 (구성)
Hifi-gan	Libritts, Esd	신경 보코더
인코더	/	감정 인코더

더 많은 지원되는 데이터 세트가 곧 출시 될 예정입니다.

의존성

generspeech 라는 적절한 콘다 환경이 다음과 같이 생성되고 활성화 될 수 있습니다.

 conda env create -f environment.yaml
conda activate generspeech

멀티 GPU

기본적 으로이 구현은 torch.cuda.device_count() 에 의해 반환 된 것만 큼 많은 GPU를 병렬로 사용합니다. 교육 모듈을 실행하기 전에 CUDA_DEVICES_AVAILABLE ENVIRNALE 변수를 설정하여 사용할 GPU를 지정할 수 있습니다.

추론 (제로 샷 tts)

여기서 우리는 유전자 스피치를 사용하여 음성 합성 파이프 라인을 제공합니다.

GenerSpeech 준비 (Acoustic Model) : checkpoints/GenerSpeech 에서 검사 점을 다운로드하여 넣으십시오.
Hifi-Gan 준비 (신경 보코더) : checkpoints/trainset_hifigan 에서 검사 점을 다운로드하고 넣으십시오.
감정 인코더 준비 : checkpoints/Emotion_encoder.pt 에 검사 점을 다운로드하여 넣습니다.
데이터 세트 준비 : data/binary/training_set 에서 통계 파일을 다운로드하여 넣습니다.
PATH/TO/Reference_audio (16K) 준비 : 기본적으로 Generspeech는 ASR + MFA를 사용하여 참조에서 텍스트 연사 정렬을 얻습니다.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

생성 된 wav 파일은 기본적으로 infer_out 에 저장됩니다.

자신의 모델을 훈련하십시오

데이터 준비 및 구성

구성 파일에서 raw_data_dir , processed_data_dir , binary_data_dir 를 설정하고 dataset을 raw_data_dir 로 다운로드하십시오.
구성 파일에서 preprocess_cls 확인하십시오. 데이터 세트 구조는 프로세서 preprocess_cls 따라야하거나 데이터 세트에 따라 다시 쓸 수 있습니다. 우리는 modules/GenerSpeech/config/generspeech.yaml 의 예제로서 Libritts 프로세서를 제공합니다.
emotion_encoder_path 에 글로벌 감정 인코더를 다운로드하십시오. 자세한 내용은이 지점을 참조하십시오.
전처리 데이터 세트

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

또한 일반적인 MFA 데이터 처리 절차를 공유하는 natspeech를 통해 데이터 세트를 빌드 할 수도 있습니다. 또한 처리 된 데이터 세트 (16KHz Libritts+ESD)도 제공합니다.

훈련 유전자 스피치

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

유전자 스피치를 사용한 추론

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

감사의 말

이 구현은 코드에 설명 된대로 다음 Github Repos의 코드의 일부를 사용합니다.

인용

이 코드가 연구에 유용하다고 생각되면 우리의 작업을 인용하십시오.

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}