Cross Speaker Emotion Transfer 다운로드 - Cross Speaker Emotion Transfer 소스 코드 다운로드

Cross Speaker Emotion Transfer

AI 소스 코드

v0.2.0

다운로드

크로스 스피커-퇴치 전송-Pytorch 구현

스피커 조건 계층 정규화 및 텍스트 음성 연설에서 반 감독 교육을 기반으로 Bytedance의 교차 스피커 감정 전달의 Pytorch 구현.

오디오 샘플

오디오 샘플은 /데모에서 사용할 수 있습니다.

QuickStart

데이터 세트는 다음 문서에서 RAVDESS 와 같은 데이터 세트의 이름을 나타냅니다.

의존성

파이썬 종속성을 설치할 수 있습니다

 pip3 install -r requirements.txt

또한 LConvBlock 활용하려면 FairSeQ (공식 문서, GitHub)를 설치하십시오. 설치에 대한 모든 문제를 해결하려면 여기에서 확인하십시오. Dockerfile 은 Docker 사용자에게 제공되지만 FairSeQ를 수동으로 설치해야합니다.

추론

사전 치료 된 모델을 다운로드하여 output/ckpt/DATASET/ 에 넣어야합니다.

참조 오디오에서 부드러운 감정 토큰을 추출하려면

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

또는 감정 ID에서 단단한 감정 토큰을 사용하려면

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

학습 된 스피커 사전은 preprocessed_data/DATASET/speakers.json 에서 찾을 수 있으며 생성 된 발화는 output/result/ 에 넣습니다.

배치 추론

배치 추론도 지원됩니다

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txt 의 모든 발화를 종합합니다. 주어진 감정 ID의 어려운 감정 토큰만이 모드에서 뒷받침됩니다.

훈련

데이터 세트

지원되는 데이터 세트는입니다

RAVDESS : Ravdess 의이 부분에는 1440 개의 파일이 포함되어 있습니다. 배우 당 60 개의 시험 x 24 배우 = 1440. Ravdess에는 24 명의 전문 배우 (12 명의 여성, 12 명의 남성)가 포함되어 있으며, 중립적 인 북미 악센트에서 2 개의 어휘 적합한 진술을 보컬합니다. 언어 감정에는 차분하고, 행복하고, 슬프고, 화를 내고, 두려워하고, 놀라움, 혐오감이 포함됩니다. 각각의 표현은 추가 중립적 인 표현으로 두 가지 수준의 정서적 강도 (정상, 강함)에서 생성된다.

자신의 언어와 데이터 세트는 다음에 따라 적응할 수 있습니다.

전처리

외부 스피커 임베더가있는 멀티 스피커 TT 의 경우 스피커를 포함시키기 위해 Philipperemy의 DeepSpeaker의 Rescnn SoftMax+Triplet Pretrated 모델을 다운로드하여 ./deepspeaker/pretrained_models/ 에서 찾으십시오.
달리다
```
 python3 prepare_align.py --dataset DATASET
```
일부 준비.
강제 정렬의 경우, 몬트리올 강제 정렬 (MFA)은 발화와 음소 시퀀스 사이의 정렬을 얻는 데 사용됩니다. 데이터 세트에 대한 사전 추출 된 정렬이 여기에 제공됩니다. preprocessed_data/DATASET/TextGrid/ 에서 파일을 압축해야합니다. 또는 혼자서 Aligner를 실행할 수 있습니다.
그 후, 전처리 스크립트를 실행하십시오
```
 python3 preprocess.py --dataset DATASET
```

훈련

모델을 훈련하십시오

 python3 train.py --dataset DATASET

유용한 옵션 :

자동 혼합 정밀도를 사용하려면 위의 명령에 --use_amp 인수를 추가하십시오.
트레이너는 단일 노드 멀티 GPU 교육을 가정합니다. 특정 gpus를 사용하려면 위의 명령의 시작 부분에서 CUDA_VISIBLE_DEVICES=<GPU_IDs> 지정하십시오.

텐서 보드

사용

 tensorboard --logdir output/log

지역 호스트에서 텐서 보드를 제공합니다. 손실 곡선, 합성 된 멜 스피어 그램 및 오디오가 표시됩니다.

메모

현재 구현은 작은 데이터 세트 크기로 인해 반 감독 방식으로 훈련되지 않습니다. 그러나 대상 스피커를 지정하고 감정 분류기 손실없이 감정 ID를 전달하여 쉽게 활성화 할 수 있습니다.
디코더 에서 메모리 문제로 인해 15 x 1 LCONV 블록이 17 x 1 대신 사용됩니다.
멀티 스피커 TTS 설정을위한 두 가지 옵션 : 처음부터 훈련 스피커 임베더 또는 미리 훈련 된 Philipperemy의 Deepspeaker 모델 (스타일러처럼)을 사용합니다. 구성을 설정하여 ( 'none' 과 'DeepSpeaker' 사이)를 설정하여 전환 할 수 있습니다.
Ravdess 데이터 세트의 DeepSpeaker는 스피커간에 명확한 식별을 보여줍니다. 다음 그림은 추출 된 스피커 임베딩의 T-SNE 플롯을 보여줍니다.