EDITTS의 공식 구현 : 제어 가능한 텍스트 음성 연설을위한 점수 기반 편집. 오디오 샘플은 데모 페이지에서 사용할 수 있습니다.
우리는 텍스트 음성 합성을위한 점수 기반 생성 모델링을 기반으로 한 기성어 음성 편집 방법론 인 Editts를 제시합니다. Editts는 추가 교육, 작업 별 최적화 또는 점수 기반 모델 백본에 대한 아키텍처 수정없이 컨텐츠 및 피치 측면에서 오디오를 대상과 세분화하는 편집을 허용합니다. 구체적으로, 우리는 가우스 이전 공간에서 거칠고 고의적 인 섭동을 적용하여 확산 모델에서 원하는 동작을 유도하는 동시에 반복 편집이 대상 영역에만 적용되도록 마스크를 적용하고 커널을 부드럽게합니다. 청취 테스트에 따르면 Editts는 사용자가 부과 한 요구 사항을 충족시키는 자연스러운 오디오를 안정적으로 생성 할 수 있음을 보여줍니다.
이 작업을 다음과 같이 인용하십시오.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Python Virtual Environment ( venv 또는 conda )를 작성하고 requirements.txt 에 지정된대로 패키지 요구 사항을 설치하십시오.
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt단조로운 정렬 모듈을 구축하십시오.
cd model/monotonic_align
python setup.py build_ext --inplace자세한 내용은 Grad-TTS의 공식 저장소를 참조하십시오.
다음 체크 포인트는 이미이 저장소의 일부로 checkpts 에서 포함되어 있습니다.
음성 생성을위한 샘플이 포함 된 입력 파일을 준비하십시오. 세그먼트를 수직 막대 분리기를 통해 편집 할 세그먼트를 표시하십시오 | . 예를 들어, 단일 샘플은 모양이 될 수 있습니다
| 장애의 얼굴은 고백 한 낙담 |
resources/filelists/edit_pitch_example.txt 의 샘플 입력 파일을 제공합니다.
추론을 실행하려면 유형
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs CUDA_VISIBLE_DEVICES 적절하게 조정하십시오.
한 쌍의 문장이 포함 된 입력 파일을 준비하십시오. 각 쌍을 # 과 연결하고 수직 막대 분리기로 교체 할 부품을 표시하십시오. 예를 들어, 단일 쌍은 모양이 될 수 있습니다
그 후 다른 세 사람은 이후에 | 식별 | 사진에서 오스왈드. #이후에는 | 인정 | 사진에서 오스왈드.
resources/filelists/edit_content_example.txt 의 샘플 입력 파일을 제공합니다.
추론을 실행하려면 유형
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavs수정 된 GNU 일반 공개 라이센스에 따라 릴리스되었습니다.