editts
1.0.0
EDITTS的官方实施:可控文本到语音的基于得分的编辑。音频样本可在我们的演示页面上找到。
我们提出Editts,这是一种基于基于分数的生成模型的现成的语音编辑方法,用于文本到语音综合。 Editts允许在内容和音调方面进行有针对性的粒状音频编辑,而无需对基于分数的模型骨干进行任何其他培训,特定于任务的优化或架构修改。具体而言,我们在高斯先前的空间中应用粗糙但故意的扰动来诱导扩散模型的所需行为,同时施加掩模和软内核,以确保仅将迭代编辑应用于目标区域。听力测试表明,Editts能够可靠地产生满足用户要求的自然音频。
请引用这项工作如下。
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
}创建一个Python虚拟环境( venv或conda ),并按照requirements.txt中的指定安装包装要求。
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt构建单调对齐模块。
cd model/monotonic_align
python setup.py build_ext --inplace有关更多信息,请参阅Grad-TT的官方存储库。
在checkpts下,已经包含以下检查点作为此存储库的一部分。
准备一个输入文件,其中包含示例以进行语音生成。标记要通过垂直杆分离器编辑的段, | 。例如,一个样本看起来像
在|障碍的面孔坦白地灰心|
我们在resources/filelists/edit_pitch_example.txt中提供示例输入文件。
要运行推理,请输入
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs适当调整CUDA_VISIBLE_DEVICES 。
准备一个包含成对句子的输入文件。将每对与#连接在一起,并标记要用垂直杆分离器替换的零件。例如,一对看起来像
另外三个随后|确定|来自照片的奥斯瓦尔德。 #Three其他人随后|认可|来自照片的奥斯瓦尔德。
我们在resources/filelists/edit_content_example.txt中提供示例输入文件。
要运行推理,请输入
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavs根据修改后的GNU通用公共许可证发布。