实施comospeech。有关所有详细信息,请查看ACM MM 2023接受的论文:ComoSpeech:通过一致性模型的一步演讲和唱歌语音综合。
作者:Zhen Ye,Wei Xue,Xu Tan,Jie Chen,Qifeng Liu,Yike Guo。
2024-04-26
2023-12-01
2023-11-30
2023-10-21
演示页面:链接。
剥离扩散概率模型(DDPM)显示出有希望的语音综合性能。但是,需要大量的迭代步骤才能达到高样本质量,从而限制了推理速度。在提高采样速度的同时保持样本质量已成为一项艰巨的任务。在本文中,我们提出了一个基于Mo del的语音合成方法ComoSpeech,该方法通过单个扩散采样步骤实现语音综合,同时实现了高音频质量。一致性约束用于从设计良好的基于扩散的教师模型中提取一致性模型,该模型最终在蒸馏的ComoSpeech中产生出色的性能。我们的实验表明,通过单个采样步骤生成音频记录,ComoSpeech的推理速度比单个NVIDIA A100 GPU的实时快150倍以上,该速度与FastSpeech2相当,从而使基于扩散的基于传播的语音综合真正实用。同时,对文本到语音和唱歌语音综合的客观和主观评估表明,所提出的教师模型产生了最佳的音频质量,基于单步抽样的comospeech可实现最佳的推理速度,具有更好或可比的音频质量,与其他常规的多步分步散布模型基线相比。
构建monotonic_align代码(Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..通过提供inference.py文本文件的路径,通往检查点的路径,采样数:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > 请查看out的文件夹以获取生成的音频。请注意,在参数文件中。老师= true是针对我们的教师模型的,false是针对我们的comospeech。此外,我们在Grad-TT中使用了相同的Vocoder。您可以下载并放入Checkpts文件夹。
我们使用ljspeech数据集,然后遵循fastspeech2中的火车/测试/val拆分,您可以更改FS2_TXT文件夹中的拆分。然后运行脚本train.py ,
python train.py 请注意,在参数文件中。老师= true是针对我们的教师模型的,false是针对我们的comospeech。在培训ComoSpeech时,应提供教师检查点目录。
可以从此处下载在LJSpeech上培训的检查点。
我要特别感谢Grad-TTS的作者,因为我们的代码库主要是从Grad-TT借来的。
欢迎您发送拉动请求或与我分享一些想法。联系信息:Zhen Ye([email protected])