CoMoSpeech下载 - CoMoSpeech源代码下载

CoMoSpeech

Ai源码

1.0.0

下载

comospeech

实施comospeech。有关所有详细信息，请查看ACM MM 2023接受的论文：ComoSpeech：通过一致性模型的一步演讲和唱歌语音综合。

作者：Zhen Ye，Wei Xue，Xu Tan，Jie Chen，Qifeng Liu，Yike Guo。

更新

2024-04-26

我们提出了FlashSpeech ，这是一种基于潜在的一致性模型和对抗训练的有效零发音合成器。（纸）。

2023-12-01

我们还提出了一个基于一致性模型（代码）的精心设计的唱歌语音转换（SVC）版本。

2023-11-30

我们发现，零均值的高斯噪声而不是Grad-TT中的先验也可以实现相似的性能。我们会释放新的代码和检查点。

2023-10-21

我们添加了Heun对教师模型的第二阶方法支持（可用于教师模型采样和更好的ODE轨迹以进行一致性蒸馏）。

抽象的

演示页面：链接。

剥离扩散概率模型（DDPM）显示出有希望的语音综合性能。但是，需要大量的迭代步骤才能达到高样本质量，从而限制了推理速度。在提高采样速度的同时保持样本质量已成为一项艰巨的任务。在本文中，我们提出了一个基于Mo del的语音合成方法ComoSpeech，该方法通过单个扩散采样步骤实现语音综合，同时实现了高音频质量。一致性约束用于从设计良好的基于扩散的教师模型中提取一致性模型，该模型最终在蒸馏的ComoSpeech中产生出色的性能。我们的实验表明，通过单个采样步骤生成音频记录，ComoSpeech的推理速度比单个NVIDIA A100 GPU的实时快150倍以上，该速度与FastSpeech2相当，从而使基于扩散的基于传播的语音综合真正实用。同时，对文本到语音和唱歌语音综合的客观和主观评估表明，所提出的教师模型产生了最佳的音频质量，基于单步抽样的comospeech可实现最佳的推理速度，具有更好或可比的音频质量，与其他常规的多步分步散布模型基线相比。

准备

构建monotonic_align代码（Cython）：

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

推理

通过提供inference.py文本文件的路径，通往检查点的路径，采样数：

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

请查看out的文件夹以获取生成的音频。请注意，在参数文件中。老师= true是针对我们的教师模型的，false是针对我们的comospeech。此外，我们在Grad-TT中使用了相同的Vocoder。您可以下载并放入Checkpts文件夹。

训练

我们使用ljspeech数据集，然后遵循fastspeech2中的火车/测试/val拆分，您可以更改FS2_TXT文件夹中的拆分。然后运行脚本train.py ，

    python train.py

请注意，在参数文件中。老师= true是针对我们的教师模型的，false是针对我们的comospeech。在培训ComoSpeech时，应提供教师检查点目录。

可以从此处下载在LJSpeech上培训的检查点。

致谢

我要特别感谢Grad-TTS的作者，因为我们的代码库主要是从Grad-TT借来的。

接触

欢迎您发送拉动请求或与我分享一些想法。联系信息：Zhen Ye（[email protected]）

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-20
大小 2.39MB
来自于 Github

CoMoSpeech

comospeech

更新

抽象的

准备

推理

训练

致谢

接触

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express