dc_tts下载dc_tts源代码下载

dc_tts

Ai源码

1.0.0

下载

DC-TTS的TensorFlow实现：另一个文本到语音模型

我实施了另一个文本到语音模型DC-TTS，该模型基于有效的卷积网络，在有效的卷积网络中引入了具有指导性的注意力。但是，我的目标不只是复制论文。相反，我想了解有关各种声音项目的见解。

要求

numpy> = 1.11.1
TensorFlow> = 1.3（请注意，从1.3起， tf.contrib.layers.layer_norm的API已更改）
天秤座
TQDM
matplotlib
Scipy

数据

我在四个不同的语音数据集上培训英语模型和韩国模型。

1。LJ语音数据集
2。尼克·奥弗曼（Nick Offerman）的有声读物
3。凯特·温斯莱特的有声读物
4。KSS数据集

LJ语音数据集最近被广泛用作TTS任务中的基准数据集，因为它已公开可用，并且具有24小时合理的质量样本。尼克和凯特的有声读物还用于查看该模型是否可以通过更少的数据（可变语音样本）学习。它们分别为18小时5小时。最后，KSS数据集是韩国单扬声器语音数据集，持续超过12小时。

训练

步骤0。下载LJ语音数据集或准备自己的数据。
步骤1。在hyperparams.py中调整超级参数。（如果您想进行预处理，请设置Prepro true`。
步骤2。运行python train.py 1用于培训Text2Mel。（如果设置prepro true，请首先运行python prepro.py）
步骤3。运行python train.py 2用于训练SSRN。

如果您拥有多个GPU卡，则可以同时执行步骤2和3。

训练曲线

注意情节

样品合成

我像原始论文一样，根据哈佛句子来生成语音样本。它已经包含在存储库中。

运行synthesize.py并检查samples中的文件。

生成的样品

数据集	样品
LJ	50k 200k 310k 800k
缺口	40k 170k 300k 800k
凯特	40k 160k 300k 800k
KSS	400k

LJ预验证的模型

下载此。

笔记

该论文没有提及归一化，但是如果没有归一化，我就无法正常工作。因此，我添加了层归一化。
该论文将学习率定为0.001，但对我不起作用。所以我腐烂了。
我试图同时训练Text2Mel和SSRN，但这无效。我想将这两个网络分开减轻培训的负担。
作者声称该模型可以在一天之内训练，但不幸的是，运气不是我的。但是，显然，这比TaCotron只使用卷积层，这比TaCotron要多得多。
得益于引导性的关注，注意地块几乎从一开始就看起来很单调。我想这似乎使养育牢固，因此不会失去轨道。
该论文没有提及辍学。我应用它们，因为我相信它有助于正规化。
还检查其他TTS模型，例如TaCotron和Deep Voice 3。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-23
大小 3.08MB
来自于 Github

dc_tts

DC-TTS的TensorFlow实现：另一个文本到语音模型

要求

数据

训练

训练曲线

注意情节

样品合成

生成的样品

LJ预验证的模型

笔记

F5 TTS ComfyUI

DC暗黑军团游戏

DC暗黑军团手游

DC暗黑军团

DC黑暗军团

拳皇98dc版

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express