WavThruVec_pytorch下载WavThruVec_pytorch源代码下载

WavThruVec_pytorch

Ai源码

1.0.0

下载

Wavthruvec pytorch

基于Pytorch的WavThruvec的非正式实施。

原始论文是wavthruvec：潜在语音表示为神经语音综合的中间特征

建筑学

Text2VEC模型主要遵循FastSpeech（XCMYZ）架构。我修改了该模型，主要基于RAD-TTS（NVIDIA）。我添加了一个ecapa_tdnn作为扬声器编码器，用于多说话的条件。

对于论文中未提及的其他细节，我也遵循RAD-TT。

VEC2WAV主要基于HIFI-GAN，并引入有条件的批准化以调节扬声器嵌入的网络。上样本率序列为（5,4,4,2,2），因此上采样因子为 $ times 320 $ （原始纸是 $ times 640 $ ），换句话说，产生的波的样本率为16kHz（原始纸中的32kHz）。

Text2Vec培训

text2Vec推断

vec2wav

输入

对于文字：

请勿使用任何基于规则的文本归一化或音义方法，而是使用原始字符，而是将其转换为文本插入作为输入。

对于音频：

使用wav2Vec 2.0的输出作为WAV的功能（而不是MEL频谱图），并具有'float32'的dtype和(batch_size, n_frame, n_channel)的形状。

注意：N_Channel = 768或1024，这取决于您正在使用的WAV2VEC 2.0的版本，因为TencentGamemate提供Fairseq-version（768）和HuggingFace-version（1024）。这两个版本具有不同的输出形状。

WAV2VEC 2.0预算

从此存储库WAV2VEC2.0（中国的演讲预处理），也可以在Huggingface中找到

attn_prior

Wavthuvec和FastSpeech之间最大的区别之一是单调对齐搜索（MAS）模块（请参阅alignment.py ）。

在FastSpeech中，培训输入包括梅尔框架和文本令牌的教师对齐。具体而言，它涉及使用MFA在训练之前为每个文本令牌生成MEL框架的duration 。

在WavThruvec中，使用RAD-TTS的MAS生成duration ，并将其送入长度调节器（持续时间预测器）。

根据单调对齐搜索和RAD-TTS实现，当您训练模型时，将在'./data/align_prior'下生成Align-Prior文件，并使用{n_token}_{n_feat}_prior.pth的文件名格式。

环境

CUDA 10.1
Python 3.9.7
火炬1.8.1+CU101
火炬选择器0.3.0
Torchaudio 0.8.1
张板2.12.0
天秤座0.8.0
numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

数据集并准备

aishell3

prepar_data.py：

1.阅读WAV文件和WAV2VEC2预处理的模型，将WAV重新采样至16KHz，然后转换为.npy文件，该文件占据了相应的WAV2VEC 2.0功能。
2.阅读Aishell3转录（content.txt），然后过滤中文音素和空白。采用转录和文件路径来构建火车列表（./ data/enc_train.txt）。
3.构建词汇，将用于将字符转换为火炬变量。

例如，准备_data.py只需几个扬声器和几个WAV文件。

训练

WavThruvec违反了2个组件：Text2Vec（编码器）和VEC2WAV（解码器），它们独立训练

因此，我将它们放在两个单独的DIRS中，并为每种配置使用了不同的训练配置。

张板

张板记录器存储在run/{log_seed}/tb_logs目录中。假设log_seed=1 ，您可以使用此命令在本地主机上使用张量。

 tensorboard --logdir run/1/tb_logs

保存检查点并还原

模型检查点保存在run/{log_seed}/model_new目录中。

假设您每10000迭代保存检查点，现在您有一个检查点checkpoint_10000.pth.tar 。如果您需要在step 10000重新启动培训，请使用此命令。

 python ./text2vec/train.py --restore_step 10000

托多

实验和表演
实施的更多详细信息

参考

存储库

fastspeech（xcmyz's）
wav2vec2.0（中国言语预告片）
rad-tts（nvidia's）
gan-tts（yanggeng1995's）
hifi-gan
FastPitch（Dan-Wells'）
ecapa_tdnn（tao ruijie's）
ecapa_tdnn（lawlict's）
Glow-tts（Jaywalnut310）

纸

fastspeech
FastSpeech2
hifi-gan
wav2vec
rad-tts
单调对齐搜索

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-09-14
大小 892.77KB
来自于 Github

WavThruVec_pytorch