AdaSpeech下载 - AdaSpeech源代码下载

AdaSpeech

Ai源码

1.0.0

下载

AdaSpeech：自适应文本对自定义语音的语音[WIP]

非正式的Pytorch Adaspeech实施。

笔记：

我不考虑多扬声器用例，而是只关注单个扬声器。
我将仅使用Utterance level encoder和Phoneme level encoder而不是条件层规范（这是Adaspeech纸的灵魂），它决定了Adaspeech的适应性，但我的重点是改善FastSpeech 2声学概括而不是适应性。

引用

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

要求：

所有代码以Python 3.6.2编写。

安装Pytorch

在安装Pytorch之前，请通过运行以下命令来检查您的CUDA版本： nvcc --version

 pip install torch torchvision

在此存储库中，我使用了pytorch 1.6.0用于torch.bucketize功能，这在pytorch的先前版本中不存在。

安装其他要求：

 pip install -r requirements.txt

使用张量板安装tensorboard version 1.14.0分别使用受支持的tensorflow (1.14.0)

用于预处理：

filelists文件夹包含MFA（Motreal Force Aligner）处理的LJSpeech数据集文件，因此您无需将文本与LJSpeech数据集的音频（用于提取持续时间）对齐。对于其他数据集，请在此处遵循指令。对于其他预处理运行以下命令：

 python nvidia_preprocessing.py -d path_of_wavs

查找F0和能量的最小和最大

 python compute_statistics.py

在hparams.py中更新以下内容，按min和最大的f0和能量更新

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

进行培训

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

笔记

有关更多完整和端到端语音克隆或文本到语音（TTS）工具箱，请访问DeepSync Technologies。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-21
大小 4.13MB
来自于 Github

AdaSpeech

AdaSpeech：自适应文本对自定义语音的语音[WIP]

笔记：

引用

要求：

用于预处理：

进行培训

笔记

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

AdaSpeech

AdaSpeech：自适应文本对自定义语音的语音[WIP]

笔记：

引用

要求 ：

用于预处理：

进行培训

笔记

要求：