ZeroSpeech TTS without T下载ZeroSpeech TTS without T源代码下载

ZeroSpeech TTS without T

Ai源码

1.0.0

下载

Zerospeech 2019：无t -pytorch的TTS

这是“无监督的端到端学习语音转换单元的端到端学习”的原始源代码，这是Interspeech 2019所接受的。
除此之外，我们使用此实施来参加2019年Zerospeech挑战。在惊喜数据集排行榜上，提议的方法在低比特率方面排名^第二，同时获得更高的平均意见分数（MOS），而CER则比1^号球队更低。
随意使用或修改它们，将不胜感激的任何错误报告或改进建议。如有任何疑问，请联系[email protected]。如果您发现此项目对您的研究有帮助，请考虑引用本文，谢谢！

快速开始

设置

克隆此仓库： git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
CD进入此存储库： cd ZeroSpeech-TTS-without-T

安装依赖项

安装Python 3。
根据您的平台安装最新版本的Pytorch 。为了获得更好的性能，请在可行的情况下使用GPU支持（CUDA）安装。该代码可与Pytorch 0.4及更高版本一起使用。

准备数据

下载Zerospeech数据集。

英文数据集：

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

惊喜数据集：

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

将数据集解放到~/ZeroSpeech-TTS-without-T/data之后，数据树应该看起来像这样：

 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test

预处理数据集和示例模型就绪索引文件：
```
 python3 main.py --preprocess —-remake
```

用法

训练

训练ASR-TTS自动编码器模型，以发现离散语言单元的发现：
```
 python3 main.py --train_ae
```
可调超参数可以在HPS/Zerospeech.json中找到。您可以通过编辑文件来调整这些参数并设置设置，建议该项目使用默认的超参数。

训练TTS Patcher以提高语音转换性能：

 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000

培训TTS Patcher和目标有指导的对抗训练：

 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000

用张板监视（可选）

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

测试

在单个演讲中测试::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

测试“ Synthesis.txt”并生成重新合成的音频文件：：

 python3 main.py --test --load_test_model_name=model.pth-ae-200000

测试test/并生成编码文件：：

 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000

添加--enc_only仅使用ASR-TTS AutoCododer测试：

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

在数据集之间切换

简单地使用--dataset=surprise即可切换到默认的替代集，如果放置数据树结构如建议，所有路径均自动处理。例如：
```
 python3 main.py --train_ae --dataset=surprise
```

训练有素的模型

我们提供训练有素的模型作为CKPT文件，donwload链接：bit.ly/zerospeech2019-liu
培训的重新加载模型：
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
（ --ckpt_dir=./ckpt_english或--ckpt_dir=./ckpt_surprise默认情况下）。

两种加载测试模型的方法：

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

注意HPS/Zerospeech.json需要相应地将您加载的模型设置为。如果正在加载128-multi-1024模型，则应分别将seg_len和enc_size设置为128和1024。如果正在加载ae模型，则在运行main.py时必须使用参数--enc_only （在测试部分中请参见4。）。

笔记

此代码包括我们针对此挑战测试的所有设置和方法，其中一些并不兴奋，但我们没有将其从代码中删除。但是，先前的说明和默认设置是针对我们提出的方法。通过运行它们，可以轻松地重现我们的结果。
TODO：上传预训练的模型

引用

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

展开

附加信息