ZeroSpeech TTS without T
1.0.0


git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.gitcd ZeroSpeech-TTS-without-T安装Python 3。
根据您的平台安装最新版本的Pytorch 。为了获得更好的性能,请在可行的情况下使用GPU支持(CUDA)安装。该代码可与Pytorch 0.4及更高版本一起使用。
下载Zerospeech数据集。
wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz
wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com and accept the licence agreement
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip
将数据集解放到~/ZeroSpeech-TTS-without-T/data之后,数据树应该看起来像这样:
|- ZeroSpeech-TTS-without-T
|- data
|- english
|- train
|- unit
|- voice
|- test
|- surprise
|- train
|- unit
|- voice
|- test
预处理数据集和示例模型就绪索引文件:
python3 main.py --preprocess —-remake
训练ASR-TTS自动编码器模型,以发现离散语言单元的发现:
python3 main.py --train_ae
可调超参数可以在HPS/Zerospeech.json中找到。您可以通过编辑文件来调整这些参数并设置设置,建议该项目使用默认的超参数。
训练TTS Patcher以提高语音转换性能:
python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000
培训TTS Patcher和目标有指导的对抗训练:
python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000
用张板监视(可选)
tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'
在单个演讲中测试::
python3 main.py --test_single --load_test_model_name=model.pth-ae-200000
测试“ Synthesis.txt”并生成重新合成的音频文件::
python3 main.py --test --load_test_model_name=model.pth-ae-200000
测试test/并生成编码文件::
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
添加--enc_only仅使用ASR-TTS AutoCododer测试:
python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only
--dataset=surprise即可切换到默认的替代集,如果放置数据树结构如建议,所有路径均自动处理。例如: python3 main.py --train_ae --dataset=surprise
--load_train_model_name=model.pth-ae-400000-128-multi-1024-english
--ckpt_dir=./ckpt_english或--ckpt_dir=./ckpt_surprise默认情况下)。 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)
128-multi-1024模型,则应分别将seg_len和enc_size设置为128和1024。如果正在加载ae模型,则在运行main.py时必须使用参数--enc_only (在测试部分中请参见4。)。 @article{Liu_2019,
title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
url={http://dx.doi.org/10.21437/interspeech.2019-2048},
DOI={10.21437/interspeech.2019-2048},
journal={Interspeech 2019},
publisher={ISCA},
author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
year={2019},
month={Sep}
}