ZeroSpeech TTS without T скачивания - ZeroSpeech TTS without T -исходного кода скачать

ZeroSpeech TTS without T

AI Исходный код

1.0.0

Скачать

Zerospeech 2019: TTS без t - pytorch

Это оригинальный исходный код для статьи «Неконтролируемое сквозное обучение дискретных лингвистических единицах для преобразования голоса», которое принимается Interspeech 2019.
Furthurmore, мы использовали эту реализацию, чтобы конкурировать в ChareSech 2019. На неожиданном таблице лидеров набора данных предлагаемый метод состоит из 2 ^-го места с точки зрения низкого битрейта , в то же время достигая более высокого среднего показателя мнений (MOS) и более низкого CER, чем команда 1 ^ST Place .
Не стесняйтесь использовать или изменить их, будет оценен любой отчет об ошибке или улучшение. Если у вас есть какие -либо вопросы, пожалуйста, свяжитесь с [email protected]. Если вы обнаружите, что этот проект полезным для исследования, пожалуйста, рассмотрите возможность цитировать эту статью, спасибо!

Быстрый старт

Настраивать

Клонировать это репо: git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
CD в этом репо: cd ZeroSpeech-TTS-without-T

Установка зависимостей

Установите Python 3.
Установите последнюю версию Pytorch в соответствии с вашей платформой. Для лучшей производительности установите с помощью поддержки GPU (CUDA), если он является жизнеспособной. Этот код работает с Pytorch 0,4 и позже.

Подготовьте данные

Загрузите набор данных Zerospeech.

Набор данных английского:

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

Набор данных о неожиданности:

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

После распаковки набора данных в ~/ZeroSpeech-TTS-without-T/data , дерево данных должно выглядеть следующим образом:
```
 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test
```
Предварительно обрабатывать набор данных и образцы модели, готовых к модели, файлы индекса:
```
 python3 main.py --preprocess —-remake
```

Использование

Обучение

Поезд ASR-TTS AutoEncoder Model для дискретных лингвистических единиц Обнаружение:
```
 python3 main.py --train_ae
```
Настраиваемые гиперпараметры можно найти в hps/zerospeech.json. Вы можете настроить эти параметры и настройки, редактируя файл, для этого проекта рекомендуется гиперпараметры по умолчанию.
Поезда TTS Patcher для повышения производительности преобразования голоса:
```
 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000
```
Обучить петуширование TTS с целевым управляемым состязательным обучением:
```
 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000
```

Мониторинг с помощью Tensorboard (необязательно)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

Тестирование

Тест на одну речь ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

Проверьте на 'synthesis.txt' и сгенерируйте ресинтезированные аудиофайлы ::
```
 python3 main.py --test --load_test_model_name=model.pth-ae-200000
```
Проверьте всю тестирующую речь под test/ и генерируйте кодирующие файлы ::
```
 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
```

Добавить --enc_only если тестирование только с ASR-TTS AutoEncoder:

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

Переключение между наборами данных

Просто используйте --dataset=surprise . Например:
```
 python3 main.py --train_ae --dataset=surprise
```

Обученные модели

Мы предоставляем обученные модели в виде файлов CKPT, Donwload Link: bit.ly/zerospeech2019-liu
Перезагрузить модель для обучения:
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english или --ckpt_dir=./ckpt_surprise по умолчанию).

2 способа загрузки модели для тестирования:

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

Забота о том, что hps/zerospeech.json должен быть установлен соответственно с моделью, которую вы загружаете. Если загружается модель 128-multi-1024 , seg_len и enc_size должны быть установлены на 128 и 1024 соответственно. Если модель ae загружается, аргумент --enc_only должен использоваться при запуске main.py (см. 4. В разделе тестирования).

Примечания

Этот код включает в себя все настройки и методы, которые мы протестировали для этой задачи, некоторые из которых не были засушливыми, но мы не удалили их из нашего кода. Тем не менее, предыдущие инструкции и настройки по умолчанию предназначены для предложенного нами метода. Запустив их, можно легко воспроизвести наши результаты.
TODO: загрузить предварительно обученные модели

Цитирование

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

Расширять

Дополнительная информация