В нашей недавней статье мы предлагаем модель Yourtts. Yourtts привносит мощь многоязычного подхода к задаче с нулевым выстрелом из многопрофильных TTS. Наш метод основан на модели VITS и добавляет несколько новых модификаций для многопрофильного и многоязычного обучения с нулевым выстрелом. Мы достигли самых современных (SOTA), которые приводили к многопрофильным TTS с нулевым выстрелом и результатами, сравнимыми с SOTA с нулевым преобразованием голоса в наборе данных VCTK. Кроме того, наш подход достигает многообещающих результатов на целевом языке с одним набором данных с одним дивикере, возможностями открытия для многопрофильных TTS с нулевым выстрелом и систем преобразования голоса с нулевым выстрелом на языках с низким ресурсом. Наконец, можно точно настроить модель Yourtts с менее чем 1 минутой речи и достичь современных результатов к сходству голоса и с разумным качеством. Это важно, чтобы разрешить синтез для ораторов с совершенно другим голосом или характеристиками записи от тех, которые наблюдаются во время обучения.
В разделе 2 статьи Yourtts мы определили функцию потери последовательности динамика (SCL). Кроме того, мы использовали эту функцию потерь на 4 экспериментах с тонкой настройкой в разделах 3 и 4 (эксп. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL и Exp. 4 + SCL). Однако из -за ошибки реализации градиент этой функции потери не был пропагандирован для модели во время обучения. Это означает, что эксперименты с тонкой настройкой, которые использовали эту потерю, эквивалентны обучению модели для большего количества шагов без потери согласованности динамика. Эта ошибка была обнаружена Томашем Неквиндой и сообщена по выпуску № 2348 репозитория Coqui TTS. Эта ошибка была исправлена на номере запроса на вытяжение 2364 в репозитории Coqui TTS. В настоящее время он зафиксирован для версии Coqui TTS V0.12.0 или выше. Мы хотели бы поблагодарить Томаша Неквинда за то, что он нашла ошибку и сообщил об этом.
Приходите попробовать нашу последнюю и самую большую полную модель английского языка https://coqui.ai/
Посетите наш веб -сайт для образцов аудио.
Все наши эксперименты были реализованы в Coqui TTS Repo.
| Демо | URL |
|---|---|
| Нулевой выстрел TTS | связь |
| Zero-Shot VC | связь |
| Zero -Shot VC - эксперимент 1 (обучен только VCTK) | связь |
Все выпущенные контрольно-пропускные пункты лицензированы в соответствии с CC NC-ND 4.0
| Модель | URL |
|---|---|
| Динамик энкодер | связь |
| Exp 1. yourtts-en (vctk) | Нет в наличии |
| Exp 1. yourtts-en (vctk) + scl | связь |
| Exp 2. yourtts-en (vctk) -pt | Нет в наличии |
| Exp 2. yourtts-en (vctk) -pt + scl | Нет в наличии |
| Exp 3. yourtts-en (vctk) -pt-fr | Нет в наличии |
| Exp 3. yourtts-en (vctk) -pt-fr scl | Нет в наличии |
| Exp 4. yourtts-en (vctk+libritts) -pt-fr scl | Нет в наличии |
Использовать? TTS версия v0.7.0 выпущена модель Yourtts для текста в речь Используйте следующую команду:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
Принимая во внимание «target_speaker_wav.wav», образец аудио от целевого динамика.
Использовать? TTS выпустила модель Yourtts для преобразования голоса. Используйте следующую команду:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
Принимая во внимание «target_content_wav.wav» в качестве файла эталонной волны для преобразования в голос динамика "target_speaker_wav.wav".
Чтобы обеспечить воспроизведение, мы делаем аудио, используемые для создания MOS, доступных здесь. Кроме того, мы предоставляем MOS для каждого аудио здесь.
Чтобы повторно генерировать наши результаты MOS, следуйте инструкциям здесь. Чтобы предсказать тестовые предложения и генерировать SEC, используйте тетради Jupyter, доступные здесь.
Libritts (тест чистка): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 и 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 и P302
MLS Португальский: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 и 1306
Чтобы полностью повторить эксперимент 1, мы предоставляем рецепт на коки. Этот рецепт загружает, повсеместно извлекает встраивание динамика и обучает модель без необходимости каких -либо изменений в коде.
Статья была сделана с использованием моей вилки Coqui TTS на многоязычном турчанке.
Если вы хотите использовать последнюю версию Coqui TTS, вы можете получить config.json из выпущенной модели Coqui.
С помощью config.json в руках вам сначала нужно изменить конфигурацию «наборов данных» на ваш набор данных. Использование config.json с корректировкой конфигурации «Наборы данных» python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
«model_se.pth.tar» и «config_se.json» можно найти в выпущенной модели Coqui, в то время как config.json - это конфигурация, на которую вы устанавливаете пути.
Другие параметры, которые вы должны изменить, находятся на "config.json":
Теперь, когда у вас есть конфигурация config.json для воспроизведения обучения, которую вы можете использовать следующую команду (если вам нравится, вы можете использовать -restore_path {chectpoint_path} для проведения обучения передачи с контрольной точки и ускорить обучение: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}