Скачать YourTTS - загрузка исходного кода YourTTS

YourTTS

AI Исходный код

MOS Samples

Скачать

Yourtts: на пути к нулевому многоклассникам TTS и преобразование голоса с нулевым выстрелом для всех

В нашей недавней статье мы предлагаем модель Yourtts. Yourtts привносит мощь многоязычного подхода к задаче с нулевым выстрелом из многопрофильных TTS. Наш метод основан на модели VITS и добавляет несколько новых модификаций для многопрофильного и многоязычного обучения с нулевым выстрелом. Мы достигли самых современных (SOTA), которые приводили к многопрофильным TTS с нулевым выстрелом и результатами, сравнимыми с SOTA с нулевым преобразованием голоса в наборе данных VCTK. Кроме того, наш подход достигает многообещающих результатов на целевом языке с одним набором данных с одним дивикере, возможностями открытия для многопрофильных TTS с нулевым выстрелом и систем преобразования голоса с нулевым выстрелом на языках с низким ресурсом. Наконец, можно точно настроить модель Yourtts с менее чем 1 минутой речи и достичь современных результатов к сходству голоса и с разумным качеством. Это важно, чтобы разрешить синтез для ораторов с совершенно другим голосом или характеристиками записи от тех, которые наблюдаются во время обучения.

Ошибка

В разделе 2 статьи Yourtts мы определили функцию потери последовательности динамика (SCL). Кроме того, мы использовали эту функцию потерь на 4 экспериментах с тонкой настройкой в разделах 3 и 4 (эксп. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL и Exp. 4 + SCL). Однако из -за ошибки реализации градиент этой функции потери не был пропагандирован для модели во время обучения. Это означает, что эксперименты с тонкой настройкой, которые использовали эту потерю, эквивалентны обучению модели для большего количества шагов без потери согласованности динамика. Эта ошибка была обнаружена Томашем Неквиндой и сообщена по выпуску № 2348 репозитория Coqui TTS. Эта ошибка была исправлена на номере запроса на вытяжение 2364 в репозитории Coqui TTS. В настоящее время он зафиксирован для версии Coqui TTS V0.12.0 или выше. Мы хотели бы поблагодарить Томаша Неквинда за то, что он нашла ошибку и сообщил об этом.

Производственная версия

Приходите попробовать нашу последнюю и самую большую полную модель английского языка https://coqui.ai/

Образцы аудионов

Посетите наш веб -сайт для образцов аудио.

Выполнение

Все наши эксперименты были реализованы в Coqui TTS Repo.

Colab Demos

Демо	URL
Нулевой выстрел TTS	связь
Zero-Shot VC	связь
Zero -Shot VC - эксперимент 1 (обучен только VCTK)	связь

Контрольные точки

Все выпущенные контрольно-пропускные пункты лицензированы в соответствии с CC NC-ND 4.0

Модель	URL
Динамик энкодер	связь
Exp 1. yourtts-en (vctk)	Нет в наличии
Exp 1. yourtts-en (vctk) + scl	связь
Exp 2. yourtts-en (vctk) -pt	Нет в наличии
Exp 2. yourtts-en (vctk) -pt + scl	Нет в наличии
Exp 3. yourtts-en (vctk) -pt-fr	Нет в наличии
Exp 3. yourtts-en (vctk) -pt-fr scl	Нет в наличии
Exp 4. yourtts-en (vctk+libritts) -pt-fr scl	Нет в наличии

Выпущенная модель Coqui TTS

ТТС

Использовать? TTS версия v0.7.0 выпущена модель Yourtts для текста в речь Используйте следующую команду:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

Принимая во внимание «target_speaker_wav.wav», образец аудио от целевого динамика.

Преобразование голоса

Использовать? TTS выпустила модель Yourtts для преобразования голоса. Используйте следующую команду:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

Принимая во внимание «target_content_wav.wav» в качестве файла эталонной волны для преобразования в голос динамика "target_speaker_wav.wav".

Результаты воспроизводили

Чтобы обеспечить воспроизведение, мы делаем аудио, используемые для создания MOS, доступных здесь. Кроме того, мы предоставляем MOS для каждого аудио здесь.

Чтобы повторно генерировать наши результаты MOS, следуйте инструкциям здесь. Чтобы предсказать тестовые предложения и генерировать SEC, используйте тетради Jupyter, доступные здесь.

Тестовые динамики:

Libritts (тест чистка): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 и 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 и P302

MLS Португальский: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 и 1306

Воспроизводимость

Чтобы полностью повторить эксперимент 1, мы предоставляем рецепт на коки. Этот рецепт загружает, повсеместно извлекает встраивание динамика и обучает модель без необходимости каких -либо изменений в коде.

Статья была сделана с использованием моей вилки Coqui TTS на многоязычном турчанке.

Если вы хотите использовать последнюю версию Coqui TTS, вы можете получить config.json из выпущенной модели Coqui.

С помощью config.json в руках вам сначала нужно изменить конфигурацию «наборов данных» на ваш набор данных. Использование config.json с корректировкой конфигурации «Наборы данных» python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

«model_se.pth.tar» и «config_se.json» можно найти в выпущенной модели Coqui, в то время как config.json - это конфигурация, на которую вы устанавливаете пути.

Другие параметры, которые вы должны изменить, находятся на "config.json":

«D_VECTOR_FILE»: теперь, когда у вас есть файл встроенного динамика (D_VECTOR_FILE.JSON) Отрегулируйте параметр «D_VECTOR_FILE» в настройке конфигурации в путь встроенного файла динамика.
«output_path»: путь для сохранения контрольных точек и журналов обучения
"Speaker_Encoder_config_path": конфигурация энкодера динамика для вычисления сходства с сходством косинного косину
"Speaker_encoder_model_path": Контрольная точка энкодера динамика, используемая для вычисления динамика потери сходства/согласованности динамика (установите его на путь "config_se.json")

Теперь, когда у вас есть конфигурация config.json для воспроизведения обучения, которую вы можете использовать следующую команду (если вам нравится, вы можете использовать -restore_path {chectpoint_path} для проведения обучения передачи с контрольной точки и ускорить обучение: python3 TTS/bin/train_tts.py --config_path config.json

Цитирование

Препринт


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

Опубликованная статья в ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

Расширять

Дополнительная информация