text_to_speech скачать - text_to_speech исходный код скачать

text_to_speech

AI Исходный код

1.0.0

Скачать

? Текст в речь (TTS)

Проверьте файл Changelog, чтобы иметь глобальный обзор последних изменений! ?

Структура проекта

├── custom_architectures
│   ├── tacotron2_arch.py       : Tacotron-2 synthesizer architecture
│   └── waveglow_arch.py        : WaveGlow vocoder architecture
├── custom_layers
├── custom_train_objects
│   ├── losses
│   │   └── tacotron_loss.py    : custom Tacotron2 loss
├── example_outputs         : some pre-computed audios (cf the ` text_to_speech ` notebook)
├── loggers
├── models
│   ├── encoder             : the ` AudioEncoder ` is used as speaker encoder for the SV2TTS model *
│   ├── tts
│   │   ├── sv2tts_tacotron2.py : SV2TTS main class
│   │   ├── tacotron2.py        : Tacotron2 main class
│   │   ├── vocoder.py          : main functions for complete inference
│   │   └── waveglow.py         : WaveGlow main class (both pytorch and tensorflow)
├── pretrained_models
├── unitests
├── utils
├── example_fine_tuning.ipynb
├── example_sv2tts.ipynb
├── example_tacotron2.ipynb
├── example_waveglow.ipynb
└── text_to_speech.ipynb

Проверьте основной проект для получения дополнительной информации о невыращенных модулях / структуре / основных классах.

* Проверьте проект Encoders для получения дополнительной информации о models/encoder

Доступные функции

Текст-речь (модульные models.tts ):

Особенность	Фуркция / класс	Описание
Текст в речь	`tts`	Выполните TTS в тексте, который вы хотите с желаемой моделью, которую вы хотите
транслировать	`tts_stream`	Выполните TTS в тексте, который вы вводят
TTS LOGGER	`loggers.TTSLogger`	преобразует журналы `logging` для голосования и воспроизводить его

Записная книжка text_to_speech предоставляет конкретную демонстрацию функции tts

Доступные модели

Модель архитектуры

Доступные архитектуры:

Synthesizer :
- Tacotron2 с расширениями для мульти-дивикере (от ID или SV2TTS )
- Расширение SV2TTS архитектуры Tacotron2 для мульти-дивикере на основе встроенных динамиков*
Vocoder :
- Волновой хлопот

Модели SV2TTS точно настраиваются из предварительно предварительно проведенных моделей Tacotron2, используя процедуру обучения частичной передачи (для деталей см. Ниже), которая значительно ускоряет обучение.

Веса модели

Имя	Язык	Набор данных	Синтезатор	Вокадер	Динамик энкодер	Тренер	Вес
Предварительный_tacotron2	`en`	LJSPEECH	`Tacotron2`	`WaveGlow`	/	Нвидия	Google Drive
tacotron2_siwis	`fr`	Сивис	`Tacotron2`	`WaveGlow`	/	мне	Google Drive
SV2TTS_TACOTRON2_256	`fr`	Siwis, Voxforge, Commonvoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	мне	Google Drive
sv2tts_siwis	`fr`	Siwis, Voxforge, Commonvoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	мне	Google Drive
SV2TTS_TACOTRON2_256_V2	`fr`	Siwis, Voxforge, Commonvoice	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	мне	Google Drive
sv2tts_siwis_v2	`fr`	Сивис	`SV2TTSTacotron2`	`WaveGlow`	Google Drive	мне	Google Drive

Модели должны быть рассмотрены в pretrained_models/ каталоге!

Важное примечание : модели NVIDIA , доступные в torch hub требуют совместимого графического процессора с правильной конфигурацией для pytorch . Это причина, по которой обе модели предоставляются в ожидаемой контрольной точке keras ?

Модели sv2tts_siwis представляют собой точную настройку версии sv2tts_tacotron2_256 на наборе данных SIWIS (однополосный). Точная настройка мульти-дивикере на одном наборе данных дивикере имеет тенденцию улучшать стабильность и производить голос с большей интонацией, по сравнению с простой тренировкой модели с одним дивикере.

Использование и демонстрация

Демонстрация

Демонстрация Google Colab доступна по этой ссылке!

Вы также можете найти некоторое аудио, сгенерированное в example_outputs/ , или непосредственно в ноутбуке Colab;)

Установка и использование

Проверьте это руководство по установке для пошаговых инструкций!

Возможно, вам придется установить ffmpeg для загрузки / сохранения аудио.

Список дел:

Многогазной текст в речь

Есть несколько способов включить синтез речи multi-speaker :

Используйте speaker ID , который внедряется обучаемым Embedding слоем. Спикер затем изучается во время обучения.
Используйте Speaker Encoder (SE) для встраивания звука из эталонного динамика. Это часто называют zero-shot voice cloning , так как требуется только образец от динамика (без обучения).
В последнее время была предложена новая стратегия prompt-based для контроля речи с подсказками.

Автоматическое клонирование голоса с архитектурой `SV2TTS`

ПРИМЕЧАНИЕ. В следующих параграфах encoder относится к части Tacotron Encoder , в то время как SE относится к модели speaker encoder (подробно описано ниже).

Основная интуиция

Speaker Encoder-based Text-To-Speech вдохновлена бумагой «От проверки динамика до текста в речь (SV2TTS)». Авторы предложили расширение архитектуры Tacotron-2 чтобы включить информацию о голосе динамика.

Вот краткий обзор предложенной процедуры:

Обурите модель для идентификации динамиков на основе коротких образцов аудио: модель speaker verification . Эта модель в основном принимает входную образец аудио (5-10 с) от динамика и кодирует его на D -димерном векторе, названном embedding . Это внедрение направлено на то, чтобы получить соответствующую информацию о голосе динамика (например, frequencies , rythm , pitch , ...).
Этот предварительно обученный Speaker Encoder (SE) затем используется для кодирования голоса динамика к клону.
Затем встраиваемое встраивание объединяется с выводом детали энкодера Tacotron-2 , так что Decoder имеет доступ как к закодированному тексту, так и к встраиванию динамика.

Цель состоит в том, что Decoder научится использовать speaker embedding для копирования своей просодии / интонации / ... для прочтения текста голосом этого динамика.

Ограничения и решения

Есть некоторые ограничения с приведенным выше подходом:

Идеальное обобщение для новых динамиков действительно сложно, так как потребуется большие наборы данных со многими динамиками.
Аудио не должно иметь никакого шума / артефактов, чтобы избежать шумных синтетических звуков.
Speaker Encoder должен правильно разделить динамики и кодировать их голос значимым способом для синтезатора.

Для решения этих ограничений предложенным решением состоит в том, чтобы провести 2-ступенчатое обучение:

Сначала тренируйте модель многопрофильных многокладов в базе данных CommonVoice . Это одна из крупнейших многоязычных баз данных для аудио, за счет шумных / переменных качественных звуков. Поэтому это не подходит для обучения моделей хорошего качества, тогда как предварительная обработка по-прежнему помогает получить понятные звуки.
После обучения модели с несколькими динамиками, база данных с одним ди-дивикере с небольшим количеством данных хорошего качества можно использовать для тонкой настройки модели на одном динамике. Это позволяет модели учиться быстрее, с ограниченным количеством данных хорошего качества и производить действительно хорошего качества звука!

Энкодер динамика (SE)

Часть SE должна быть в состоянии дифференцировать динамики и встраивать (кодировать 1-D-вектор) их значимым образом.

Модель, используемая в статье, представляет собой трехслойную модель LSTM со слоем нормализации, обученным потерей GE2E. Основное ограничение состоит в том, что обучение этой модели действительно медленное , и заняло 2 недели на 4 графических процессорах в диссертации Corentinj Master (см. Его GitHub)

Этот проект предлагает более простую архитектуру, основанную на Convolutional Neural Networks (CNN) , которая гораздо быстрее обучается по сравнению с сетями LSTM . Кроме того, euclidian расстояние использовалась, а не cosine метрика, которая показала более быстрая сходимость. Кроме того, предлагается пользовательский генератор на основе кэша для ускорения обработки аудио. Эти модификации позволили обучить модель точности 99% в течение 2-3 часов на одном графическом процессоре RTX 3090 !

Процедура обучения частичной передачи

Чтобы избежать обучения модели SV2TTS с нуля, которая была бы совершенно невозможно на одном графическом процессоре, предлагается новая процедура partial transfer learning .

Эта процедура принимает предварительно обученную модель с немного другой архитектурой и передает все общие веса (например, в обычном переносном обучении). Для слоев с различной формой веса переносится только общая часть, в то время как оставшиеся веса инициализируются в нулевые нуа. Это приводит к новой модели с различными весами, чтобы имитировать поведение исходной модели.

В архитектуре SV2TTS встраивание спикера передается в рецидивирующий слой Tacotron2 decoder . Это приводит к другой форме ввода, что делает матрицу веса слоя отличной. Обучение частичному передаче позволяет ажиоризировать модель так, чтобы она повторяла поведение исходной модели Tacotron2 с одним дивикере!

Контакты и лицензия

Контакты:

Почта : [email protected]
Discord : Yui0732

Условия эксплуатации

Целью этих проектов является поддержка и продвижение образования и исследований в области технологий глубокого обучения. Чтобы облегчить это, весь связанный код предоставляется в соответствии с общей публичной лицензией GNU Affero (AGPL) V3, дополненной пунктом, который запрещает коммерческое использование (см. Файл лицензии).

Эти проекты выпускаются как «свободное программное обеспечение», позволяющее свободно использовать, изменять, развернуть и обмениваться программным обеспечением, при условии, что вы придерживаетесь условий лицензии. Хотя программное обеспечение свободно доступно, оно не является общественным достоянием и сохраняет защиту авторских прав. Условия лицензии предназначены для обеспечения того, чтобы каждый пользователь мог использовать и изменить любую версию кода для своих собственных образовательных и исследовательских проектов.

Если вы хотите использовать этот проект в проприетарном коммерческом деле, вы должны получить отдельную лицензию. Для получения дополнительной информации об этом процессе, пожалуйста, свяжитесь со мной напрямую.

Для моей защиты важно отметить, что все проекты доступны на основе «как есть», без каких -либо гарантий или условий, либо явных, либо подразумеваемых. Тем не менее, не стесняйтесь сообщать о вопросах по проекту репозитория или выполните запрос на то, чтобы решить его?

Цитирование

Если вы найдете этот проект полезным в своей работе, добавьте эту цитату, чтобы дать ему больше видимости! ?

 @misc{yui-mhcp
    author  = {yui},
    title   = {A Deep Learning projects centralization},
    year    = {2021},
    publisher   = {GitHub},
    howpublished    = {url{https://github.com/yui-mhcp}}
}

Примечания и ссылки

Код для этого проекта представляет собой смесь многочисленных проектов GitHub, чтобы иметь полностью модулируемую реализацию Tacotron-2

Репозиторий NVIDIA (Tacotron2 / WaveLow): базовая модель, предварительно подготовленная, вдохновлена этим репозиторием.
Проект TFTTS: некоторые оптимизации выводов вдохновлены их dynamic decoder , которая теперь была оптимизирована и обновлена как совместимая Keras 3 .
Проект голоса в реальном времени Corentinj в реальном времени: предоставленная архитектура SV2TTS вдохновлена этим хранилищем, с небольшими различиями и оптимизацией.

Документы:

Tacotron 2: оригинальная бумага Tacotron2
Волновой хлопья: оригинальная бумага для волнового потока
Трансферный обучение от проверки динамика в текст в речь): оригинальная бумага для варианта SV2TTS
Обобщенная сквозная потеря для проверки динамиков: бумага потери GE2E (используется для энкодера динамика в архитектуре SV2TTS)

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-08-21
размер 835.99KB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
114la_To_DiscuzX1.5 навигация по сайту, идеально интегрированная версия

2011-04-12
114la_To_DiscuzX1.5 навигация по сайту, идеально интегрированная версия

2011-04-12

text_to_speech

? Текст в речь (TTS)

Структура проекта

Доступные функции