OSM one shot multispeaker Download - OSM one shot multispeaker Source Code Скачать

OSM one shot multispeaker

AI Исходный код

1.0.0

Скачать

OSM: одноразовый много дивикер

Запись о проблеме

Системы с несколькими высказываниями текста в речь (OS MS TTS) направлены на преобразование текста в речь с голосом, определяемым небольшим отдельным образцом. Основная проблема здесь - воспроизвести новый невидимый голос, не переподшив сеть. Существует подход с тремя основными этапами, который используется для решения этой проблемы. Уникальные для каждого голосового динамика, которые показывают характеристики голоса, генерируются на первом этапе ( энкодер динамика ). На втором этапе ( синтезатор ) текст преобразуется в мель-спектрограмму с использованием ранее полученных встроений. Наконец, речь воспроизводится из мель-спектрограммы с помощью вокадера . Но не хватает реализаций с этими тремя частями, правильно объединенными. Таким образом, цель нашего проекта состоит в том, чтобы создать гибкую структуру для объединения этих деталей и предоставления сменных модулей и методов в каждой части.

Основные проблемы

К настоящему времени мы видим следующие основные проблемы:

Решение нашей проблемы состоит из трех подзадач, которые уже имеют отличные решения. Следовательно, существующие решения для MS TTS по существу представляют собой сборник решений для этих отдельных проблем, для которых есть много готовых и хорошо реализованных решений. Основная задача состоит в том, чтобы сделать структуру гибкой и обеспечить совместимость отдельных частей.
Методы, используемые в каждой подзадачах, различаются по набору параметров и природе алгоритма. Поэтому будет довольно сложно предоставить один API.

Базовое решение

Мы выбираем решение, предложенное инструкторами в качестве базовой линии, которую можно найти здесь. Это реализация [1], сделанного в Google в 2018 году. Здесь авторы используют энкодер динамика, представленный в [2], который генерирует вектор фиксированного встроенного встраивания, известный как D-вектор. Что касается синтезатора, они используют модель на основе такотрона 2 [3], в то время как в качестве вокадера используется на основе авторегрессивного волны [4]. Следующее изображение, взятое из [1], представляет обзор модели:

Плюсы и минусы

Клонирование в реальном времени содержит реализацию Encoder, Tacotron 2 и Wavernn. Весь трубопровод, описанный в [1], включая этапы предварительной обработки, также реализуется в этом хранилище. Тем не менее, проект недостаточно гибкий. Более конкретно, в текущем состоянии он не может быть использован в качестве структуры для системы с несколькими выстрелами из системы текста в речь, поскольку нет удобных механизмов для манипулирования тремя основными модулями. Например, предлагаемая система многопрофильных TTS в [5] не может быть легко реализована с помощью голосования в реальном времени, поскольку нет точек расширяемости, которые позволяют регулировать трубопровод для нового метода.

Наше улучшение

Наш план состоит в том, чтобы использовать клонирование голоса в реальном времени в качестве отправной точки с реализованной базовой линией. Мы представим гибкую модульную конструкцию каркаса. Такой подход поможет нам создать удобный API для внешних пользователей, которые смогут использовать нашу структуру для включения многопрофильной системы TTS в свои продукты. API также позволит пользователям настраивать модули и шаги трубопровода без изменения исходного кода структуры, если это необходимо. Мы будем реализовать несколько энкодеров динамиков (LDE, TDNN) и добавим их в нашу структуру.

Обзор структуры проекта

С высокой точки наш проект состоит из 3 основных элементов: энкодера динамика, синтезатор, Vocoder. Для каждого из них реализован менеджер, который позволяет получить доступ к параметрам и выполнять стандартные действия, такие как вывод и обучение. Над ними мы внедрили MS TTS Manager OS, которая объединяет все три части и позволяет выполнять все трубопроводы и произвести речь с необходимым голосом. Каждая из этих частей также состоят из элементарных подразделений, типичных для соответствующих элементов. Их можно описать следующим образом:

Discoer Encoder : Здесь базовым классом является Speakerencodermanager, который позволяет тренировать и логировать модель. Кроме того, мы уже реализовали интерфейс предварительной обработки WAV. Таким образом, можно настроить свои собственные функции предварительной обработки аудио, которые могут отличаться даже для одного и того же набора данных. Кроме того, пользовательская модель может быть использована. Мы добавили стандартную функцию предварительной обработки и модель, представленную в клонинге в режиме реального времени
Синтезатор : здесь базовым классом является SynthesizerManager, который позволяет тренировать и логировать модель. Кроме того, та же ситуация с функциями предварительной обработки, и с одним отличием. В дополнение к аудио также необходимо обработать текст. На данный момент мы реализовали функцию предварительной обработки текста и аудио, поскольку эти операции необходимы во время вывода и обучения. Базовая линия из-за клонирования в реальном времени
Vocoder : Здесь базовым классом является VocoderManager, который позволяет тренировать, логическую модель Vocoder и устанавливать все необходимые ему состояния. Базовая линия из-за клонирования в реальном времени

Результаты оценки

В нашем репозитории мы добавили ноутбук, где можно загрузить голосовой звук, файл .txt и произвести речь с помощью клонированного голоса. Несмотря на то, что веса предварительно проведенных моделей загружаются автоматически при первом заезде, пользователь все еще может загрузить архив здесь другие инструкции в записной книжке здесь

Роли участников

Nikolay разработает модульную архитектуру, API для внешнего использования и тренировочного трубопровода. GLEB будет реализовать рабочую стопку моделей, записывать документации и примеры использования.

Структура проекта

 .
└── osms
    ├── __init__.py
    ├── common
    │   ├── __init__.py
    │   ├── configs
    │   │   ├── __init__.py
    │   │   ├── config.py
    │   │   └── main_config.yaml
    │   └── multispeaker.py
    ├── main.py
    ├── tts_modules
    │   ├── __init__.py
    │   ├── encoder
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── AudioConfig.yaml
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   └── dVecModelConfig.yaml
    │   │   ├── data
    │   │   │   ├── DataObjects.py
    │   │   │   ├── __init__.py
    │   │   │   ├── dataset.py
    │   │   │   ├── wav2mel.py
    │   │   │   └── wav_preprocessing.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── dVecModel.py
    │   │   ├── speaker_encoder_manager.py
    │   │   └── utils
    │   │       ├── Trainer.py
    │   │       └── __init__.py
    │   ├── synthesizer
    │   │   ├── LICENSE.md
    │   │   ├── __init__.py
    │   │   ├── configs
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── hparams.py
    │   │   │   └── tacotron_config.yaml
    │   │   ├── data
    │   │   │   ├── __init__.py
    │   │   │   ├── audio.py
    │   │   │   ├── dataset.py
    │   │   │   └── preprocess.py
    │   │   ├── models
    │   │   │   ├── __init__.py
    │   │   │   └── tacotron.py
    │   │   ├── synthesize.py
    │   │   ├── synthesizer_manager.py
    │   │   ├── trainer.py
    │   │   └── utils
    │   │       ├── __init__.py
    │   │       ├── cleaners.py
    │   │       ├── logmmse.py
    │   │       ├── numbers.py
    │   │       ├── plot.py
    │   │       ├── symbols.py
    │   │       └── text.py
    │   ├── tts_module_manager.py
    │   └── vocoder
    │       ├── __init__.py
    │       ├── configs
    │       │   ├── __init__.py
    │       │   ├── config.py
    │       │   ├── hparams.py
    │       │   └── wavernn_config.yaml
    │       ├── data
    │       │   ├── __init__.py
    │       │   ├── dataset.py
    │       │   └── preprocess.py
    │       ├── models
    │       │   ├── __init__.py
    │       │   └── wavernn.py
    │       ├── utils
    │       │   ├── Trainer.py
    │       │   ├── __init__.py
    │       │   ├── audio.py
    │       │   ├── distribution.py
    │       │   └── gen_wavernn.py
    │       └── vocoder_manager.py
    └── utils
        └── __init__.py

Установка

Запустите pip3 install . из корневого каталога.

Наборы данных

Мы внедрили полную обработку для набора данных Libraspeech для энкодера, синтезатора и Vocoder. Можно скачать набор данных Libraspeech по этой ссылке. Кроме того, для динамика Encoder мы реализовали интерфейс для использования пользовательского набора данных. Нужно реализовать функции интерфейса PreprocessDataset , функции интерфейса WavPreprocessor , функции интерфейса WavPreprocessor или использовать реализованные.

Конфигурации

Для базовых моделей конфигурации по умолчанию будут загружены автоматически. Чтобы изменить их, можно использовать update_config(...) в osms/common/configs/config.py . Для загрузки конфигурации по умолчанию можно использовать get_default_<module_name>_config(...) . Кроме того, можно реализовать свои собственные конфигурации, чтобы использовать их для других моделей.

Менеджеры

Для работы с каждым тремя модулями мы реализовали его собственного менеджера: SpeakerEncoderManager , SynthesizerManager , VocoderManager . Как главный менеджер, мы внедрили MustiSpreakerManager , который дает доступ ко всем трем менеджерам. Можно использовать их для вывода всей модели TTS и обучать каждые модули отдельно или вместе. Пример использования можно найти в записной книжке.

Контрольные точки

Базовые контрольные точки загружаются автоматически в каталоге checkpoints с созданием объекта Multipeaker. Кроме того, можно использовать другие контрольно -пропускные пункты, путем простого обновления конфигурации (изменить ... CAPEPOINT_DIR_PATH, CHACKPOINT_NAME).

Ссылки

Ye Jia, Y. Zhang, Ron J. Weiss, Q. Wang, Jonathan Shen, Fei Ren, Z. Chen, p. Нгуен, Р. Пан, И. Лопес-Морено и Ю. Ву. Перенос обучения от проверки динамиков в синтез текста в речь мультиспикер
Ли Ван, Куан Ван, Алан Папир и Игнасио Лопес Морено. Обобщенная сквозная потеря для проверки динамика,
Джонатан Шен, Р. Панг, Рон Дж. Вайс, М. Шустер, Навдип Джайтли, Z. Ян, З. Чен, Ю Чжан, Юксюан Ван, Р. Скри-Райан, Р. Саурус, Яннис Агиомиргианнакис и Ю. Ву. Природный синтез TTS путем кондиционирования Wavenet на предсказаниях спектрограммы MEL,
Аарон Ван Ден Оорд, С. Дилиман, Х. Зен, К. Симоньян, Ориол Виньялс, а. Грейвс, Нал Калхбреннер, А. Старший и К. Кавуккуглу. Wavenet: агенеративная модель для необработанного аудио,
Эрика Купер, Ченг-и Лай, Юсуке Ясуда, Фуминг Фанг, Синь Ван, Нанксин Чен и Джуничи Ямагиши. НЕОСКИЙ СКОТ Многогазок текста в речь с современными нейронными динамиками.

Расширять

Дополнительная информация