MB iSTFT VITS with AutoVocoder Download - MB iSTFT VITS with AutoVocoder

MB iSTFT VITS with AutoVocoder

AI Исходный код

1.0.0

Скачать

MB-ISTFT-VITS с AutoVocoder

Мотивация для реализации

Начиная с VIT, MB-ISTFT-Vits улучшает скорость синтеза, используя методы ниже:

Многополосная стратегия параллельной генерации путем разложения речевых сигналов в суб-сигналы
Процесс генерации формы волн на основе ISTFT

Основываясь на этой хорошо разработанной структуре, этот репозиторий направлен на дальнейшее улучшение качества звука и вывода с помощью Autovocoder.
Этот репо основан на MB-ISTFT-виноградах, а ожидаемые модификации и усовершенствования приведены ниже:

1. Замените декодер на основе ISTFTNet на декодер на основе автоэвокодера.
2. В операции ISTFT используйте реальные/воображаемые, а не компоненты фазы/величины для построения сложной спектрограммы. Добавить потерю реконструкции времени.
3. Пересмотрите задний энкодер, чтобы принять 4 комплексных компонента вместо линейной спектрограммы.

Благодаря природе VIT, которые моделируют мощные задержки, Autovocoder может быть правильным применением из -за ее архитектуры AutoEncoder. Кроме того, он имеет быструю скорость вывода путем непосредственного генерирования формы волны с (1024, 256, 1024) FFT/размер HOP/WIN без модулей UPSMPLING. (Многополосная стартагия будет поддерживаться)
Традиционные модели TTS, включая VIT, информацию о этапе моделирования, были полностью ролью декодера (Vocoder). В Mod 3. , Предоставляя информацию о фазе задержки, мы проверяем, можно ли достоверно приблизительно приблизительно.

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

Примечание

Для легкого сравнения мы не изменили всю архитектуру заднего энкодера. Вместо этого мы использовали только групповую свертку в передней части для обработки пересмотренных входов (4 комплексных компонента).
В настоящее время этот репо пытается реализовать модель на основе MB-ISTFT-Vits. Применение в Mini, MS, без MB может быть будущей работой.

Объяснение (из MB-ISTFT-Vits)

0. Базовая линия: mb-istft-vits

1. Предварительные условия

Python> = 3,6
Клонировать это хранилище
Установите требования Python. Пожалуйста, обратитесь к требованиям.txt
1. Вам может понадобиться сначала установить Espeak: apt-get install espeak
Скачать наборы данных
1. Скачать и извлечь набор данных речи LJ, затем переименовать или создать ссылку на папку набора данных: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
Создайте монотонную выравнивание и запустите предварительную обработку, если вы используете свои собственные наборы данных.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

2. Обучение

В случае обучения MB-istft-vits запустите следующий сценарий

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

После обучения вы можете проверить аудио вывода с помощью specy.ipynb

Ссылки

MB-ISTFT-VITS: бумага / код
Autovocoder: Paper / Code (неофициальный)

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-09-14
размер 5.02MB
От Github

Связанные приложения

MB iSTFT VITS with AutoVocoder

MB-ISTFT-VITS с AutoVocoder

Мотивация для реализации

Примечание

Объяснение (из MB-ISTFT-Vits)

0. Базовая линия: mb-istft-vits

1. Предварительные условия

2. Обучение

Ссылки

MB Lab

в ловушке с Джестером

Создатель ролевых игр С

с моим прошлым

Текст с Иисусом

Поднимитесь с тачкой

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express