Скачать cnn_vocoder - Скачать исходный код cnn

cnn_vocoder

AI Исходный код

1.0.0

Скачать

Cnnvocoder

Примечание: я больше не работаю над этим проектом. Смотрите #9.

Вокадер на основе CNN.

Эта работа вдохновлена моделью M-CNN, описанной в инверсии быстрого спектрограммы с использованием многопомодных сверточных нейронных сетей. Авторы показывают, что даже простых сети UPSAMPLING достаточно, чтобы синтезировать форму волны от спектрограммы/мель-спектрограммы.

В этом репо я использую функцию Spectrogram для обучающей модели, потому что она содержит больше информации, чем функция Mel-Spectrogram. Однако, поскольку преобразование от спектрограммы в мель-спектрограмму является линейной проекцией, так что в основном вы можете обучить простую сеть прогнозировать спектрограмму от мель-спектрограммы. Вы также можете изменить параметры, чтобы быть в состоянии обучать вокадчик из функции Mel-Spectrogram.

Образец аудио

Архитектурные заметки

Сравните с M-CNN, моя предлагаемая сеть имеет некоторые различия:

Я использую upsampling + убедительные слои вместо слоя TransposedConv. Это помогает предотвратить артефакты шахлы.
Модель использует множество остаточных блоков до/после модуля Upsampling, чтобы сделать сеть больше/глубже.
Я использовал только потерю L1 между логарифмическим масштабом STFT-магиатом прогнозируемой и целевой формы волны. Потеря оценки в пространстве журнала лучше, чем на необработанной матче, потому что она ближе к человеческому ощущению о громкости. Я попытался вычислить потерю по функции Spectrogram, но это не очень помогло.

Установить требования

$ pip install -r requirements.txt

Тренировочный вокадер

1. Подготовьте набор данных

Я использую набор данных LJSPEECH для своего эксперимента. Если у вас его еще нет, пожалуйста, загрузите набор данных и поместите его куда -нибудь.

После этого вы можете запустить команду для создания набора данных для нашего эксперимента:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Обучайте вокад

$ python train.py --out_dir ${output_directory}

Для получения дополнительных вариантов обучения, пожалуйста, запустите:

$ python train.py --help

Генерировать звук из спектрограммы

Генерировать спектрограмму из аудио

$ python gen_spec.py -i sample.wav -o out.npz

Генерировать звук из спектрограммы

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Предварительная модель

Вы можете получить мою предварительно обученную модель здесь.

Благодарности

Эта реализация использует код из NVIDIA, Ryuichi Yamamoto, Keith Ito, как описано в моем коде.

Лицензия

Грань

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-08-21
размер 2.5MB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

2022-06-28

cnn_vocoder

Cnnvocoder

Вокадер на основе CNN.

Образец аудио

Архитектурные заметки

Установить требования

Тренировочный вокадер

1. Подготовьте набор данных

2. Обучайте вокад

Генерировать звук из спектрограммы

Предварительная модель

Благодарности

Лицензия

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express