Загрузка WavThruVec_pytorch - WavThruVec_pytorch исходный код скачать

WavThruVec_pytorch

AI Исходный код

1.0.0

Скачать

Wavthruvec Pytorch

Неофициальная реализация Wavthruvec на основе Pytorch.

Оригинальная статья - Wavthruvec: скрытое представление речи как промежуточные особенности для синтеза нейронной речи

архитектура

Модель Text2VEC в основном следует архитектуре Fastspeech (XCMYZ). Я изменил модель, в основном на основе RAD-TTS (NVIDIA). И я добавляю ecapa_tdnn в качестве энкодера динамика, для условия многопрофильного.

Для других деталей, не упомянутых в статье, я также следую за RAD-TTS.

VEC2WAV в основном основан на Hifi-Gan и вводит условную нормализацию партии, чтобы установить сеть в встраивании динамика. Последовательность скоростей повышения квалификации составляет (5,4,4,2,2), поэтому коэффициент повышения дискретизации $ Times 320 $ (Оригинальная бумага есть $ Times 640 $ ), другими словами, сгенерированные WAV имеют скорость дискретизации 16 кГц (32 кГц в оригинальной статье),.

Текст2VEC Training

Text2VEC вывод

VEC2WAV

Вход

Для текста:

Не используйте какие-либо методы нормализации текста или фонемизации на основе правил, но питайте необработанный характер и преобразуйте в стимулирование текста в качестве входных данных.

для аудио:

Используйте выход WAV2VEC 2.0 в качестве функции WAV (вместо спектрограммы MEL), с dtype 'float32' и формой (batch_size, n_frame, n_channel) .

Примечание: N_CHANLER = 768 или 1024, это зависит от того, какая версия предварительно предварительно вытянутой модели WAV2VEC 2.0 вы используете, потому что TencentGamemate предоставляет Fairseq-версию (768) и HuggingFace-Version (1024). Эти две версии имеют различную форму вывода.

WAV2VEC 2.0 предварительно

Из этого хранилища wav2vec2.0 (предварительное предварительное значение китайской речи), и его также можно найти в Huggingface

attn_prior

Одним из самых больших различий между Wavthruvec и Fastspeech является модуль монотонного поиска выравнивания (MAS) (см. alignment.py ).

В Fastspeech учебные поступления включают выравнивание учителей для рамков MEL и токенов текста. В частности, это включает использование MFA для генерации duration кадров MEL для каждого текста -тона перед тренировкой.

Находясь в Wavthruvec, duration генерируется с использованием MAS от RAD-TTS и подается в длину.

В соответствии с монотонным поиском выравнивания и реализации Rad-TTS, когда вы обучаете модель, файлы Align-Prior будут сгенерированы в каталоге './data/align_prior' с форматом имени файла {n_token}_{n_feat}_prior.pth .

среда

CUDA 10.1
Python 3.9.7
Факел 1.8.1+CU101
Факел-оптимизатор 0.3.0
Торчаудио 0,8,1
Tensorboard 2.12.0
Librosa 0,8,0
Numba 0,56,4
Numpy 1.22.4
Llvmlite 0,39,1

набор данных и подготовьте

Aishell3

Prepare_Data.py:

1. Прочтите файлы WAV и предварительную модель WAV2VEC2, повторно примеры WAV в 16 кГц и конвертируют в файлы .npy, которые противоречат соответствующей функции Wav2VEC 2.0.
2. Прочитайте транскрипцию Aishell3 (Content.txt) и отфильтруйте китайскую фонему и пустую. Возьмите путь к транскрипции и файлу, чтобы построить список поездов (./ data/enc_train.txt).
3. Создайте слова, который будет использоваться для преобразования символов в переменную факела.

Например, Prepare_Data.py Возьмите только несколько динамиков и несколько файлов WAV.

обучение

Wavthruvec contrignes 2 компонента: Text2VEC (Encoder) и VEC2WAV (декодер), и они тренируются независимо

Таким образом, я поместил их в два отдельных направления и использовал различные тренировочные конфигурации для каждого.

Тенсорборд

Логисты Tensorboard хранятся в каталоге run/{log_seed}/tb_logs . Предположим, log_seed=1 , вы можете использовать эту команду, чтобы обслуживать Tensorboard на вашем локальном хосте.

 tensorboard --logdir run/1/tb_logs

Сохранить контрольную точку и восстановить

Контрольные точки модели сохраняются в каталоге run/{log_seed}/model_new .

Предположим, вы сохраняете контрольные точки каждые 10000 итераций, и теперь у вас есть контрольная точка checkpoint_10000.pth.tar . Если вам нужно перезапустить обучение на step 10000 , используйте эту команду.

 python ./text2vec/train.py --restore_step 10000

Тодо

эксперимент и выступление
Более подробная информация для реализации

Ссылка

Репозиторий

Fastspeech (xcmyz's)
wav2vec2.0 (китайская речь предварительно)
RAD-TTS (NVIDIA)
Gan-TTS (Yanggeng1995)
Хиф-Ган
Fastpitch (Дан-Wells ')
ecapa_tdnn (Tao Ruijie's)
ecapa_tdnn (Lawlict's)
Glow-TTS (jaywalnut310)

Бумага

Fastspeech
Fastspeech2
Хиф-Ган
wav2vec
Рад-Ттс
Поиск монотонного выравнивания

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-09-14
размер 892.77KB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

2022-06-28

WavThruVec_pytorch

Wavthruvec Pytorch

архитектура

Текст2VEC Training

Text2VEC вывод

VEC2WAV

Вход

WAV2VEC 2.0 предварительно

attn_prior

среда

набор данных и подготовьте

обучение

Тенсорборд

Сохранить контрольную точку и восстановить

Тодо

Ссылка

Репозиторий

Бумага

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express