HiFTNet Download - HiFTNet исходный код скачать

HiFTNet

AI Исходный код

1.0.0

Скачать

Hiftnet: быстрый высококачественный нейронный вокадер с фильтром гармоника и обратного короткого времени Фурье

Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Недавние достижения в области синтеза речи использовали сети на основе GAN, такие как Hifi-Gan и Bigvgan для производства сигналов с высокой точностью от мель-спектрограмм. Тем не менее, эти сети являются вычислительно дорогими и тяжелыми для параметров. ISTFTNet рассматривает эти ограничения, интегрируя обратное кратковременное преобразование Фурье (ISTFT) в сеть, достигая как скорости, так и эффективности параметров. В этой статье мы вводим расширение в ISTFTnet, называемый HiftNet, который включает в себя гидроисточный фильтр в гармонике, который использует синусоидальный источник из фундаментальной частоты (F0), выведенной через предварительно обученную сеть оценок F0 для быстрой скорости вывода. Субъективные оценки на LJSPEECH показывают, что наша модель значительно превосходит как ISTFTNET, так и HIFI-GAN, достигая производительности на уровне земли. Hiftnet также превосходит Bigvgan-Base на Libritts для невидимых динамиков и достигает сопоставимой производительности с Бигвганом, в то время как в четыре раза быстрее, и только 1/6 параметров. Наша работа устанавливает новый эталон для эффективного, высококачественного нейронного вокалирования, прокладывая путь для приложений в реальном времени, которые требуют высококачественного синтеза речи.

Бумага: https://arxiv.org/abs/2309.09493

Образцы аудио: https://hiftnet.github.io/

Проверьте нашу работу TTS, которая использует Hiftnet в качестве речевого декодера для синтеза речи на уровне человека здесь: https://github.com/yl4579/styletts2

Предварительные условия

Python> = 3,7
Клонировать это хранилище:

git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNet

Установите требования Python:

pip install -r requirements.txt

Обучение

python train.py --config config_v1.json --[args]

Для обучения модели F0, пожалуйста, обратитесь к YL4579/Pitchextractor. Это репо включает предварительно обученную модель F0 на Libritts. Тем не менее, вы можете захотеть обучить свою собственную модель F0 для лучшей производительности, особенно для шумных или неречевых данных, поскольку мы обнаружили, что точность оценки F0 необходима для производительности Vocoder.

Вывод

Пожалуйста, обратитесь к записной книжке.

Предварительно обученные модели

Вы можете скачать предварительно обученную модель LJSpeech здесь и предварительно обученную модель Libritts здесь. Предварительно обученные модели содержат параметры оптимизаторов и дискриминаторов, которые можно использовать для точной настройки.