Недавние достижения в области синтеза речи использовали сети на основе GAN, такие как Hifi-Gan и Bigvgan для производства сигналов с высокой точностью от мель-спектрограмм. Тем не менее, эти сети являются вычислительно дорогими и тяжелыми для параметров. ISTFTNet рассматривает эти ограничения, интегрируя обратное кратковременное преобразование Фурье (ISTFT) в сеть, достигая как скорости, так и эффективности параметров. В этой статье мы вводим расширение в ISTFTnet, называемый HiftNet, который включает в себя гидроисточный фильтр в гармонике, который использует синусоидальный источник из фундаментальной частоты (F0), выведенной через предварительно обученную сеть оценок F0 для быстрой скорости вывода. Субъективные оценки на LJSPEECH показывают, что наша модель значительно превосходит как ISTFTNET, так и HIFI-GAN, достигая производительности на уровне земли. Hiftnet также превосходит Bigvgan-Base на Libritts для невидимых динамиков и достигает сопоставимой производительности с Бигвганом, в то время как в четыре раза быстрее, и только 1/6 параметров. Наша работа устанавливает новый эталон для эффективного, высококачественного нейронного вокалирования, прокладывая путь для приложений в реальном времени, которые требуют высококачественного синтеза речи.
Бумага: https://arxiv.org/abs/2309.09493
Образцы аудио: https://hiftnet.github.io/
Проверьте нашу работу TTS, которая использует Hiftnet в качестве речевого декодера для синтеза речи на уровне человека здесь: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Для обучения модели F0, пожалуйста, обратитесь к YL4579/Pitchextractor. Это репо включает предварительно обученную модель F0 на Libritts. Тем не менее, вы можете захотеть обучить свою собственную модель F0 для лучшей производительности, особенно для шумных или неречевых данных, поскольку мы обнаружили, что точность оценки F0 необходима для производительности Vocoder.
Пожалуйста, обратитесь к записной книжке.
Вы можете скачать предварительно обученную модель LJSpeech здесь и предварительно обученную модель Libritts здесь. Предварительно обученные модели содержат параметры оптимизаторов и дискриминаторов, которые можно использовать для точной настройки.