Список документов и проектов о передовом синтезе речи , текстовой речи (TTS) , синтезе голоса (SVS) , конверсии голоса (VC) , пении конверсии голоса (SVC) и связанных с ними интересных работ (таких как синтез музыки , автоматическая музыкальная транскрипция , автоматическое предсказание MOS , SSL на основе SSL , т. Д.).
Добро пожаловать в PR или свяжитесь со мной по электронной почте ([email protected]) для обновления документов и работ.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, Ijai, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME
Asru, Slt
[ 2022 ]
Learn2sing 2.0: диффузия и взаимная информационная целевая докладчика SVS, учившись на пении учителя | Interspeech 2022 | ✔ Код | Демо
Иерархическая структура представления оратора для одноразового преобразования голоса по пению | Interspeech 2022 | Демо
Улучшение состязательной формы формы волны на основе пения преобразование голоса с гармоническими сигналами | ICASSP 2022 | Демо
[ 2021 ]
DIFFSVC: диффузионная вероятностная модель для преобразования голоса пения | Asru 2021 | Демо
Контролируемый и интерпретируемый поющий голосовой разложение через Assem-VC | Neurips 2021 Workshop | Демо
На пути к высокой точке пения преобразование голоса с акустической ссылкой и контрастным прогнозирующим кодированием | 2021/10 | Демо
FASTSVC: быстрое перекрестное пение голоса с функциональной линейной модуляцией | ICME 2021 | Демо
Неконтролируемое преобразование голоса на основе Wavenet с использованием увеличения высоты тона и двухфазного подхода | 2021/07 | ✔ Код | Демо
[ 2020 ]
Ноль-выстрел пения преобразование голоса | Исмир 2020 | Демо
Фонетические задние грамы, основанные на много-м-м-м-мрении, преобразование голоса через состязательные тренировки | 2020/12 | Демо | Неофициальный код
Durian-SC: Продолжительность информированная сеть внимания сеть системы пения голоса | Межспика 2020 | Демо
Неконтролируемое перекрестное пение по пению конверсии голоса | Межспика 2020 | Демо
Pitchnet: неконтролируемое преобразование голоса с состязательной сетью Pitch | ICASSP 2020 | Демо
Vaw-Gan для пения конверсии голоса с непараллельными данными обучения | APSIPA 2020 | ✔ Код | Демо
M4Singer: мульти-сингер и музыкальный счет, предоставленный многоцветным пением, поющий корпус | Neurips 2022 | ? Применить и скачать | Демо
NUS-48E SENG и CONKED TIX CORPUS | ? Применить и скачать
NHSS: параллельная база данных речи и пения | ? Применить и скачать
[ 2022 ]
[ 2021 ]
Исследование частоты во времени для извлечения аудио-функций в классификации техники пения | APSIPA 2021
Ноль-выстрел преобразование техники пения | CMMR 2021
[ 2022 ]
Обучение, независимое от шума речевое представление для высококачественного преобразования голоса для шумных целевых носителей | Interspeech 2022 | Демо
Glow-Wavegan 2: Высококачественный нулевой выстрел Синтез текста в речь и любое обращение голоса | Interspeech 2022 | Демо
Диффузионное преобразование голоса с быстрой схемой выборки максимального правдоподобия | ICLR 2022 | ✔ Код | Демо
Yourtts: к нулевым выстрелу многопрофильных TTS и преобразования голоса с нулевым выстрелом для всех | ICML 2022 | ✔ Код | Демо | Демо | Блог
Сравнительное исследование самоотверженного преобразования голоса, основанного на речи | IEEE JSTSP 2022/07
S3PRL-VC: Структура преобразования голоса с открытым исходным кодом с самоотверженными речевыми представлениями | ICASSP 2022 | ✔ Код
Сравнение дискретных и мягких речевых единиц для улучшения преобразования голоса | ICASSP 2022 | ✔ Код | Демо
Assem VC: Реалистичное преобразование голоса путем сборки современных методов синтеза речи | ICASSP 2022 | ✔ Код | Демо
NVC-NET: сквозное состязательное преобразование голоса | ICASSP 2022 | ✔ Код | Демо
Надежное распущенное вариационное представление речи обучение для преобразования голоса с нулевым выстрелом | ICASSP 2022 | Демо
Обучение надежных моделей преобразования голоса с нулевым выстрелом с самоотверженными функциями | ICASSP 2022 | Демо
На пути к деградации-росту голосовой конверсии | ICASSP 2022
DGC-Vector: новый динамик, внедряющий конверсию голоса с нулевым выстрелом | ICASSP 2022 | Демо
Средний перевод с нулевым выстрелом в стиле голоса с переменными в расположении. 2022/05 | Демо
[ 2021 ]
О моделировании просодии для преобразования голоса на основе ASR+TTS | Asru 2021 | Демо
Нейронный анализ и синтез: реконструкция речи из самоотверженных представлений | Neurips 2021 | Демо | Неофициальный код
MediumVC: Any-to-Voice Conversion с использованием синтетических речей специфических напитков в качестве интермедийных особенностей | 2021/10 | ✔ Код | Демо
Starganv2-VC: разнообразная, неконтролируемая, непараллельная структура для преобразования голоса с естественным звучанием | Interspeech 2021 Best Paper Award | ✔ Код | Демо
S2VC: структура для любого в любом голосовом преобразовании с самоподходящими предварительными представлениями | Interspeech 2021 | ✔ Код | Демо
Основанная на основе голоса. Основанная на основе конвертации голоса с использованием вариационного автоэкодерса | Interspeech 2021 | ✔ Код | Демо
Речь пересекает от дискретных распущенных самоотверженных представлений | Interspeech 2021 | Демо
Улучшение переноса в стиле голоса с нулевым выстрелом с помощью обучения DisEneangled Prevation | ICLR 2021
Передача глобального ритма без текстовых транскрипций | ICML 2021 | ✔ Код
Снова-VC: одноразовое преобразование голоса с использованием руководства активации и нормализации адаптивного экземпляра | ICASSP 2021 | ✔ Код | Демо
В любом случае преобразование голоса с рецидивами по местоположению моделирования последовательности к последовательности | IEEE/ACM TASLP 2021/05 | ✔ Код | Демо
[ 2020 ]
Обзор конверсии голоса и его проблем: от статистического моделирования до глубокого обучения | IEEE/ACM TASLP 2020/11
Неконтролируемое разложение речи через упущенное тройной информации | ICML 2020 | ✔ Код
[ 2019 ]
Одно выстрел преобразование голоса, разделяя динамик и представления контента с нормализацией экземпляра | Interspeech 2019 | ✔ Код
AutoVC: перенос голоса с нулевым выстрелом только с потерей AutoEncoder | ICML 2019 | ✔ Код | Демо
CSTR VCTK CORPUS: Английский мульти-динамик корпус для CSTR Voice Cloning Toolkit | 2019 | ? Применить и скачать
Aishell-3: мульти-дипроверенный мандаринский корпус и базовые линии | 2020 | ? Применить и скачать | Демо
Aishell-2: Преобразование исследований мандарина ASR в промышленное масштаб | 2018 | ? Применить и скачать
Aishell-1: речевой корпус с открытым исходным кодом и базовый уровень признания речи | 2017 | ? Применить и скачать
[ 2022 ]
Раскрытие эмоционального стиля и идентичности динамика для выразительного преобразования голоса | Interspeech 2022 | Демо
Перенос эмоций по перекрестному высказыванию на основе компенсации просодии для сквозного синтеза речи | Interspeech 2022 | Демо
Интенсивность эмоций и ее контроль для эмоционального преобразования голоса | IEEE транзакции на аффективных вычислениях 2022/07 | ✔ Код | Демо
Без текстовая речь преобразование эмоций с использованием дискретных и разложенных представлений | 202202 | Демо
[ 2021 ]
[ 2020 ]
Преобразование чьи-то эмоций: в сторону независимого от оратового эмоционального преобразования голоса | Межспика 2020 | ✔ Код | Демо
Преобразование спектра и просодию для эмоциональной конверсии голоса с непараллельными данными обучения | Одиссея 2020 | ✔ Код | Демо
[ 2022 ]
Маскиты: сквозная музыкальная музыкальная обработка для пения синтез голоса | Interspeech 2022 | ✔ Код
Singaug: Увеличение данных для пения голосового синтеза с помощью велосипедной стратегии обучения | Interspeech 2022 | ✔ Код
Уэзингер: Синтез по пению по пению с данными с помощью вспомогательных потерь | Interspeech 2022 | Демо
Wesinger 2: Полностью параллельный синтез по пению голоса через многоуровневое условное тренировку со сдерживанием состязания | 2022/08 | Демо
Подходы глубокого обучения по темам пения обработки информации | IEEE/ACM TASLP 2022/07
Изучение красоты в песнях: Нейронный поющий голос Beautifier | ACL 2022 | ✔ Код | Демо
Diffsinger: петь голосовой синтез с помощью мелкого диффузионного механизма | AAAI 2022 | ✔ Код | Демо
[ 2021 ]
[ 2020 ]
M4Singer: мульти-сингер и музыкальный счет, предоставленный многоцветным пением, поющий корпус | Neurips 2022 | ? Применить и скачать | Демо
Popcs | AAAI 2022 | ? Применить и скачать
OpenCpop: высококачественный китайский популярный корпус с открытым исходным кодом для пения синтез голоса | Interspeech 2022 | ? Применить и скачать
[ 2022 ]
Prodiff: Прогрессивная модель быстрой диффузии для высококачественного текста в речь | ACM MM 2022 | ✔ Код | Демо
BDDM: двусторонняя дженовая диффузионная модели для быстрого и высококачественного синтеза речи | ICLR 2022 | ✔ Код | Демо
FASTDIFF: быстрое условное диффузионное модель для высококачественного синтеза речи | IJCAI 2022 | ✔ Код | Демо
[ 2022 ]
Пятнические вокалисты на основе DDSP: новый синтезатор на основе подъема и комплексная оценка | Исмир 2022 | ✔ Код | Демо
FASTDIFF: быстрое условное диффузионное модель для высококачественного синтеза речи | IJCAI 2022 | ✔ Код | Демо
Binauralgrad: двухэтапная вероятностная диффузионная вероятностная модель для бинаурального аудио-синтеза | 2022/05 | Демо
[ 2021 ]
Multi-Singer: Fast Multi-Singer Singer Singe Vocoder с крупномасштабным корпусом | ACM MM 2021 | ? Применить и скачать | ✔ Код | Демо
Wavegrad 2: Итеративное уточнение для синтеза текста в речь | Interspeech 2021 | Демо
Diffwave: универсальная диффузионная модель для синтеза аудио | ICLR 2021 | ✔ Код | Демо
Wavegrad: оценка градиентов для генерации формы волны | ICLR 2021 | Демо
[ 2020 ]
Hifi-Gan: Генеративные состязательные сети для эффективного и высокого синтеза речи и высокой верности | Neurips 2020 | ✔ Код | Демо
Многополосный Мелган: более быстрое генерация формы волны для высококачественного текста в речь | Межспика 2020 | Демо
Parallel Wavegan: модель формирования быстрого сигнала, основанная на генеративных состязательных сетях со спектрограммой с несколькими разрешениями | ICASSP 2020 | Демо | Неофициальный код
[ 2019 ]
Мелган: Генеративные состязательные сети для условного синтеза формы волны | Neurips 2019 | ✔ Код | Демо
К достижению надежного универсального нейронного вокалирования | Interspeech 2019 | ✔ Код | Демо | Неофициальный код
[ 2022 ]
Многоинструментный музыкальный синтез с диффузией спектрограммы | Исмир 2022 | ✔ Код | Демо
Мусика! Быстрое бесконечное генерация музыкальной формы волны | Исмир 2022 | ✔ Код | Демо
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat: Universal Shight Presentation Learning с предварительным обучением Speaker | ICASSP 2022 | ✔ Код | ✔ Код
Компромиссы эффективности в неконтролируемом предварительном обучении для распознавания речи | ICASSP 2022 | ✔ Код | ✔ Код
Псевдо-маркировка для массового многоязычного распознавания речи | ICASSP 2022 | ✔ Код | ✔ Код
Wavlm: крупномасштабная самоотверженная предварительная тренировка для полной обработки речи | IEEE JSTSP 2022/06 | ✔ Код | ✔ Код
[ 2021 ]
XLS-R: самоотверженное кросс-лингальное представление речи в масштабе | 2021/12 | ✔ Код | ✔ Код
Простое и эффективное с нулевым поперечным распознаванием фонем | 2021/09 | ✔ Код | ✔ Код
Тера: самоотверженное изучение представления энкодера трансформатора для речи | IEEE/ACM TASLP 2021/08 | ✔ Код
Unispeech: Объединенное речевое представление с маркированными и немечеными данными | ICML 2021 | ✔ Код | ✔ Код | ✔ Код
Хьюберт: самоотверженное речевое представление, обучение в маскированном прогнозировании скрытых единиц | IEEE/ACM TASLP 2021/06 | ✔ Код | ✔ Код
[ 2020 ]
WAV2VEC 2.0: Структура для самоотверженного изучения речевых представлений | Neurips 2020 | ✔ Код | ✔ Код
VQ-WAV2VEC: самоотверженное изучение дискретных речевых представлений | ICLR 2020 | ✔ Код | ✔ Код
Mockingjay: Обучение неконтролируемому речи с глубокими двунаправленными трансформаторами | ICASSP 2020 | ✔ Код
Неконтролируемое межязычное представление обучение для распознавания речи | 2020/06 | ✔ Код | ✔ Код
Fairseq S2T: быстрое моделирование речи к тексту с Fairseq | AACL 2020 | ✔ Код | ✔ Код
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Программа преобразования голоса 2020 | ? Применить и скачать | ✔ Код
Blizzard Challenge