Awesome Singing Voice Synthesis and Singing Voice Conversion скачать - Awesome Singing Voice Synthesis and Singing Voice Conversion

Awesome Singing Voice Synthesis and Singing Voice Conversion

AI Исходный код

1.0.0

Скачать

Потрясающий синтез по пению и преобразование голоса пения

Список документов и проектов о передовом синтезе речи , текстовой речи (TTS) , синтезе голоса (SVS) , конверсии голоса (VC) , пении конверсии голоса (SVC) и связанных с ними интересных работ (таких как синтез музыки , автоматическая музыкальная транскрипция , автоматическое предсказание MOS , SSL на основе SSL , т. Д.).

Добро пожаловать в PR или свяжитесь со мной по электронной почте ([email protected]) для обновления документов и работ.

Бумажный список

Журналы

IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI

Конференции

Neuraips, ICLR, ICML, Ijai, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME

Мастерские

Asru, Slt

Петь преобразование голоса (другие ключевые слова: SVC, перенос стиля пения)

[ 2022 ]

Learn2sing 2.0: диффузия и взаимная информационная целевая докладчика SVS, учившись на пении учителя | Interspeech 2022 | ✔ Код | Демо
Иерархическая структура представления оратора для одноразового преобразования голоса по пению | Interspeech 2022 | Демо
Улучшение состязательной формы формы волны на основе пения преобразование голоса с гармоническими сигналами | ICASSP 2022 | Демо

[ 2021 ]

DIFFSVC: диффузионная вероятностная модель для преобразования голоса пения | Asru 2021 | Демо
Контролируемый и интерпретируемый поющий голосовой разложение через Assem-VC | Neurips 2021 Workshop | Демо
На пути к высокой точке пения преобразование голоса с акустической ссылкой и контрастным прогнозирующим кодированием | 2021/10 | Демо
FASTSVC: быстрое перекрестное пение голоса с функциональной линейной модуляцией | ICME 2021 | Демо
Неконтролируемое преобразование голоса на основе Wavenet с использованием увеличения высоты тона и двухфазного подхода | 2021/07 | ✔ Код | Демо

[ 2020 ]

Ноль-выстрел пения преобразование голоса | Исмир 2020 | Демо
Фонетические задние грамы, основанные на много-м-м-м-мрении, преобразование голоса через состязательные тренировки | 2020/12 | Демо | Неофициальный код
Durian-SC: Продолжительность информированная сеть внимания сеть системы пения голоса | Межспика 2020 | Демо
Неконтролируемое перекрестное пение по пению конверсии голоса | Межспика 2020 | Демо
Pitchnet: неконтролируемое преобразование голоса с состязательной сетью Pitch | ICASSP 2020 | Демо
Vaw-Gan для пения конверсии голоса с непараллельными данными обучения | APSIPA 2020 | ✔ Код | Демо

Датчик

M4Singer: мульти-сингер и музыкальный счет, предоставленный многоцветным пением, поющий корпус | Neurips 2022 | ? Применить и скачать | Демо
NUS-48E SENG и CONKED TIX CORPUS | ? Применить и скачать
NHSS: параллельная база данных речи и пения | ? Применить и скачать

Классификация техники конверсии/пения по пению

[ 2022 ]

Деформируемое CNN и дисбаланс, с учетом функции, для классификации техники пения | Межспика 2022

[ 2021 ]

Исследование частоты во времени для извлечения аудио-функций в классификации техники пения | APSIPA 2021
Ноль-выстрел преобразование техники пения | CMMR 2021

Датчик

Вокалсет: набор данных по поюю голоса | Ismir 2018 | ? Применить и скачать

Преобразование голоса (другие ключевые слова: VC, голосовой клонинг, передача в стиле голоса)

[ 2022 ]

Обучение, независимое от шума речевое представление для высококачественного преобразования голоса для шумных целевых носителей | Interspeech 2022 | Демо
Glow-Wavegan 2: Высококачественный нулевой выстрел Синтез текста в речь и любое обращение голоса | Interspeech 2022 | Демо
Диффузионное преобразование голоса с быстрой схемой выборки максимального правдоподобия | ICLR 2022 | ✔ Код | Демо
Yourtts: к нулевым выстрелу многопрофильных TTS и преобразования голоса с нулевым выстрелом для всех | ICML 2022 | ✔ Код | Демо | Демо | Блог
Сравнительное исследование самоотверженного преобразования голоса, основанного на речи | IEEE JSTSP 2022/07
S3PRL-VC: Структура преобразования голоса с открытым исходным кодом с самоотверженными речевыми представлениями | ICASSP 2022 | ✔ Код
Сравнение дискретных и мягких речевых единиц для улучшения преобразования голоса | ICASSP 2022 | ✔ Код | Демо
Assem VC: Реалистичное преобразование голоса путем сборки современных методов синтеза речи | ICASSP 2022 | ✔ Код | Демо
NVC-NET: сквозное состязательное преобразование голоса | ICASSP 2022 | ✔ Код | Демо
Надежное распущенное вариационное представление речи обучение для преобразования голоса с нулевым выстрелом | ICASSP 2022 | Демо
Обучение надежных моделей преобразования голоса с нулевым выстрелом с самоотверженными функциями | ICASSP 2022 | Демо
На пути к деградации-росту голосовой конверсии | ICASSP 2022
DGC-Vector: новый динамик, внедряющий конверсию голоса с нулевым выстрелом | ICASSP 2022 | Демо
Средний перевод с нулевым выстрелом в стиле голоса с переменными в расположении. 2022/05 | Демо

[ 2021 ]

О моделировании просодии для преобразования голоса на основе ASR+TTS | Asru 2021 | Демо
Нейронный анализ и синтез: реконструкция речи из самоотверженных представлений | Neurips 2021 | Демо | Неофициальный код
MediumVC: Any-to-Voice Conversion с использованием синтетических речей специфических напитков в качестве интермедийных особенностей | 2021/10 | ✔ Код | Демо
Starganv2-VC: разнообразная, неконтролируемая, непараллельная структура для преобразования голоса с естественным звучанием | Interspeech 2021 Best Paper Award | ✔ Код | Демо
S2VC: структура для любого в любом голосовом преобразовании с самоподходящими предварительными представлениями | Interspeech 2021 | ✔ Код | Демо
Основанная на основе голоса. Основанная на основе конвертации голоса с использованием вариационного автоэкодерса | Interspeech 2021 | ✔ Код | Демо
Речь пересекает от дискретных распущенных самоотверженных представлений | Interspeech 2021 | Демо
Улучшение переноса в стиле голоса с нулевым выстрелом с помощью обучения DisEneangled Prevation | ICLR 2021
Передача глобального ритма без текстовых транскрипций | ICML 2021 | ✔ Код
Снова-VC: одноразовое преобразование голоса с использованием руководства активации и нормализации адаптивного экземпляра | ICASSP 2021 | ✔ Код | Демо
В любом случае преобразование голоса с рецидивами по местоположению моделирования последовательности к последовательности | IEEE/ACM TASLP 2021/05 | ✔ Код | Демо

[ 2020 ]

Обзор конверсии голоса и его проблем: от статистического моделирования до глубокого обучения | IEEE/ACM TASLP 2020/11
Неконтролируемое разложение речи через упущенное тройной информации | ICML 2020 | ✔ Код

[ 2019 ]

Одно выстрел преобразование голоса, разделяя динамик и представления контента с нормализацией экземпляра | Interspeech 2019 | ✔ Код
AutoVC: перенос голоса с нулевым выстрелом только с потерей AutoEncoder | ICML 2019 | ✔ Код | Демо

Датчик

CSTR VCTK CORPUS: Английский мульти-динамик корпус для CSTR Voice Cloning Toolkit | 2019 | ? Применить и скачать
Aishell-3: мульти-дипроверенный мандаринский корпус и базовые линии | 2020 | ? Применить и скачать | Демо
Aishell-2: Преобразование исследований мандарина ASR в промышленное масштаб | 2018 | ? Применить и скачать
Aishell-1: речевой корпус с открытым исходным кодом и базовый уровень признания речи | 2017 | ? Применить и скачать

Эмоциональное преобразование голоса

[ 2022 ]

Раскрытие эмоционального стиля и идентичности динамика для выразительного преобразования голоса | Interspeech 2022 | Демо
Перенос эмоций по перекрестному высказыванию на основе компенсации просодии для сквозного синтеза речи | Interspeech 2022 | Демо
Интенсивность эмоций и ее контроль для эмоционального преобразования голоса | IEEE транзакции на аффективных вычислениях 2022/07 | ✔ Код | Демо
Без текстовая речь преобразование эмоций с использованием дискретных и разложенных представлений | 202202 | Демо

[ 2021 ]

Ограниченное эмоциональное преобразование голоса. Использование текста в речь: двухэтапное обучение последовательности к последовательности | Interspeech 2021 | ✔ Код | Демо

[ 2020 ]

Преобразование чьи-то эмоций: в сторону независимого от оратового эмоционального преобразования голоса | Межспика 2020 | ✔ Код | Демо
Преобразование спектра и просодию для эмоциональной конверсии голоса с непараллельными данными обучения | Одиссея 2020 | ✔ Код | Демо

Датчик

Взгляд и невидимый эмоциональный стиль переноса для преобразования голоса с новым набором данных эмоциональной речи | ICASSP 2021 | ? Применить и скачать | Демо

Синтез пения голоса (другие ключевые слова: SVS)

[ 2022 ]

Маскиты: сквозная музыкальная музыкальная обработка для пения синтез голоса | Interspeech 2022 | ✔ Код
Singaug: Увеличение данных для пения голосового синтеза с помощью велосипедной стратегии обучения | Interspeech 2022 | ✔ Код
Уэзингер: Синтез по пению по пению с данными с помощью вспомогательных потерь | Interspeech 2022 | Демо
Wesinger 2: Полностью параллельный синтез по пению голоса через многоуровневое условное тренировку со сдерживанием состязания | 2022/08 | Демо
Подходы глубокого обучения по темам пения обработки информации | IEEE/ACM TASLP 2022/07
Изучение красоты в песнях: Нейронный поющий голос Beautifier | ACL 2022 | ✔ Код | Демо
Diffsinger: петь голосовой синтез с помощью мелкого диффузионного механизма | AAAI 2022 | ✔ Код | Демо

[ 2021 ]

Sinsy: глубокая нейронная сеть, основанная на пении, система синтеза голоса | IEEE/ACM TASLP 2021/08 | ✔ Код

[ 2020 ]

Хифисингер: На пути к высококачественному нейронному пению синтеза голоса | 2020/09 | Демо | Неофициальный код

Датчик

M4Singer: мульти-сингер и музыкальный счет, предоставленный многоцветным пением, поющий корпус | Neurips 2022 | ? Применить и скачать | Демо
Popcs | AAAI 2022 | ? Применить и скачать
OpenCpop: высококачественный китайский популярный корпус с открытым исходным кодом для пения синтез голоса | Interspeech 2022 | ? Применить и скачать

Высококачественный синтез речи (другие ключевые слова: текст в речь, TTS)

[ 2022 ]

Prodiff: Прогрессивная модель быстрой диффузии для высококачественного текста в речь | ACM MM 2022 | ✔ Код | Демо
BDDM: двусторонняя дженовая диффузионная модели для быстрого и высококачественного синтеза речи | ICLR 2022 | ✔ Код | Демо
FASTDIFF: быстрое условное диффузионное модель для высококачественного синтеза речи | IJCAI 2022 | ✔ Код | Демо

Вокадер

[ 2022 ]

Пятнические вокалисты на основе DDSP: новый синтезатор на основе подъема и комплексная оценка | Исмир 2022 | ✔ Код | Демо
FASTDIFF: быстрое условное диффузионное модель для высококачественного синтеза речи | IJCAI 2022 | ✔ Код | Демо
Binauralgrad: двухэтапная вероятностная диффузионная вероятностная модель для бинаурального аудио-синтеза | 2022/05 | Демо

[ 2021 ]

Multi-Singer: Fast Multi-Singer Singer Singe Vocoder с крупномасштабным корпусом | ACM MM 2021 | ? Применить и скачать | ✔ Код | Демо
Wavegrad 2: Итеративное уточнение для синтеза текста в речь | Interspeech 2021 | Демо
Diffwave: универсальная диффузионная модель для синтеза аудио | ICLR 2021 | ✔ Код | Демо
Wavegrad: оценка градиентов для генерации формы волны | ICLR 2021 | Демо

[ 2020 ]

Hifi-Gan: Генеративные состязательные сети для эффективного и высокого синтеза речи и высокой верности | Neurips 2020 | ✔ Код | Демо
Многополосный Мелган: более быстрое генерация формы волны для высококачественного текста в речь | Межспика 2020 | Демо
Parallel Wavegan: модель формирования быстрого сигнала, основанная на генеративных состязательных сетях со спектрограммой с несколькими разрешениями | ICASSP 2020 | Демо | Неофициальный код

[ 2019 ]

Мелган: Генеративные состязательные сети для условного синтеза формы волны | Neurips 2019 | ✔ Код | Демо
К достижению надежного универсального нейронного вокалирования | Interspeech 2019 | ✔ Код | Демо | Неофициальный код

Синтез музыки/синтез музыки

[ 2022 ]

Многоинструментный музыкальный синтез с диффузией спектрограммы | Исмир 2022 | ✔ Код | Демо
Мусика! Быстрое бесконечное генерация музыкальной формы волны | Исмир 2022 | ✔ Код | Демо

Автоматическая музыкальная транскрипция

[ 2022 ]

MT3: мультитрукная музыкальная транскрипция MultiTrack | ICLR 2022 | ✔ Код |

[ 2021 ]

Omnizart: общий набор инструментов для автоматической музыкальной транскрипции | Открытый журнал 2021/12 | ✔ Код | Демо

Самоподобный/неконтролируемый ASR

[ 2022 ]

Unispeech-Sat: Universal Shight Presentation Learning с предварительным обучением Speaker | ICASSP 2022 | ✔ Код | ✔ Код
Компромиссы эффективности в неконтролируемом предварительном обучении для распознавания речи | ICASSP 2022 | ✔ Код | ✔ Код
Псевдо-маркировка для массового многоязычного распознавания речи | ICASSP 2022 | ✔ Код | ✔ Код
Wavlm: крупномасштабная самоотверженная предварительная тренировка для полной обработки речи | IEEE JSTSP 2022/06 | ✔ Код | ✔ Код

[ 2021 ]

XLS-R: самоотверженное кросс-лингальное представление речи в масштабе | 2021/12 | ✔ Код | ✔ Код
Простое и эффективное с нулевым поперечным распознаванием фонем | 2021/09 | ✔ Код | ✔ Код
Тера: самоотверженное изучение представления энкодера трансформатора для речи | IEEE/ACM TASLP 2021/08 | ✔ Код
Unispeech: Объединенное речевое представление с маркированными и немечеными данными | ICML 2021 | ✔ Код | ✔ Код | ✔ Код
Хьюберт: самоотверженное речевое представление, обучение в маскированном прогнозировании скрытых единиц | IEEE/ACM TASLP 2021/06 | ✔ Код | ✔ Код

[ 2020 ]

WAV2VEC 2.0: Структура для самоотверженного изучения речевых представлений | Neurips 2020 | ✔ Код | ✔ Код
VQ-WAV2VEC: самоотверженное изучение дискретных речевых представлений | ICLR 2020 | ✔ Код | ✔ Код
Mockingjay: Обучение неконтролируемому речи с глубокими двунаправленными трансформаторами | ICASSP 2020 | ✔ Код
Неконтролируемое межязычное представление обучение для распознавания речи | 2020/06 | ✔ Код | ✔ Код
Fairseq S2T: быстрое моделирование речи к тексту с Fairseq | AACL 2020 | ✔ Код | ✔ Код

[ 2019 ]

Обучение представления с контрастным прогнозирующим кодированием | 2019/07 | ✔ Код

Автоматический прогноз MOS

[ 2022 ]

Voicemos Challenge 2022 | Межспика 2022

[ 2021 ]

Использование самоотверженных представлений для прогнозирования MOS | Interspeech 2021 | ✔ Код

Увеличение речевых данных

[ 2021 ]

Данные дополняют контрастное изучение речевых представлений во временной области | SLT 2021 | ✔ Код

Речевая вставка

[ 2022 ]

Retrievertts: Моделирование разлагаемых факторов для текстовой вставки речи | Interspeech 2022 | Демо

Улучшение речи

[ 2022 ]

Условная диффузионная вероятностная модель для улучшения речи | ICASSP 2022 | ✔ Код

[ 2021 ]

Исследование улучшения речи на основе диффузионной вероятностной модели | APSIPA 2021

Просодия

[ 2022 ]

Бесплановое генеративное моделирование разговорного языка с просодией | ACL 2022 | ✔ Код | Демо

[ 2021 ]

Речь Берт внедряет для улучшения просодии в нейронных ТТ | ICASSP 2021 | ✔ Код | Демо

Состязательная атака

[ 2021 ]

Защита вашего голоса: состязательный атака на преобразование голоса | SLT 2021 | ✔ Код | Демо

Наборы инструментов

ASR Toolkits

S3PRL Toolkit
Венет

TTS Toolkits

Natspeech: неавторегрессивная структура текста в речь
Coqui.ai tts
ESPNET: инструментарий речевой обработки речевой обработки

Аудио/музыкальная обработка инструментов

Мускус:
nnaudio: обработка аудио с использованием сети свертки Pytorch 1D

Аннотация данных/ выравнивание/ наборы инструментов

Праат: выполнение фонетики на компьютере
Парсельмут - Праат в питоне, Питонический путь
Монреаль заставил выравнивать

Другие рамки и наборы инструментов

? Диффузоры
FAIRSEQ: Facebook AI Research Perquence-To-Sevence Toolkit

Соревнования

Программа преобразования голоса 2020 | ? Применить и скачать | ✔ Код
Blizzard Challenge

Ссылки

Потрясающие документы о синтезе речи речи
Потрясающие проекты документов по преобразованию голоса
TTS Papers
? TTS Papers
Синтез речи
Потрясающие диффузионные модели
Документы с кодом: преобразование голоса
Документы с кодом: пение конверсии голоса
Документы с кодом: синтез по пению голоса
Потрясающий открытый исходный код: преобразование голоса
Список демонстрационных веб -сайтов для автоматических исследований поколения музыки
ICASSP 2021 Paper List VC

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-09-15
размер 8.76KB
От Github

Связанные приложения

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Потрясающая реклама

2022-08-08
GOOGLE VOICE безлимитный интерфейс SMS

2009-11-07