Audiolm: подход к языковому моделированию к генерации аудио (2022), Zalán Borsos et al. [PDF]
Audioldm: генерация текста в Аулио с скрытыми диффузионными моделями (2023), Haohe Liu et al. [PDF]
Musiclm: генерирование музыки из текста (2023), Andrea Agostinelli et al. [PDF]
Moûsai: генерация текста в музыку с латентной диффузией с длинным контекстом (2023), Flavio Schneider et al. [PDF]
Noise2music: создание музыки с кондиционированным текстом с диффузионными моделями (2023), Qingqing Huang et al. [PDF]
Введение в применение теории вероятностных функций процесса Маркова к автоматическому распознаванию речи (1982), SE Levinson et al. [PDF]
Подход максимального правдоподобия к непрерывному распознаванию речи (1983), Lalit R. Bahl et al. [PDF]
Гетерогенные акустические измерения и множественные классификаторы для распознавания речи (1986), Эндрю К. Хальберштадт. [PDF]
Максимальная оценка взаимной информации скрытых параметров модели Маркова для распознавания речи (1986), Lalit R. Bahi et al. [PDF]
Учебное пособие по скрытым моделям Маркова и выбранным приложениям по признанию речи (1989), Лоуренс Р. Рабинер. [PDF]
Распознавание фонемы с использованием времени задержки времени (1989), Александр Х. Вайбел и др. [PDF]
Независимое распознавание телефона с использованием Hidden Markov Models (1989), Kai-Fu Lee et al. [PDF]
Скрытые модели Маркова для распознавания речи (1991), BH Juang et al. [PDF]
Обзор архитектуры TDNN (Нейронная сеть задержки) для распознавания речи (2014), Masahide Sugiyamat et al. [PDF]
Коннекционистское распознавание речи: гибридный подход (1994), Herve Bourlard et al. [PDF]
Система постобработки для получения сниженной ставки ошибок слова: сокращение ошибок голосования по признанию (Rover) (1997), JG Fiscus. [PDF]
Распознавание речи с взвешенными датчиками конечных состояний (2001), M Mohri et al. [PDF]
Классификация Framewise Phoneme с двунаправленным LSTM и другими архитектурами нейронной сети (2005), Alex Graves et al. [PDF]
Временная классификация соединения: маркировка не сегментированных данных последовательности с рецидивирующими нейронными сетями (2006), Алекс Грейвс и соавт. [PDF]
Инструментарий распознавания речи Калди (2011), Daniel Povey et al. [PDF]
Применение концепций сверточных нейронных сетей к гибридной модели NN-HMM для распознавания речи (2012), Ossama Abdel-Hamid et al. [PDF]
Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с крупным вокабуляцией (2012), Джордж Э. Дал и соавт. [PDF]
Глубокие нейронные сети для акустического моделирования в распознавании речи (2012), Джеффри Хинтон и соавт. [PDF]
Последовательность трансдукции с повторяющимися нейронными сетями (2012), Alex Graves et al. [PDF]
Глубокие сверточные нейронные сети для LVCSR (2013), Tara N. Sainath et al. [PDF]
Улучшение глубоких нейронных сетей для LVCSR с использованием выпрямленных линейных единиц и отсева (2013), George E. Dahl et al. [PDF]
Улучшение CD-DNN-HMM с низким ресурсом с использованием выпадающих и многоязычных тренировок DNN (2013), Yajie Miao et al. [PDF]
Улучшения в глубоких сверточных нейронных сетях для LVCSR (2013), Tara N. Sainath et al. [PDF]
Парадигмы машинного обучения для распознавания речи: обзор (2013), Li Deng et al. [PDF]
Недавние достижения в области глубокого обучения для исследований речи в Microsoft (2013), Li Deng et al. [PDF]
Распознавание речи с глубокими повторяющимися нейронными сетями (2013), Alex Graves et al. [PDF]
Сетки с глубоким макси -сети для распознавания телефона (2014), László Tóth et al. [PDF]
Разрученные нейронные сети для распознавания речи (2014), Ossama Abdel-Hamid et al. [PDF]
Объединение свертки времени и частотной области в сверточной нейронной сети распознавание телефона (2014), László Tóth. [PDF]
Глубокая речь: масштабирование сквозного распознавания речи (2014), Awni Y. Hannun et al. [PDF]
Среднешнее непрерывное распознавание речи с использованием рецидивирующего NN: First Results (2014), Jan Chorowski et al. [PDF]
Первый проход большой словарной непрерывное распознавание речи с использованием двунаправленных рецидивирующих DNNS (2014), Andrew L. Maas et al. [PDF]
Длинная кратковременная рецидивительная память архитектуры нейронной сети для крупномасштабного акустического моделирования (2014), Хасим Сак и соавт. [PDF]
Надежное распознавание речи на основе CNN с ядрами фильтра Габора (2014), Shuo-Yiin Chang et al. [PDF]
Стохастическое объединение сетей Maxout для распознавания речи с низким ресурсом (2014), Meng Cai et al. [PDF]
На пути к сквозному распознаванию речи с повторяющимися нейронными сетями (2014) Alex Graves et al. [PDF]
Нейронный преобразователь (2015), N Jaitly et al. [PDF]
Основанные на внимании модели для распознавания речи (2015), Jan Chorowski et al. [PDF]
Анализ системы распознавания речи на основе CNN с использованием необработанной речи в качестве входных данных (2015), Dimitri Palaz et al. [PDF]
Свожденная, длинная кратковременная память, полностью связанные глубокие нейронные сети (2015), Tara N. Sainath et al. [PDF]
Глубокие сверточные нейронные сети для акустического моделирования на языках с низким ресурсом (2015), Уильям Чан и соавт. [PDF]
Глубокие нейронные сети для одноканального распознавания речи с несколькими каналами (2015), Chao Weng et al. [PDF]
Eesen: сквозное распознавание речи с использованием глубоких моделей RNN и Decoding на основе WFST (2015), Y Miao et al. [PDF]
Быстрые и точные рецидивирующие акустические модели нейронной сети для распознавания речи (2015), Hasim Sak et al. [PDF]
Без лексикона распознавание разговорной речи с нейронными сетями (2015), Andrew L. Maas et al. [PDF]
Обучение онлайн -последовательности рецидивирующих нейронных сетей с временной классификацией коннекционистов (2015), Kyuyeon Hwang et al. [PDF]
Достижения в области признания речи (2016), Джеффри Цвейг и соавт. [PDF]
Достижения в очень глубоких сверточных нейронных сетях для LVCSR (2016), Tom Sercu et al. [PDF]
Конечно, основанное на внимании, распознавание больших словарных речи (2016), Dzmitry Bahdanau et al. [PDF]
Глубокие сверточные нейронные сети с расширением контекста и вниманием в области слоя (2016), Dong Yu et al. [PDF]
Глубокая речь 2: Признание речи на английском языке и мандарине (2016), Dario Amodei et al. [PDF]
Сквозное, основанное на внимании, распознавание отдаленных речи с LSTM Highway (2016), Хасан Тахериан. [PDF]
Совместное распознавание речи на основе CTC с использованием Multi-Task Learning (2016), Suyoun Kim et al. [PDF]
Слушайте, посещайте и заклинание: нейронная сеть для большого словаря по разговору о распознавании речи (2016), Уильям Чан и соавт. [PDF]
Латентные последовательности разлож (2016), William Chan et al. [PDF]
Моделирование частотных моделей с LSTM против сверточной архитектуры для задач LVCSR (2016), Tara N. Sainath et al. [PDF]
Рецидивирующие модели для слухового внимания при распознавании дистанционной речи с мультимикрофонами (2016), Suyoun Kim et al. [PDF]
Сегментарные повторяющиеся нейронные сети для сквозного распознавания речи (2016), Liang Lu et al. [PDF]
На пути к лучшему декодированию и интеграции языковой модели в последовательности к моделям последовательности (2016), Jan Chorowski et al. [PDF]
Очень глубокие сверточные нейронные сети для шумового распознавания речи (2016), Yanmin Qian et al. [PDF]
Очень глубокие сверточные сети для сквозного распознавания речи (2016), Yu Zhang et al. [PDF]
Очень глубокие многоязычные сверточные нейронные сети для LVCSR (2016), Tom Sercu et al. [PDF]
WAV2LETTER: сквозная система распознавания речи на основе конвнета (2016), Ronan Collobert et al. [PDF]
Внимательная сверточная нейронная сеть, основанная на распознавании эмоций на основе сети: исследование влияния входных особенностей, длины сигнала и действующей речи (2017), Michael Neumann et al. [PDF]
Увеличенная система автоматического распознавания речи для арабского языка (2017), Mohamed Amine Menacer et al. [PDF]
Достижения в совместном CTC-активационном признании сквозного распознавания речи с глубоким CNN Encoder и RNN-LM (2017), Takaaki Hori et al. [PDF]
Сеть глубоких нейронных сетей для отдаленного распознавания речи (2017), Mirco Ravanelli et al. [PDF]
Модель онлайн-последовательности к последовательности для шумного распознавания речи (2017), Chung-Cheng Chiu et al. [PDF]
Неконтролируемый метод кластеризации оратора, основанный на SOM и I-векторах для систем распознавания речи (2017), Hany Ahmed et al. [PDF]
Основанное на внимании сквозное распознавание речи в Мандарине (2017), C Shan et al. [PDF]
Построение акустических моделей DNN для распознавания крупных словарных речей (2017), Andrew L. Maas et al. [PDF]
Прямая акустическая модели для слова для распознавания разговорной речи английского языка (2017), Kartik Audhkhasi et al. [PDF]
Глубокое обучение для экологически надежного распознавания речи: обзор последних разработок (2017), Zixing Zhang et al. [PDF]
Английская разговорная телефонная речь от людей и машин (2017), George Saon et al. [PDF]
ESE: Эффективный двигатель распознавания речи с Sparse LSTM на FPGA (2017), Song Han et al. [PDF]
Изучение улучшения речи с помощью генеративных состязательных сетей для надежного распознавания речи (2017), Chris Donahue et al. [PDF]
Глубокий LSTM для большого словаря непрерывного распознавания речи (2017), Xu Tian et al. [PDF]
Нормализация динамического слоя для адаптивного нейронного акустического моделирования при распознавании речи (2017), Taesup Kim et al. [PDF]
GRAM-CTC: автоматический выбор единиц и разложение цели для маркировки последовательности (2017), Hairong Liu et al. [PDF]
Улучшение производительности моделей нейронных преобразователей онлайн (2017), Tara N. Sainath et al. [PDF]
Учебные фильтры из необработанной речи для распознавания телефона (2017), Neil Zeghidour et al. [PDF]
Многоканальное распознавание речи (2017), Tsubasa Ochiai et al. [PDF]
Многозадачное обучение с CTC и сегментарным CRF для распознавания речи (2017), Liang Lu et al. [PDF]
Многоканальная обработка сигналов с глубокими нейронными сетями для автоматического распознавания речи (2017), Tara N. Sainath et al. [PDF]
Многоязычное распознавание речи с одной сквозной моделью (2017), Shubham Toshniwal et al. [PDF]
Оптимизация ожидаемой частоты ошибок слова с помощью выборки для распознавания речи (2017), Мэтт Шеннон. [PDF]
Остаточные сверточные сети CTC для автоматического распознавания речи (2017), Yisen Wang et al. [PDF]
Остаточный LSTM: дизайн глубокой рецидивирующей архитектуры для отдаленного распознавания речи (2017), Jaeyoung Kim et al. [PDF]
Рецидивирующие модели для слухового внимания при распознавании дистанционных речей с мульти микрофоном (2017), Suyoun Kim et al. [PDF]
Сокращение смещения в производственных речевых моделях (2017), Eric Battenberg et al. [PDF]
Надежное распознавание речи с использованием генеративных состязательных сетей (2017), Anuroop Sriram et al. [PDF]
Современное распознавание речи с моделями последовательности к последовательности (2017), Chung-Cheng Chiu et al. [PDF]
На пути к языковой универсальной признании речи (2017), Suyoun Kim et al. [PDF]
Ускорение рецидивирующей модели языка нейронной сети на основе онлайн -системы распознавания речи (2018), K Lee et al. [PDF]
Улучшенная гибридная модель CTC-Attention для распознавания речи (2018), Zhe Yuan et al. [PDF]
Гибридный CTC-Attention, основанный на сквозном распознавании речи с использованием подразделений (2018), Zhangyu Xiao et al. [PDF]
Опрос: простой метод увеличения данных для автоматического распознавания речи (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: самоотверженное изучение дискретных речевых речевых представлений (2019), Алексей Баевски и соавт. [PDF]
Эффективность самоотверженного предварительного обучения для распознавания речи (2020), Алексей Баевски и соавт. [PDF]
Улучшенная шумная подготовка студентов для автоматического распознавания речи (2020), Даниэль С. Парк и др. [PDF]
Contextnet: улучшение сверточных нейронных сетей для автоматического распознавания речи с глобальным контекстом (2020), Wei Han, et al. [PDF]
Конформатор: свершение-август-трансформер для распознавания речи (2020), Anmol Gulati, et al. [PDF]
При сравнении популярных сквозных моделей для крупномасштабного распознавания речи (2020), Jinyu Li et al. [PDF]
Дополненное контрастное самоподдерживаемое обучение для аудиоинвариатных представлений (2021), Melikasadat Emami et al. [PDF]
Эффективная подготовка аудио трансформаторов с патчетом (2021), Khaled Koutini et al. [PDF]
Mixspeech: увеличение данных для автоматического распознавания речи с низким ресурсом (2021), Linghui Meng et al. [PDF]
Обучение с несколькими экодерными и слиянием потока для сквозного автоматического распознавания речи на основе трансформамеров (2021), Тимо Лориз и соавт. [PDF]
Specaugment ++: Способный метод увеличения космических данных для классификации акустической сцены (2021), Helin Wang et al. [PDF]
Specmix: метод увеличения данных смешанного образца для обучения с функциями частоты во времени (2021), Gwantae Kim et al. [PDF]
История признания речи до 2030 года (2021), Awni Hannun et al. [PDF]
Преобразование голоса может улучшить ASR в условиях очень низкого ресурса (2021), Matthew Baas et al. [PDF]
Почему CTC приводит к пиковому поведению? (2021), Albert Zeyer et al. [PDF]
Сегментер E2E: соединительное сегментирование и декодирование для длинноформы ASR (2022), W. Ronny Huang et al. [PDF]
Разделение источника музыки с генеративным потоком (2022), Ge Zhu et al. [PDF]
Улучшение самоотверженных речевых речевых речевых представлений с помощью ораторов (2022), Kaizhi Qian et al. [PDF]
Надежное распознавание речи посредством крупномасштабного слабого надзора (2022), Alec Radford et al. [PDF]
В архитектуре только декодера для речевой и большой языковой модели интеграции (2023) Jian Wu et al. [PDF]
Проверка динамиков с использованием адаптированных моделей гауссовой смеси (2000), Douglas A.Reynolds et al. [PDF]
Учебное пособие по проверке докладчика, независимого от текста (2004), Frédéric Bimbot et al. [PDF]
Глубокие нейронные сети для проверки докладчиков с небольшим следствием, зависящей от текста (2014), E Variani et al. [PDF]
Глубокие векторы динамиков для полузависимого от полузависимого докладчика (2015), Lantian Li et al. [PDF]
Глубокий оратор: сквозная система встраивания нейронного оратора (2017), Chao Li et al. [PDF]
Глубокая динамика обучения для проверки текста, независимой от динамика (2017), Lantian Li et al. [PDF]
Глубокая проверка динамика: нам нужно конец до конца? (2017), Dong Wang et al. [PDF]
Diarization с LSTM (2017), Quan Wang et al. [PDF]
Проверка докладчиков, независимая от текста с использованием трехмерных сверточных нейронных сетей (2017), Amirsina torfi et al. [PDF]
Текст-независимая от текста проверка динамика с потерей триплета в коротких высказываниях (2017), Chunlei Zhang et al. [PDF]
Глубокая нейронная сеть встраивания для проверки текста, независимой от текста (2017), David Snyder et al. [PDF]
Глубокие дискриминационные встраивания для прочткой проверки спикеров с продолжительностью (2018), Na Li et al. [PDF]
Дискриминационные особенности обучения для выявления и проверки динамиков (2018), Sarthak Yadav et al. [PDF]
Большой маржа Softmax Потеря для проверки динамиков (2019), Yi Liu et al. [PDF]
Неконтролируемое улучшение функций для проверки динамиков (2019), Phani Sankar Nidadavolu et al. [PDF]
Улучшение функций с глубокими потерями функций для проверки динамиков (2019), Saurabh Kataria et al. [PDF]
Обобщенная потери End2end для проверки докладчиков (2019), Li Wan et al. [PDF]
Пространственная пирамида, кодирующая с нормализацией выпуклой длины для проверки динамика, независимой от текста (2019), Youngmoon Jung et al. [PDF]
VoxSRC 2019: первый вызов распознавания спикеров Voxceleb (2019), Son Chung et al. [PDF]
Но описание системы Voxceleb Speaker Challenge 2019 (2019), Hossein Zeinali et al. [PDF]
Описание системы ID R & D для краткосрочной проверки динамиков 2021 (2021), Alenin et al. [PDF]
Конверсия голоса с использованием глубоконаправленных длинных кратковременных памяти рецидивирующих нейронных сетей (2015), Lifa Sun et al. [PDF]
Фонетические задние грамы для преобразования голоса для многих в один без параллельных данных (2016), Lifa Sun et al. [PDF]
Stargan-VC: непараллельное преобразование голоса многих ко многим со стороны звездных генеративных состязательных сетей (2018), Hirokazu Kameoka et al. [PDF]
AutoVC: перенос голоса с нулевым выстрелом только с потерей AutoEncoder (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2: переосмысление условных методов для преобразования голоса на основе Stargan (2019), Takuhiro Kaneko et al. [PDF]
Неконтролируемое сквозное изучение дискретных лингвистических единиц для преобразования голоса (2019), Энди Т. Лю и соавт. [PDF]
Основанный на внимании динамик встраивает одноразовое преобразование голоса (2020), Tatsuma Ishihara et al. [PDF]
F0-согласованная непараллельная непараллельная конверсия голоса с помощью условного автосодора (2020), Kaizhi Qian et al. [PDF]
Непараллельное преобразование голоса, основанное на сантезе распознавания с помощью состязательного обучения (2020), Jing-Xuan Zhang et al. [PDF]
Улучшение Stargan для эмоционального преобразования голоса: улучшение качества голоса и увеличения данных (2021), Xiangheng He et al. [PDF]
Crank: программное обеспечение с открытым исходным кодом для непараллельного преобразования голоса, основанного на векторе-квалифицированном вариационном автосодоре (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: контрастное обучение для непараллельного преобразования голоса (2021), Tingle Li et al. [PDF]
NoiseVC: к высококачественному преобразованию голоса с нулевым выстрелом (2021), Shijun Wang et al. [PDF]
О моделировании просодии для преобразования голоса на основе ASR+TTS (2021), Wen-Chin Huang et al. [PDF]
Starganv2-VC: разнообразная, неконтролируемая, непараллельная структура для преобразования голоса с естественным звучанием (2021), Yinghao Aaron Li et al. [PDF]
Основное преобразование голоса с помощью самоподходящего обучения просодии (2021), Shijun Wang et al. [PDF]
Оценка сигнала из модифицированного кратковременного преобразования Фурье (1993), Даниэль В. Гриффин и соавт. [PDF]
Синтез текста в речь (2009), Пол Тейлор и соавт. [PDF]
Быстрый алгоритм гриффин-лима (2013), Натанаэль Перраудин и соавт. [PDF]
Синтез TTS с двунаправленными рецидивирующими нейронными сетями на основе LSTM (2014), Yuchen Fan et al. [PDF]
Первый шаг к сквозному параметрическому синтезу TTS: генерирование спектральных параметров с нейронным вниманием (2016), Wenfu Wang et al. [PDF]
Последние достижения в Google в реальном времени HMM-управляемого синтезатора подразделения (2016), Xavi Gonzalvo et al. [PDF]
Samplernn: безоговорочная модель генерации нервного звука (2016), Soroush Mehri et al. [PDF]
Wavenet: генеративная модель для Raw Audio (2016), Aäron van den Oord et al. [PDF]
Char2wav: Стоинный синтез речи (2017), J Sotelo et al. [PDF]
Глубокий голос: Нейронный текст в реальном времени (2017), Sercan O. Arik et al. [PDF]
Глубокий голос 2: мульти-динамик нейронного текста в речь (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000 Speaker Text Toxt-Speek (2017), Wei Ping et al. [PDF]
Природный синтез TTS путем кондиционирования Wavenet на предсказаниях спектрограммы MEL (2017), Jonathan Shen et al. [PDF]
Параллельная волна: быстрый синтез речи с высокой точностью (2017), Аарон Ван Ден Оорд и соавт. [PDF]
Статистический параметрический синтез речи с использованием генеративных состязательных сетей в рамках многозадачного обучения (2017), S Yang et al. [PDF]
Tacotron: На пути к синтезу речи (2017), Yuxuan Wang et al. [PDF]
Раскрытие факторов скрытого стиля для выразительного синтеза речи (2017), Yuxuan Wang et al. [PDF]
VoiceLoop: голосовая подгонка и синтез через фонологическую петлю (2017), Yaniv Taigman et al. [PDF]
Clarinet: Parallel Wave Generation в сквозном тексту в речь (2018), Wei Ping et al. [PDF]
Глубокие последовательные сети памяти для речевого синтеза (2018), Mengxiao Bi et al. [PDF]
LPCNet: улучшение синтеза нейронной речи за счет линейного прогноза (2018), Jean-Marc Valin et al. [PDF]
Изучение скрытых представлений для контроля и переноса стиля в синтезе речи с сквозным [PDF]
Клонирование нейронного голоса с несколькими образцами (2018), Sercan O. Arık et al. [PDF]
Прогнозирование выразительного стиля разговора из текста в сквозном синтезе речи (2018), Daisy Stanton et al. [PDF]
Стиль токены: неконтролируемое моделирование стиля, управление и передача в сквозном синтезе речи (2018), Y Wang et al. [PDF]
На пути к сквозной просодии для выразительного синтеза речи с Tacotron (2018) RJ Skerry-Ryan et al. [PDF]
Durian: Продолжительность информировала сеть внимания для мультимодального синтеза (2019), Chengzhu Yu et al. [PDF]
Быстрая инверсия спектрограммы с использованием многопомодных сверточных нейронных сетей (2019), Sö Arık et al. [PDF]
Fastspeech: быстрый, надежный и управляемый текст к речи (2019), Yi Ren et al. [PDF]
Учимся свободно говорить на иностранном языке: многоязычный синтез речи и кросс-языковое клонирование голоса (2019), Yu Zhang et al. [PDF]
Melnet: генеративная модель для аудио в частотной области (2019), Sean Vasquez et al. [PDF]
Синтез речи с мультигадацией (2019), Jihyun Park et al. [PDF]
Мелган: Генеративные состязательные сети для условного синтеза формы волны (2019), Kundan Kumar et al. [PDF]
Синтез нейронной речи с сетью Transformer (2019), Naihan Li et al. [PDF]
Параллельный нервный текст в речь (2019), Kainan Peng et al. [PDF]
Предварительно обученные текстовые представления для улучшения обработки текста в фронте в синтезе текста в речь мандарин (2019), Bing Yang et al. [PDF]
Parallel Wavegan: модель быстрого генерации формы волны, основанная на генеративных состязательных сетях со спектрограммой с несколькими разрешениями (2019), Ryuichi Yamamoto et al. [PDF] Это выходит в то же время, что и Мелган, в то время как никто не относится друг к другу ... кроме того, я думаю, что гауссовый шум не нужен, так как Melspec имеет очень сильную информацию.
Проблема-агрессическая речь встраивание для мульти-динамики текста в речь с Samplernn (2019), David Alvarez et al. [PDF]
Надежное акустическое моделирование последовательности к последовательности с пошаговым монотонным вниманием к нейронным TTS (2019), Mutian He et al. [PDF]
На пути к передаче обучения для сквозного синтеза речи из глубоких предварительно обученных языковых моделей (2019), Wei Fang et al. [PDF]
Передача обучения от проверки динамиков в синтез текста в речь Multipeaker (2019), Ye Jia et al. [PDF]
Волновое сообщение: модель на основе компактного потока для RAW Audio (2019), Wei Ping et al. [PDF]
Волновой склад: генеративная сеть на основе потока для синтеза речи (2019), R Prenger et al. [PDF]
Aligntts: Эффективная система подачи текста в речь без явных выравниваний (2020), Zhen Zeng et al. [PDF]
Boffin TTS: адаптация с несколькими высказываниями байесовской оптимизацией (2020), Генри Б.Мосс и соавт. [PDF]
Сгруппированный LPCNet: Vocoder для недорогих систем с нейронным текстом в речь (2020), Ravichander Vipperla et al. [PDF]
Подражание: многозернистая просодия для многозернистой просодии для нейронной текста в речь (2020), Шри Карлапати и соавт. [PDF]
Эффективные ЗА: Эффективная и высококачественная архитектура текста в речь (2020), Chenfeng Miao et al. [PDF]
Сквозное состязательное текст в речь (2020), Jeff Donahue et al. [PDF]
Fastspeech 2: Быстрый и высококачественный сквозной текст к речи (2020), Yi Ren et al. [PDF]
Flowtron: Генеративная сеть на основе авторегрессии на основе потока для синтеза текста в речь (2020), Rafael Valle et al. [PDF]
Flow-TTS: неавторегрессивная сеть для текста к речи на основе потока (2020), Chenfeng Miao et al. [PDF]
Полностью иерархическое мелкозернистое моделирование просодии для интерпретируемого синтеза речи (2020), Guangzhi Sun et al. [PDF]
Генерируя разнообразные и натуральные образцы текста в речь с использованием квантового мелкозернистого VAE и ауторегрессивного просодию до (2020), Guangzhi Sun et al. [PDF]
Glow-TTS: генеративный поток для текста в речь с помощью монотонного поиска выравнивания (2020), Jaehyeon Kim et al. [PDF]
Hifi-Gan: Генеративные состязательные сети для эффективного и высокого синтеза речи (2020), Jungil Kong et al. [PDF]
Относительные механизмы внимания для надежного длинноформного речи Синтезы (2020), Эрик Баттенберг и соавт. [PDF]
Multipleth: Multi-Speaker Text to Speech с трансформатором (2020), Mingjian Chen et al. [PDF]
Параллельный такотрон: неавторегрессивный и контролируемый ТТ (2020), Исаак Элиас и соавт. [PDF]
Robutrans: надежная модель текста в речь на основе трансформатора (2020), Naihan Li et al. [PDF]
Текстовая проверка динамиков с сетью с двойным вниманием (2020), Jingyu Li et al. [PDF]
Wavegrad: оценка градиентов для генерации формы волны (2020), Nanxin Chen et al. [PDF]
Adaspeech: адаптивный текст к речи для пользовательского голоса (2021), Mingjian Chen et al. [PDF]
Обзор синтеза нейронной речи (2021), Xu Tan et al. [PDF]
Поточный вокадер Gan для широкополосного речевого кодирования с очень низкой скоростью бита (2021), Ahmed Mustafa et al. [PDF]
Контролируемая передача эмоций по перекрестному динамике для сквозного синтеза речи (2021), Tao Li et al. [PDF]
Клонирование голоса, используя очень ограниченные данные в дикой природе (2021), Dongyang Dai et al. [PDF]
Условный вариационный автоэкодер с состязательным обучением для сквозного текста в речь (2021), Jaehyeon Kim et al. [PDF]
Diffwave: универсальная диффузионная модель для синтеза аудио (2021), Zhifeng Kong et al. [PDF]
Diff-TTS: модель денорирующей диффузии для текста в речь (2021), Myeonghun Jeong et al. [PDF]
Восхититель: система синтеза речи Microsoft для Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
FRE-GAN: состязательный частотный синтез аудио (2021), Ji-Hoon Kim et al. [PDF]
Полнополосный LPCNet: нейронный вокадер в реальном времени для аудио 48 кГц с процессором (2021), Keisuke Matsubara et al. [PDF]
GRAD-TTS: вероятностная диффузионная модель для текста в речь (2021), Vadim Popov et al. [PDF]
Glow-Wavegan: Учебные речи речевые представления от вариационного автосодера на основе GAN для синтеза речи на основе потока высокой верности (2021), Jian Cong et al. [PDF]
Высококачественная и низкая задержка универсального нейронного вокадера на основе мультибанд Wavernn с линейным прогнозом, управляемым данными для дискретного моделирования формы волны (2021), Patrick Lumban Tobing et al. [PDF]
Иерархическое моделирование просодии для неавторегрессивного синтеза речи (2021), Чунг-Мин Чиен и соавт. [PDF]
Itoˆtts и Itoˆwave: линейное стохастическое дифференциальное уравнение - это все, что вам нужно для генерации звука (2021), Shoule Wu et al. [PDF]
Самолеты: совместное обучение Fastspeech2 и Hifi-Gan для окончания текста к речи (2021), Dan Lim et al. [PDF]
Мета-голос: быстрый трансфер в стиле для выразительного клонирования голоса с использованием Meta Learning (2021), Songxiang Liu et al. [PDF]
Нейронные HMM-это все, что вам нужно (для высококачественных TTS без внимания) (2021), Shivam Mehta et al. [PDF]
Нейронное изменение высоты тона и растяжение времени с контролируемым LPCNet (2021), Max Morrison et al. [PDF]
Одно выравнивание TTS, чтобы править их всеми (2021), Rohan Badlani et al. [PDF]
Каратунер: к концу до конца коррекция естественной подачи для пения в караоке (2021), Сяобин Чжуан и соавт. [PDF]
Png Bert: Augmented Bert на фонемах и графемах для нейронных TTS (2021), Ye Jia et al. [PDF]
Параллельный такотрон 2: неавторегрессивная нейронная модель TTS с дифференцируемой моделированием продолжительности (2021), Isaac Elias et al. [PDF]
Portaspeech: портативный и высококачественный генеративный текст в речь (2021), Yi Ren et al. [PDF]
Акустическое моделирование на основе трансформатора для потокового синтеза речи (2021), Chunyang Wu et al. [PDF]
Triple M: практическая система нейронного текста в речь с многократным вниманием и многопользовательским LPCNet (2021), Shilun Lin et al. [PDF]
Talknet 2: неавторегрессивная глубина, разделяемая сверточная модель для синтеза речи с явным прогнозом высоты и продолжительности (2021), Stanislav Beliaev et al. [PDF] TalkNet2 имеет незначительную разницу от Talknet, поэтому я не включаю Talknet здесь.
На пути к многомасштабному контролю стиля для выразительного синтеза речи (2021), Сян Ли и др. [PDF]
Unified Source-Filter GAN: объединенная сеть исходных фильтра, основанная на факторизации квазипериодического параллельного волны (2021), Reo Yoneyama et al. [PDF]
Yourtts: На пути к многопрофильным TTS и преобразованию голоса с нулевым выстрелом для всех (2021), Edresson Casanova et al. [PDF]
Avocodo: Генеративная состязательная сеть для не содержащего артефакта Vocoder (2022), Taejun Bak et al. [PDF]
Обучение состязационному соглашению о договоренности с использованием неперечисленных данных речевых речевых речевых речевых данных для многопрофильного текста в речь с нулевым выстрелом (2022), Byoung Jin Choi et al. [PDF]
Сгруппированный LPCnet2: Эффективные нейронные вокалу, покрывающие устройства от облака до края (2022), Sangjun Park et al. [PDF]
Передача эмоций по перекрестному динамике для текста с низким ресурсом в речь с использованием непараллельного преобразования голоса с увеличением данных сдвига тона (2022), Ryo Terashima et al. [PDF]
FASTDIFF: быстрое условная диффузионная модель для высококачественного синтеза речи (2022), Rongjie Huang et al. [PDF]
Fast Grad-TTS: к эффективному генерации речи на основе диффузии на процессоре (2022), Иван Vovk et al. [[pdf]
Glow-Wavegan 2: высококачественный с нулевым выстрелом синтез текста в речь и преобразование голоса (2022), Yi Lei et al. [PDF]
Hifi ++: унифицированная структура для нейронного вокана, расширения полосы пропускания и улучшения речи (2022), Pavel Andreev et al. [PDF]
IQDubbing: моделирование просодии на основе дискретного самоотверженного речевого представления для выразительного преобразования голоса (2022), Wendong Gan et al. [PDF]
ISTFTnet: Быстрый и легкий Mel-Spectrogram Vocoder, включающий обратный короткий преобразование Фурье (2022), Takuhiro Kaneko et al. [PDF]
Легкий и высокая точная конечная сквозная текст в речь с многополосной генерацией и обратным кратковременным преобразованием Фурье (2022), Masaya Kawamura et al. [PDF]
Синтез нейронной речи на ограничивающихся случаях: повышение эффективности LPCNet (2022), Jean-Marc Valin et al. [PDF]
Nansy ++: единый голосовой синтез с нейронным анализом и синтезом (2022), Hyeong-seok Choi et al. [PDF]
Предварительнаяграда: улучшение условных денозиционных диффузионных моделей с помощью данных, зависящих от данных, адаптивного предварительного предыдущего (2022), Sang-Gil Lee et al. [PDF]
Приглашения: контролируемый текст в речь с описаниями текста (2022), Zhifang Guo et al. [PDF]
SANE-TTS: стабильный и естественный сквозный многоязычный текст в речь (2022), Hyunjae Cho et al. [PDF]
Улучшение нейронной речи STFT-домен с очень низкой алгоритмической латентностью (2022), Zhong-Qiu Wang et al. [PDF]
Простой и эффективный неконтролируемый синтез речи (2022), Александр Х. Лю и соавт. [PDF]
Specgrad: диффузионный вероятный нейронный вокадер на основе модели с адаптивной спектральной формированием шума (2022), Yuma Koizumi et al. [PDF]
Filter-Filter Hifi-Gan: быстро и управляемый высокой тона, нейронный вокадер (2022), Reo Yoneyama et al. [PDF]
Trinitts: контролируемый тоном сквозного TTS без внешнего выравнивателя (2022), Yoon-Cheol Ju et al. [PDF]
Поперечный перенос с нулевым выстрелом с использованием многопоточного кодера и эффективного представления динамиков (2022), Yibin Zheng et al. [PDF]
Инструктивы: моделирование выразительных TTS в дискретном скрытом пространстве с приглашением в стиле естественного языка (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: быстрая архитектура TTS с условным сопоставлением потока (2023), Shivam Mehta et al. [PDF]
Мега-TTS: с нулевым выстрелом текст в речь в масштабе с внутренним индуктивным смещением (2023), Ziyue Jiang et al. [PDF]
Mega-TTS 2: с нулевой выставкой текст в речь с произвольной длиной речи (2023), Ziyue Jiang et al. [PDF]
Классовые модели N-грамма Natural Language (1992), Peter F. Brown et al. [PDF]
Эмпирическое исследование методов сглаживания для языкового моделирования (1996), Стэнли Ф. Чен и соавт. [PDF]
Нейронная вероятностная языковая модель (2000), Yoshua Bengio et al. [PDF]
Новый статистический подход к китайскому входу пиньина (2000), Zheng Chen et al. [PDF]
Дискриминационное моделирование языка N-грамма (2007), Brian Roark et al. [PDF]
Модель языка нейронной сети для китайского двигателя ввода пиньина (2015), S Chen et al. [PDF]
Эффективное обучение и оценка рецидивирующих моделей языка нейронной сети для автоматического распознавания речи (2016), Xie Chen et al. [PDF]
Изучение пределов языкового моделирования (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]