Все о речи
Этот репозиторий организует документы, учебные материалы, коды для понимания речи. Здесь есть еще один репозиторий для машин/глубокого обучения.
В дос:
- Организовать звезды
- Добавьте больше документов
- Документы для чтения:
- Речь = T: преобразователь для TTS и за его пределами
ТТС
Аср
- К пониманию сквозного разговорного языка
Классификация речи, обнаружение, фильтр и т. Д.
- HTS-AT: иерархический токен-семантский аудио трансформатор для звуковой классификации и обнаружения [[Paper]] [CODE]
- Google AI VoiceFilter System [[[Paper]] [Code]
- Улучшенное распознавание эмоций речевых эмоций с использованием механизма самообслуживания и многозадачного обучения (Interspeech 2019) [[Paper]] [Code]
- Многомодальное распознавание эмоций с помощью самостоятельного слияния функций, основанного на транспорте [[Paper]] [CODE]
- Распознавание эмоций от речи с использованием wav2vec 2.0 Enterdings (Interspeech 2021) [[Paper]] [Code]
- Изучение WAV2VEC 2.0.
- Переосмысление моделей CNN для классификации аудио [[Paper]] [Code]
- Распознавание эмоций на основе ЭЭГ с использованием sincnet [[paper]] [code]
Проверка спикера
- Крест внимательный объединение для проверки динамиков (IEEE SLT 2021) [[Paper]] [CODE]
Лингвистика
Наборы данных
- VGGSOUND: крупномасштабный аудиовизуальный набор данных [[[Paper]] [Код]
- CSS10: коллекция речи с одним динамиком для 10 Langauges [Code]
- IEMOCAP: 12 часов аудиовизуальных данных с 10 мужчинами и женскими актерами [Веб -сайт]
- Voxceleb [Repo]
Увеличение данных
- Аудиоменации (быстрое увеличение аудиоданных в Pytorch) [код]
Выравнивания
- Монреаль заставил выравнивать
Данные (предварительная) обработка / увеличение
- Данные (предварительная) обработка
- Корейское произношение и романизация на основе модуля Ko-Pron Lua Wiktionary [Code]
- Обработка аудиосигнала [код]
- Фонологические особенности (для статьи «Фонологические особенности для многоязычного синтеза речи») [[Paper]] [Код]
- SMART-G2P (Изменение выражений английского и кандзи в корейском приговоре в корейское произношение) [Код]
- Kakao Grapheme в Phoneme Conversion Package для "Mandarin" [Code]
- Webaverse Speech Tool [Код]
Проверка
- McD [Repo]
- Код работает, но я не уверен, правильно ли это. Числа MCD слишком высоки даже для пар подобных аудио.
Другое исследование, которое может помочь
- Синтез текста в изображение
- Audiomae (AutoEncoders в маске, которые слушают) [код]
Организации
- DeepMind [Repo]
- Openai [Repo]
- Клубный дом: Weeklyarxivtalk [Repo]
Другие репозитории для обозначения - речь!
- Список исследователей речи [Repo]
- Джексон-Канг [Репо]
- ML ROBINATY [Repo]
- Ivallesp's [Repo]
- Ddlbojack's Speech Pretringaing [Repo]
- Передача стиля Fuzhenxin в тексте [Repo]
Учебные материалы
- Цифровая лекция по обработке сигналов [ссылка]
- Сночарная книжка Ratsgo [ссылка]
- Курс YSDA по обработке речи [код]
- NHN пересылать видео на YouTube [ссылка]