All About Speech

All About Speech

AI Исходный код

1.0.0

Скачать

Все о речи

Этот репозиторий организует документы, учебные материалы, коды для понимания речи. Здесь есть еще один репозиторий для машин/глубокого обучения.

В дос:

Организовать звезды
Добавьте больше документов
- Документы для чтения:
  1. Речь = T: преобразователь для TTS и за его пределами

ТТС

ТТС
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- Microsoft LightSpeech [[Paper]] [Code]
- Речифформер [[Paper]] [CODE]
- Невнимательный такотрон [бумага] [pytorch]
- Parallel Tacotron 2 [[Paper]] [Code]
- FCL-TACO2: быстрая, управляемая и легкая версия Tacotron2 [[Paper]] [CODE]
- Трансформатор TTS: Синтез нейронной речи с сетью трансформаторов [[Paper]] [Код]
- VIT: условное вариационное автоэкодер с состязательным обучением для сквозного текста в речь [[Paper]] [CODE]
- Reformer-TTS (адаптация реформатора к TTS) [код]
TTS на основе быстрого на основе приглашения (см. [Ссылка])
Преобразование голоса / клонирование голоса / встраивание динамика
- Stargan-VC: непараллельное преобразование голоса от многих ко многим со стороны звездных генеративных состязательных сетей [[Paper]] [Code]
- Клонирование нейронного голоса с несколькими образцами аудио (Baidu) [[Paper]] [Code]
- Assem VC: реалистичное преобразование голоса путем сборки современных методов синтеза речи [[[Paper]] [CODE]
- UNET-TTS: улучшение невидимой передачи динамиков и стиля в одноразовом голосовом клонировании [Paper] [Код]
- FragmentVC: Any-To-Oversion Voice путем сквозного извлечения и объединения мелкозернистых голосовых фрагментов с вниманием [[Paper]] [Code]
- VectorquantizedCpc: вектор-квалификационный контрастный прогностический кодирование для обнаружения акустической единицы и преобразования голоса [[Paper]] [Code]
- Котатрон: речевой энкодер, управляемый транскрипцией, для всех ко многим конверсии голоса без параллельных данных [[Paper]] [Code]
- Снова-VC: одноразовое преобразование голоса с использованием руководства активации и нормализации адаптивного экземпляра [[Paper]] [CODE]
- AutoVC: перенос голоса с нулевым выстрелом только с потерей AutoEncoder [[Paper]] [Code]
- SC-Glowtts: эффективная модель текста в речь с несколькими выстрелами [код]
- Глубокий динамик: сквозная система встраивания нейронного оратора [[[Paper]] [Code]
- VQMIVC: One-Shot (Any-To-Any) Voice Overnection [[Paper]] [CODE]
Стиль (эмоция, просодия)
- Smart-TTS Единый эмоциональный TTS [код]
- Перенос эмоций перекрестного динамика [[Paper]] [Код]
- Autopst: передача глобального ритма без текстовых транскрипций [[Paper]] [Code]
- Преобразование спектра и просодию для эмоциональной конверсии голоса с непараллельными данными обучения [[Paper]] [CODE]
- Стилизация нейронной TTS с несколькими ссылками с согласованностью состязательного цикла [[Paper]] [Code]
- Обучение скрытым представлениям для контроля и переноса стиля при синтезе речи с сквозным
- Временная домена Нейронного звука передачи (NIPS 2017) [[Paper]] [CODE]
- Мета-стильпич и стильпии [[Paper]] [Code]
- Перенос эмоций по перекрестному высказыванию на основе нормализации слоя оратора и полуотдепленного обучения в области текста в речь [[Paper]] [Code]
Кросс-лингвальный
- ТТ-переключающие кодовые переключения с моделью перекрестного кода с моделью межзы
  - Мандарин и английский
  - Кросс-лингальные и многопрофильные
  - Базовая линия: «Создание смешанной нейронной системы TTS только с одноязычными данными»
- Создание смешанной нейронной системы TTS только с одноязычными данными
- Обучение переносу, контроль стиля и потери реконструкции динамиков для многоязычного многоязычного многоязычного текста в речь на языках с низким ресурсом
  - имеет много хороших ссылок
- Изучение распутывания с помощью многоязычной и одноязычной VQ-VAE [Paper] [CODE]
Музыка связана
- Изучение красоты в песнях: Neural Singing Voice Beautifier (ACL 2022) [[[Paper]] [Код]
- Речь к пению (межспика 2020) [[Paper]] [Код]
- Diffsinger: поющий голосовой синтез с помощью механизма мелкого диффузии (AAAI 2022) [[Paper]] [CODE]
- Универсальная сеть перевода музыки (ICLR 2019)
- Jukebox: генеративная модель для музыки (OpenAI) [Paper] [Код]
Наборы инструментов
- IMS TOUCAN SHING SYNTHESE Toolkit [Paper] [CODE]
- Креп -трекер [код]
- Speechbrain - Полезные инструменты для облегчения исследования речи [CODE]
Вокадеры
Внимание
- Локальное внимание [код]

Аср

К пониманию сквозного разговорного языка

Классификация речи, обнаружение, фильтр и т. Д.

HTS-AT: иерархический токен-семантский аудио трансформатор для звуковой классификации и обнаружения [[Paper]] [CODE]
Google AI VoiceFilter System [[[Paper]] [Code]
Улучшенное распознавание эмоций речевых эмоций с использованием механизма самообслуживания и многозадачного обучения (Interspeech 2019) [[Paper]] [Code]
Многомодальное распознавание эмоций с помощью самостоятельного слияния функций, основанного на транспорте [[Paper]] [CODE]
Распознавание эмоций от речи с использованием wav2vec 2.0 Enterdings (Interspeech 2021) [[Paper]] [Code]
Изучение WAV2VEC 2.0.
Переосмысление моделей CNN для классификации аудио [[Paper]] [Code]
Распознавание эмоций на основе ЭЭГ с использованием sincnet [[paper]] [code]

Проверка спикера

Крест внимательный объединение для проверки динамиков (IEEE SLT 2021) [[Paper]] [CODE]

Лингвистика

Наборы данных

VGGSOUND: крупномасштабный аудиовизуальный набор данных [[[Paper]] [Код]
CSS10: коллекция речи с одним динамиком для 10 Langauges [Code]
IEMOCAP: 12 часов аудиовизуальных данных с 10 мужчинами и женскими актерами [Веб -сайт]
Voxceleb [Repo]

Увеличение данных

Аудиоменации (быстрое увеличение аудиоданных в Pytorch) [код]

Выравнивания

Монреаль заставил выравнивать

Для корейского [ссылка]

Данные (предварительная) обработка / увеличение

Данные (предварительная) обработка

Корейское произношение и романизация на основе модуля Ko-Pron Lua Wiktionary [Code]
Обработка аудиосигнала [код]
Фонологические особенности (для статьи «Фонологические особенности для многоязычного синтеза речи») [[Paper]] [Код]
SMART-G2P (Изменение выражений английского и кандзи в корейском приговоре в корейское произношение) [Код]
Kakao Grapheme в Phoneme Conversion Package для "Mandarin" [Code]
Webaverse Speech Tool [Код]