DailyTalk Download - DailyTalk Source Code Скачать

DailyTalk

AI Исходный код

v0.1.0

Скачать

DailyTalk: разговорной набор данных диалога для разговорного текста в речь

Кеон Ли ^* , Kyumin Park ^* , Daeyoung Kim

В нашей статье мы представляем DailyTalk, высококачественный набор данных разговорной речи, предназначенный для текста в речь.

Аннотация: Большинство текущих наборов данных текста в речь (TTS), которые представляют собой коллекции отдельных высказываний, содержат несколько разговорных аспектов. В этой статье мы вводим DailyTalk, высококачественный набор данных разговорной речи, предназначенный для разговорных TTS. Мы отобрали, модифицировали и записали 2541 диалогов из набора данных диалога с открытым доменом DailyDialog, наследуя его аннотированные атрибуты. Помимо нашего набора данных, мы расширяем предыдущую работу в качестве нашей базовой линии, где неавторегрессивный TTS обусловлен исторической информацией в диалоге. Из базового эксперимента как с General, так и с нашими новыми метриками мы показываем, что DailyTalk можно использовать в качестве общего набора данных TTS, и, более того, наш базовый уровень может представлять контекстную информацию из DailyTalk. Набор данных DailyTalk и базовый код свободно доступны для академического использования с лицензией CC-By-SA 4.0.

Набор данных

Вы можете скачать наш набор данных. Пожалуйста, обратитесь к статистическим деталям для деталей.

Предварительные модели

Вы можете скачать наши предварительные модели. Есть два разных каталога: 'storial_none' и 'stirory_guo'. Первый не имеет исторических кодировки, так что это не разговорная модель контекста. Последнее имеет исторические кодирования после разговорных сквозных TTS для голосового агента (Guo et al., 2020).

Переключить тип истории

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

QuickStart

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Кроме того, Dockerfile предоставлен для пользователей Docker .

Вывод

Вы должны скачать оба нашего набора данных. Загрузите предварительные модели и поместите их в output/ckpt/DailyTalk/ . Также Unzip generator_LJSpeech.pth.tar или generator_universal.pth.tar в папке Hifigan. Модели обучаются с моделированием неконтролируемой продолжительности в рамках строительного блока трансформатора и типами кодировки истории.

Только пакетный вывод поддерживается, поскольку генерация поворота может нуждаться в контекстной истории разговора. Пытаться

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

Чтобы синтезировать все высказывания в preprocessed_data/DailyTalk/val_*.txt .

Обучение

Предварительная обработка

Для Multi-Speaker TTS с внешним динамиком Embedder загрузите Rescnn Softmax+триплетный предварительно предварительно предварительно проведенный модели DeepSpeaker Филипперей для динамика, внедряющего его и найдите его в ./deepspeaker/pretrained_models/ . Обратите внимание, что наши предварительные модели не обучены этим (они обучены speaker_embedder: "none" ).
Бегать
```
 python3 prepare_align.py --dataset DailyTalk
```
для некоторых приготовлений.
Для принудительного выравнивания Монреаль принудительный выравниватель (MFA) используется для получения выравнивания между высказываниями и последовательностями фонем. Предварительные выравнивания для наборов данных представлены здесь. Вы должны расстегнуть разанипировать файлы в preprocessed_data/DailyTalk/TextGrid/ . С другой стороны, вы можете запустить выравниватель самостоятельно. Обратите внимание, что наши предварительные модели не обучены моделированию контролируемой продолжительности (они обучены learn_alignment: True ).
После этого запустите сценарий предварительной обработки
```
 python3 preprocess.py --dataset DailyTalk
```

Обучение

Тренировать свою модель с

 python3 train.py --dataset DailyTalk

Полезные варианты:

Чтобы использовать автоматическую смешанную точность, добавьте аргумент --use_amp к вышеуказанной команде.
Тренер предполагает, что однокно-мульти-GPU обучение. Чтобы использовать конкретные графические процессоры, укажите CUDA_VISIBLE_DEVICES=<GPU_IDs> в начале вышеуказанной команды.

Тенсорборд

Использовать

 tensorboard --logdir output/log

Подавать в Tensorboard на вашем местном хосте. Кривые потерь, синтезированные мель-спектрограммы и аудио показаны.

Примечания

Стильное встраивание используется в качестве стиля-типа для дисперсии уровня фонемы в неконтролируемой продолжительности моделирования. В противном случае, встраивание на основе ведра используется как Fastspeech2.
Моделирование неконтролируемой продолжительности на уровне фонем займет больше времени, чем на уровне кадра, поскольку дополнительное вычисление дисперсии на уровне фонем активируется во время выполнения.
Два варианта внедрения для настройки Multi-Speaker TTS : обучающий динамик Embedder с нуля или использование предварительно обученной модели DeepSpeaker от Philipperemy (как это сделал Styler). Вы можете переключить его, установив конфигурацию (между 'none' и 'DeepSpeaker' ).
Для Vocoder Hifi-Gan используется для всех экспериментов в нашей статье.

Цитирование

Если вы хотите использовать наш набор данных и код или обратитесь к нашей статье, укажите следующее.

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}

Лицензия

Эта работа лицензирована по международной лицензии Creative Commons Attribution-Sharealike 4.0.

Ссылки

Keonlee9420's Styler
Keonlee9420's Express-Fastspeech2
Keonlee9420's Complete-Transformer-TTS

Расширять

Дополнительная информация

Версия v0.1.0
Тип AI Исходный код
Время обновления 2025-08-20
размер 104.71MB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

DailyTalk

DailyTalk: разговорной набор данных диалога для разговорного текста в речь

Кеон Ли ^* , Kyumin Park ^* , Daeyoung Kim

Набор данных

Предварительные модели

QuickStart

Зависимости

Вывод

Обучение

Предварительная обработка

Обучение

Тенсорборд

Примечания

Цитирование

Лицензия

Ссылки

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

DailyTalk

DailyTalk: разговорной набор данных диалога для разговорного текста в речь

Кеон Ли * , Kyumin Park * , Daeyoung Kim

Набор данных

Предварительные модели

QuickStart

Зависимости

Вывод

Обучение

Предварительная обработка

Обучение

Тенсорборд

Примечания

Цитирование

Лицензия

Ссылки

Кеон Ли ^* , Kyumin Park ^* , Daeyoung Kim