Cross Speaker Emotion Transfer

Cross Speaker Emotion Transfer

AI Исходный код

v0.2.0

Скачать

Перекрестный эмоциональный трансфер-внедрение Pytorch

Реализация Pytorch перекрестной передачи эмоций Bytedance на основе нормализации слоя спикера и полупроницаемой тренировки по тексту в речь.

Аудио Образцы

Образцы аудио доступны в /демо.

QuickStart

Набор данных относится к именам наборов данных, таких как RAVDESS в следующих документах.

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Кроме того, установите Fairseq (официальный документ, GitHub), чтобы использовать LConvBlock . Пожалуйста, проверьте здесь, чтобы решить любую проблему при его установке. Обратите внимание, что Dockerfile предоставлен для пользователей Docker , но вам нужно установить Fairseq вручную.

Вывод

Вы должны загрузить предварительно подготовленные модели и поместить их в output/ckpt/DATASET/ .

Чтобы извлечь токены мягких эмоций из эталонного звука, запустите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

Или, чтобы использовать жесткие токены эмоций из идентификатора эмоций, бегите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Словарь ученых докладчиков можно найти на preprocessed_data/DATASET/speakers.json output/result/

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Чтобы синтезировать все высказывания в preprocessed_data/DATASET/val.txt . Обратите внимание, что в этом режиме поддерживаются только тяжелые жетоны эмоций от данного идентификатора эмоций.

Обучение

Наборы данных

Поддерживаемые наборы данных

Равдесс: Эта часть Ravdess содержит 1440 файлов: 60 испытаний на одного актера x 24 актеров = 1440. Равдесса содержит 24 профессиональных актеров (12 женщин, 12 мужчин), вызывая два лексически сопоставленных заявления в нейтральном североамериканском акценте. Речевые эмоции включают в себя спокойные, счастливые, грустные, злые, страшные, сюрприз и отвращение. Каждое выражение вырабатывается на двух уровнях эмоциональной интенсивности (нормальная, сильная), с дополнительным нейтральным выражением.

Ваш собственный язык и набор данных могут быть адаптированы здесь.

Предварительная обработка

Для Multi-Speaker TTS с внешним динамиком Embedder загрузите Rescnn Softmax+триплетный предварительно предварительно предварительно проведенный модели DeepSpeaker Филипперей для динамика, внедряющего его и найдите его в ./deepspeaker/pretrained_models/ .
Бегать
```
 python3 prepare_align.py --dataset DATASET
```
для некоторых приготовлений.
Для принудительного выравнивания Монреаль принудительный выравниватель (MFA) используется для получения выравнивания между высказываниями и последовательностями фонем. Предварительные выравнивания для наборов данных представлены здесь. Вы должны расстегнуть разанипировать файлы в preprocessed_data/DATASET/TextGrid/ . С другой стороны, вы можете запустить выравниватель самостоятельно.
После этого запустите сценарий предварительной обработки
```
 python3 preprocess.py --dataset DATASET
```

Обучение

Тренировать свою модель с

 python3 train.py --dataset DATASET

Полезные варианты:

Чтобы использовать автоматическую смешанную точность, добавьте аргумент --use_amp к вышеуказанной команде.
Тренер предполагает, что однокно-мульти-GPU обучение. Чтобы использовать конкретные графические процессоры, укажите CUDA_VISIBLE_DEVICES=<GPU_IDs> в начале вышеуказанной команды.

Тенсорборд

Использовать

 tensorboard --logdir output/log

Подавать в Tensorboard на вашем местном хосте. Кривые потерь, синтезированные мель-спектрограммы и аудио показаны.

Примечания

Текущая реализация не обучена полупроницаемой способом из-за небольшого размера набора данных. Но это может быть легко активировано путем указания целевых динамиков и не передавая никаких эмоций без потери классификатора эмоций.
В декодере вместо 17 x 1 используется блок 15 x 1 LConv из -за проблем с памятью.
Два варианта внедрения для настройки Multi-Speaker TTS : обучающий динамик Embedder с нуля или использование предварительно обученной модели DeepSpeaker от Philipperemy (как это сделал Styler). Вы можете переключить его, установив конфигурацию (между 'none' и 'DeepSpeaker' ).
DeepSpeaker на наборе данных Ravdess показывает четкую идентификацию среди ораторов. На следующем рисунке показан график T-SNE извлеченного динамика.