Загрузка End to End TTS Fine Tune

End to End TTS Fine Tune

AI Исходный код

1.0.0

Скачать

Тон-до TTS Fine-Tune

Введение

Этот проект направлен на разработку системы TTS « помощника искусственного интеллекта для пожилых людей ». Вы можете создать помощника по искусственному интеллекту с голосом семьи или друзей и любовников всего 5 минут голосовой записи.
Чтобы справиться с динамиком ИИ, который требует поколения в реальном времени, мы приняли неавторегрессивную акустическую модель FASTSPE2 и модель Vocoder на основе GAN Hifi-Gan для рассмотрения качества и скорости производства.
Дополнительные обычаи были выполнены для повышения производительности многопрофильных.
Этот репозиторий настроен для простого выполнения процесса обучения и создания путем использования сценария оболочки для настройки D-Vector Multi Discher Fastspeech2 и модели Hifi-Gan, чтобы разрешить тонкую настройку.
Чтобы предоставить реальные TTS в приложении, используйте FASTAPI для настройки сервера и ссылки с бэкэнд.

Цель проекта

Acoustic-Fastspeech2 (обычай)
Разумная производительность путем использования переноса обучения для персонализации с небольшими объемами данных
Предоставьте API, которые могут быть созданы с точной настройкой в корейских наборах данных в режиме реального времени

Набор данных

Согласно fine_tune_transcript.txt, которая принадлежит папке набора данных, запишите 100 предложений с номером с смартфоном и преобразование файла M4A в файл wav со скоростью выборки 16000. (FFMPEG)

Как показано на рисунке, 100 преобразованных файлов WAV добавляются в вашу начальную папку.

Вклад

Модель модели модификации в соответствии с тонкой настройкой
- Модификация и интеграция Fastspeech2 и Hifi-Gan
- Набор данных, CKPT и каталог результатов делятся на каталог верхнего уровня на DataSet
Легкая препроцесс, поезда, синтез через сценарий оболочки
- Изменив каталог наборов данных
Обеспечить уникальное изображение Docker
- Предоставьте изображения, которые можно выполнить немедленно без добавления сложных дополнительных пакетов зависимостей
- Импортировать последнее изображение через ссылку Docker Hub

Предыдущие работы

Он соответствует названию файла Fastspeech2 и Hifi-Gan, предварительно обученной CKPT и сохраняет его в каждой модели.
(Fastspeech2: 30 000 шаг
Для обучения и синтеза мы загружаем и выполняем изображения Docker, которые содержат все зависимые пакеты.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_preprocessing.sh Шаги подключены к Docker с командой Conda и устанавливает пакет Python Jamo.
```
 conda activate aligner
pip install jamo
```
Конец виртуальной среды для выполнения run_fs2_train или синтеза.
```
 conda activate base
```

Предварительная обработка

Если вы встретите все вышеперечисленные элементы, запустите сценарий оболочки, чтобы извлечь MFA.
```
 sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

Тренироваться

Успешно создает TextGrid для выхода из виртуальной среды и запуска сценария обучения.
```
 sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```
При завершении Fastspeech2 5000 Step Learning запустите сценарий Hifi-Gan.
```
 sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```

Синтезировать

Когда модель, изученная в папке CKPT, готова, запустите сценарий для синтеза.
```
 sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
```