shanghainese tts скачать - shanghainese tts Source Code скачать

shanghainese tts

AI Исходный код

2023.06.06

Скачать

Шангхайский тт

Dartmouth Ling 48 Финальный проект: улучшение TTS для Shanghainese
Yuanhao Chen [email protected] Spring 2023

Цель

Чтобы построить систему текста в речь (TTS) для Shanghainese с нуля, стремясь улучшить производство тона Sandhi по сравнению с существующими моделями, уделяя особое внимание предварительной обработке текста.

Описание

См. Размещение/main.pdf.

Зависимости

pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt  # for analysis of questionnaire results

Использование

См speech_synthesis/README.md .

Структура

phonemisation/ : содержит модуль фонемизации
- См. Объяснение вывода в phonemisation/__init__.py
- Использование: python -m phonemisation "text to phonemise"
- Механизм: Китайское предложение - сегментация слова ⟶ Китайские слова - Романизация ⟶ Шангхайские пиньинин - Фонемизация ⟶ Шангхайнские фонемы
  - jieba используется для сегментации слов
  - Шангенский словарь, который я ранее делал, используется для романизации
    - Использует модуль Qieyun для добавления тонального номера 1 в слоги 陰平jinping / inbin tone; Другие тона фонологически без опознавательных знаков
  - Функция romanisation_to_ipa в romanisation.py
make_metadata.py : использует модуль phonemisation для преобразования транскрипции в IPA и генерировать метаданные для обучения
- См. Ниже в data/
data/ : содержит набор данных, используемый для обучения
- Транскрипции и аудиофайлы адаптированы из этого репо.
  - Понижается до 16 кГц для обучения
  - В настоящее время только shh.dict.cn/ используется для обучения
- Файлы */metadata.txt генерируются make_metadata.py
training/
- Noptyer Notebbook для обучения модели
- Предназначен для загрузки и запуска в среде Google Colab; нужно изменить для локального использования
- Использует Repo coqui-ai/TTS , которая содержит реализацию VIT
writeup/ : запись
speech_synthesis/ : содержит модель синтеза речи
- См. speech_synthesis/README.md для более подробной информации
comparison_questionnaire/ : содержит вопросник и аудиофайлы, используемые для сравнения речи, произведенной этой моделью, моделью Apple и оратором человека
- *-1.wav : произведено этой моделью
- *-2.wav : производится Apple Voiceover (MacBook Pro 14-дюймовый, 2021; Macos Ventura 13.0.1)
- *-3.wav :
- stats.ipynb : Notebook Jupyter для анализа результатов анкеты