Этот репозиторий содержит модель Fastspeech2 для 8 индийских языков (мужчин и женщин), реализованного с использованием Montreal Aructed Aligner (MFA) для синтеза речи. Модель способна генерировать мель-спектрограммы из текстовых входов и может использоваться для синтеза речи.
Репо имеет больший по размеру: мы использовали GIT LFS из -за ограничения размера GitHub (пожалуйста, установите последние LFS GIT LFS, мы предоставили текущий ниже).
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
Файлы языковых моделей загружаются с использованием GIT LFS. Так что, пожалуйста, используйте:
git lfs fetch --all
git lfs pull
Чтобы получить исходные файлы в вашем каталоге.
Модель для каждого языка включает в себя следующие файлы:
config.yaml : файл конфигурации для модели FastSpeech2.energy_stats.npz : Энергетическая статистика для нормализации во время синтеза.feats_stats.npz : Особенности статистики для нормализации во время синтеза.feats_type : информация о типах функций.pitch_stats.npz : статистика высоты тона для нормализации во время синтеза.model.pth : предварительно обученные веса модели Fastspeech2. environment.yml : conda env create -f environment.yml2. Действовать в среде Conda (проверьте внутри Environment.yaml файл):
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudioДля генерации файлов WAV из Mel-Spectrograms вы можете использовать Vocoder по вашему выбору. Одним из популярных вариантов является Hifigan Vocoder (клонировать это репо и поместить его в текущий рабочий каталог). Пожалуйста, обратитесь к документации выбранного вами Vocoder для инструкций по установке и использованию.
(Мы использовали Hifigan Vocoder и предоставили Vocoder, настроенный на арийские и дравидийские языки)
Пути каталогов относительны. (Внесите изменения в TEXT_PREPOCESS_FOR_INFERE.PY и FILE.PY.PY.
Пожалуйста, дайте язык, начиная с заглавного письма и пола в небольшом случае и примере текста между цитатами. Выходной аргумент не является обязательным; Предоставленное имя будет использоваться для выходного файла.
Используйте файл вывода для синтеза речи из текстовых входов:
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >Пример:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
Файл будет храниться как male_hindi_output.wav и будет находиться в текущем рабочем каталоге. Если аргумент -output_file не будет указан, он будет храниться как <language>_<gender>_output.wav в текущем рабочем каталоге.
Если вы используете эту модель FastSpeech2 в своем исследовании или на работе, пожалуйста, рассмотрите возможность цитирования:
«Copyright 2023, Консорциум речевых технологий, Bhashini, Meity и Hema A Murthy & S Umesh, Департамент компьютерных наук и инженерии и электротехники, IIT Madras. Все права защищены»
Щит:
Эта работа лицензирована по международной лицензии Creative Commons Attribution 4.0.