Загрузка Fastspeech2_MFA - Загрузка исходного кода Fastspeech2

Fastspeech2_MFA

AI Исходный код

1.0.0

Скачать

Модель FastSpeech2 с использованием MFA

Этот репозиторий содержит модель Fastspeech2 для 8 индийских языков (мужчин и женщин), реализованного с использованием Montreal Aructed Aligner (MFA) для синтеза речи. Модель способна генерировать мель-спектрограммы из текстовых входов и может использоваться для синтеза речи.

Репо имеет больший по размеру: мы использовали GIT LFS из -за ограничения размера GitHub (пожалуйста, установите последние LFS GIT LFS, мы предоставили текущий ниже).

 curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install

Файлы языковых моделей загружаются с использованием GIT LFS. Так что, пожалуйста, используйте:

 git lfs fetch --all
git lfs pull

Чтобы получить исходные файлы в вашем каталоге.

Модели файлы

Модель для каждого языка включает в себя следующие файлы:

config.yaml : файл конфигурации для модели FastSpeech2.
energy_stats.npz : Энергетическая статистика для нормализации во время синтеза.
feats_stats.npz : Особенности статистики для нормализации во время синтеза.
feats_type : информация о типах функций.
pitch_stats.npz : статистика высоты тона для нормализации во время синтеза.
model.pth : предварительно обученные веса модели Fastspeech2.

Установка

Сначала установите Miniconda. Создайте среду Conda, используя предоставленную файл environment.yml :

conda env create -f environment.yml

2. Действовать в среде Conda (проверьте внутри Environment.yaml файл):

conda activate tts-mfa-hifigan

Установите Pytorch отдельно (вы можете установить конкретную версию на основе ваших требований):

conda install pytorch torchvision cudatoolkit
pip install torchaudio

Вокадер

Для генерации файлов WAV из Mel-Spectrograms вы можете использовать Vocoder по вашему выбору. Одним из популярных вариантов является Hifigan Vocoder (клонировать это репо и поместить его в текущий рабочий каталог). Пожалуйста, обратитесь к документации выбранного вами Vocoder для инструкций по установке и использованию.

(Мы использовали Hifigan Vocoder и предоставили Vocoder, настроенный на арийские и дравидийские языки)

Использование

Пути каталогов относительны. (Внесите изменения в TEXT_PREPOCESS_FOR_INFERE.PY и FILE.PY.PY.

Пожалуйста, дайте язык, начиная с заглавного письма и пола в небольшом случае и примере текста между цитатами. Выходной аргумент не является обязательным; Предоставленное имя будет использоваться для выходного файла.

Используйте файл вывода для синтеза речи из текстовых входов:

python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >

Пример:

 python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav

Файл будет храниться как male_hindi_output.wav и будет находиться в текущем рабочем каталоге. Если аргумент -output_file не будет указан, он будет храниться как <language>_<gender>_output.wav в текущем рабочем каталоге.