이 저장소에는 음성 합성을 위해 몬트리올 강제 정렬 (MFA)을 사용하여 구현 된 8 개의 인도 언어 (남성 및 여성 모두)에 대한 FastSpeech2 모델이 포함되어 있습니다. 이 모델은 텍스트 입력에서 Mel-spectrogram을 생성 할 수 있으며 음성을 종합하는 데 사용될 수 있습니다.
레포는 크기가 크다 : 우리는 GitHub의 크기 제약으로 인해 Git LFS를 사용했습니다 (링크에서 최신 GIT LFS를 설치하십시오. 아래의 현재를 제공했습니다).
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.python.sh | bash
sudo apt-get install git-lfs
git lfs install
언어 모델 파일은 Git LFS를 사용하여 업로드됩니다. 따라서 사용하십시오 :
git lfs fetch --all
git lfs pull
디렉토리에 원본 파일을 가져옵니다.
각 언어의 모델에는 다음 파일이 포함됩니다.
config.yaml : fastspeech2 모델의 구성 파일.energy_stats.npz : 합성 중 정규화를위한 에너지 통계.feats_stats.npz : 합성 중 정규화를위한 통계를 특징으로합니다.feats_type : 기능 유형 정보.pitch_stats.npz : 합성 중 정규화를위한 피치 통계.model.pth : 미리 훈련 된 FastSpeech2 모델 가중치. environment.yml 사용하여 콘다 환경을 만듭니다. iml 파일 : conda env create -f environment.yml2. Conda 환경 활성화 (내부 환경을 확인하십시오. YAML 파일) :
conda activate tts-mfa-hifiganconda install pytorch torchvision cudatoolkit
pip install torchaudioMel-Spectrograms에서 WAV 파일을 생성하기 위해 선택한 보코더를 사용할 수 있습니다. 인기있는 옵션 중 하나는 Hifigan 보코더입니다 (이 저장소를 복제하여 현재 작업 디렉토리에 넣습니다). 설치 및 사용 지침을 위해 선택한 보코더의 문서를 참조하십시오.
(우리는 Hifigan 보코더를 사용했으며 Aryan과 Dravidian Languages를 조정 한 보코더를 제공했습니다)
디렉토리 경로는 상대적입니다. ( Text_preprocess_for_inference.py 및 Inference.py 파일을 변경하십시오. 필요한 경우 폴더/파일 경로를 업데이트하십시오.)
작은 경우에 대문자 및 성별로 시작하여 인용문 사이의 샘플 텍스트를 제공하십시오. 출력 인수는 선택 사항입니다. 제공된 이름은 출력 파일에 사용됩니다.
추론 파일을 사용하여 텍스트 입력에서 음성을 합성하십시오.
python inference.py --sample_text " Your input text here " --language < language > --gender < gender > --output_file < file_name.wav OR path/to/file_name.wav >예:
python inference.py --sample_text "श्रीलंका और पाकिस्तान में खेला जा रहा एशिया कप अब तक का सबसे विवादित टूर्नामेंट होता जा रहा है।" --language hindi --gender male --output_file male_hindi_output.wav
파일은 male_hindi_output.wav 로 저장되며 현재 작업 디렉토리 내에 있습니다. -output_file 인수가 제공되지 않으면 현재 작업 디렉토리에서 <language>_<gender>_output.wav
연구 또는 작업 에서이 FastSpeech2 모델을 사용하는 경우 다음을 고려하십시오.
“Copyright 2023, Speech Technology Consortium, Bhashini, Meity 및 Hema A Murthy & S Umesh, 컴퓨터 과학 및 공학 및 IIT Madras.
방패:
이 작품은 Creative Commons Adatribution 4.0 International 라이센스에 따라 라이센스가 부여됩니다.