FireRedTTS
1.0.0


2024/09
2024/10
https://github.com/FireRedTeam/FireRedTTS.git
cd FireRedTTS # step1.create env
conda create --name redtts python=3.10
# stpe2.install torch (pytorch should match the cuda-version on your machine)
# CUDA 11.8
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=11.8 -c pytorch -c nvidia
# CUDA 12.1
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
# step3.install fireredtts form source
pip install -e .
# step4.install other requirements
pip install -r requirements.txt Model_Lists 에서 필요한 모델 파일을 다운로드하여 폴더 pretrained_models 에 배치하십시오.
import os
import torchaudio
from fireredtts . fireredtts import FireRedTTS
tts = FireRedTTS (
config_path = "configs/config_24k.json" ,
pretrained_path = < pretrained_models_dir > ,
)
#same language
rec_wavs = tts . synthesize (
prompt_wav = "examples/prompt_1.wav" ,
text = "小红书,是中国大陆的网络购物和社交平台,成立于二零一三年六月。" ,
lang = "zh" ,
)
rec_wavs = rec_wavs . detach (). cpu ()
out_wav_path = os . path . join ( "./example.wav" )
torchaudio . save ( out_wav_path , rec_wavs , 24000 )tools/process_prompts.py )를 사용하여 침묵을 제거하는 것이 좋습니다. Tortoise-TTS 및 XTTS-V2는 자동 회귀 스타일 시스템을 구성하는 데 귀중한 통찰력을 제공합니다.
Matcha-Tts 및 Cosyvoice는 오디오 코드를 Mel로 변환 할 때 유량 매칭의 탁월한 능력을 보여줍니다.
BigVGAN-V2 , 보코딩에 사용됩니다.
우리는 Whisper의 Text Tokenizer 솔루션을 언급했습니다.