FireRedTTS Download - FireRedTTS Quellcode Download

FireRedTTS

AI-Quellcode

1.0.0

Herunterladen

Fireedtts: Ein Fundament Text-to-Speech-Framework für generative Sprachanwendungen auf Branchenebene

? Firedtts Papier?

? Firedtts Demos?

? Firedtts Raum (interaktive Demo) ??

Nachricht

[2024/10/17] Wir veröffentlichen ein neues Rich-PUNKU-Modell, das eine erweiterte Interpunktionsabdeckung und eine verbesserte Konsistenz der Audioproduktion anbietet. Darüber hinaus haben wir die Fähigkeiten des Textfront-Endes gestärkt und die Stabilität der Synthese verbessert.
[2024/09/26] Unser Modell ist bereits im Bereich von Huggingface verfügbar. Versuchen Sie es über die interaktive Schnittstelle.
[2024/09/20] Wir veröffentlichen die vorgeborenen Kontrollpunkte und Inferenzcode.
[2024/09/06] Wir veröffentlichen die Seite Technischer Bericht und Projektseite

Roadmap

2024/09
- Lassen Sie die vorgeborenen Kontrollpunkte und den Inferenzcode frei.
- TESTSET REPET -SET.
2024/10
- Rich Interpunktionsversion veröffentlichen.
- Freisetzende Checkpoints für kontrollierbare menschliche Sprachgenerierung freigeben.

Verwendung

Klonen und installieren

Klonen Sie das Repo

https://github.com/FireRedTeam/FireRedTTS.git
cd FireRedTTS

Conda Env

 # step1.create env
conda create --name redtts python=3.10

# stpe2.install torch （pytorch should match the cuda-version on your machine）
# CUDA 11.8
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=11.8 -c pytorch -c nvidia
# CUDA 12.1
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia

# step3.install fireredtts form source
pip install -e . 

# step4.install other requirements
pip install -r requirements.txt

Herunterladen Modelle

Laden Sie die erforderlichen Modelldateien von model_lists herunter und pretrained_models

Grundnutzung

 import os
import torchaudio
from fireredtts . fireredtts import FireRedTTS

tts = FireRedTTS (
    config_path = "configs/config_24k.json" ,
    pretrained_path = < pretrained_models_dir > ,
)

#same language
rec_wavs = tts . synthesize (
        prompt_wav = "examples/prompt_1.wav" ,
        text = "小红书，是中国大陆的网络购物和社交平台，成立于二零一三年六月。" ,
        lang = "zh" ,
)

rec_wavs = rec_wavs . detach (). cpu ()
out_wav_path = os . path . join ( "./example.wav" )
torchaudio . save ( out_wav_path , rec_wavs , 24000 )

Tipps

Das Entfernen der langen Stille (> 1s) in der Mitte von forderding_wav kann eine bessere Stabilität bringen. Wenn Sie zu viele lange Stille in Ihrer Eingabeaufforderung_WAV enthalten und Stabilitätsprobleme verursacht, wird empfohlen, unser Tool ( tools/process_prompts.py ) zu verwenden, um die Stille zu entfernen.

Anerkennung

Tortoise-TTs und XTTS-V2 bieten unschätzbare Einblicke für den Bau eines autoregressiven Systems.
Matcha-TTS und CoSyVoice zeigen die hervorragende Fähigkeit, bei der Konvertierung von Audiocode in Mel zu konvertieren.
Bigvgan-V2 , zum Vokodieren verwendet.
Wir haben auf die Text -Tokenizer -Lösung von Whisper hingewiesen.

Expandieren

Zusätzliche Informationen