تنزيل FireRedTTS - تنزيل رمز المصدر FireRedTTS

FireRedTTS

كود الذكاء الاصطناعي

1.0.0

تنزيل

Fireredtts: إطار عمل من نص إلى كلام لتطبيقات الكلام التوليدي على مستوى الصناعة

؟ ورقة fireredtts ؟؟

؟ Fireredtts Demos ؟؟

؟ الفضاء fireredtts (تجريبي تفاعلي) ؟؟

أخبار

[2024/10/17] نقوم بإصدار نموذج جديد للثني ، ونقدم تغطية علامات الترقيم الموسعة وتناسق إنتاج الصوت المعزز. بالإضافة إلى ذلك ، قمنا بتعزيز قدرات النص في الواجهة الأمامية وتعزيز استقرار التوليف.
[2024/09/26] نموذجنا متوفر بالفعل على مساحة Huggingface ， جربه من خلال الواجهة التفاعلية.
[2024/09/20] نقوم بإصدار نقاط التفتيش التي تم تدريبها مسبقًا ورمز الاستدلال.
[2024/09/06] ننشر التقرير الفني وصفحة المشروع

خريطة الطريق

2024/09
- حرر نقاط التفتيش المدربة مسبقًا ورمز الاستدلال.
- مجموعة اختبار التحرير.
2024/10
- الافراج عن نسخة علامات الترقيم الغنية.
- إطلاق نقاط التفتيش المحفوظة بالتحكم لتوليد الكلام الذي يشبه الإنسان يمكن التحكم فيه.

الاستخدام

استنساخ وتثبيت

استنساخ الريبو

https://github.com/FireRedTeam/FireRedTTS.git
cd FireRedTTS

إنشاء كوندا بيئة

 # step1.create env
conda create --name redtts python=3.10

# stpe2.install torch （pytorch should match the cuda-version on your machine）
# CUDA 11.8
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=11.8 -c pytorch -c nvidia
# CUDA 12.1
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia

# step3.install fireredtts form source
pip install -e . 

# step4.install other requirements
pip install -r requirements.txt

تنزيل النماذج

قم بتنزيل ملفات النموذج المطلوبة من Model_lists ووضعها في المجلد pretrained_models

الاستخدام الأساسي

 import os
import torchaudio
from fireredtts . fireredtts import FireRedTTS

tts = FireRedTTS (
    config_path = "configs/config_24k.json" ,
    pretrained_path = < pretrained_models_dir > ,
)

#same language
rec_wavs = tts . synthesize (
        prompt_wav = "examples/prompt_1.wav" ,
        text = "小红书，是中国大陆的网络购物和社交平台，成立于二零一三年六月。" ,
        lang = "zh" ,
)

rec_wavs = rec_wavs . detach (). cpu ()
out_wav_path = os . path . join ( "./example.wav" )
torchaudio . save ( out_wav_path , rec_wavs , 24000 )

نصائح

قد يؤدي إزالة الصمت الطويل (> 1s) في منتصف order_wav إلى تحقيق استقرار أفضل. إذا كان هناك الكثير من الصمت الطويل في orgar_wav الخاص بك ويسبب مشاكل في الاستقرار ، فمن المستحسن استخدام أدائنا ( tools/process_prompts.py ) لإزالة الصمت.

شكر وتقدير

تقدم Tortoise-TTS و XTTS-V2 رؤى لا تقدر بثمن لبناء نظام على غرار الانحدار.
يوضح Matcha-TTS و Cosyvoice القدرة الممتازة لمطابقة التدفق في تحويل رمز الصوت إلى MEL.
Bigvgan-V2 ، يستخدم للمفردات.
لقد أشرنا إلى حل Texper Texps .

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-20
الحجم 1.98MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل