تنزيل Matcha TTS - تنزيل رمز المصدر Matcha TTS

Matcha TTS

كود الذكاء الاصطناعي

v0.0.7

تنزيل

؟ Matcha-TTS: بنية TTS سريعة مع مطابقة التدفق الشرطي

شيفام ميهتا ، رويبو تو ، جوناس بيسكو ، إيفا سزيكلي ، وغوستاف إيج.

هذا هو تنفيذ الكود الرسمي؟ Matcha-TTS [ICASSP 2024].

نقترح؟ Matcha-TTS ، وهو نهج جديد ل TTS العصبية غير التوت ، والذي يستخدم مطابقة التدفق الشرطي (على غرار التدفقات المصححة) لتسريع تخليق الكلام القائم على العطورة. طريقتنا:

هو احتمالي
لديه بصمة الذاكرة المدمجة
يبدو طبيعيا للغاية
سريع جدا لتوليف من

تحقق من صفحة العرض التجريبي وقراءة ورقة ICASSP 2024 لمزيد من التفاصيل.

سيتم تنزيل النماذج المدربة مسبقًا تلقائيًا باستخدام واجهة CLI أو Gradio.

يمكنك أيضا المحاولة؟ Matcha-tts في متصفحك على Luggingface؟ المساحات.

فيديو دعائي

تثبيت

إنشاء بيئة (مقترحة ولكن اختيارية)

 conda create -n matcha-tts python=3.10 -y
conda activate matcha-tts

تثبيت Matcha TTS باستخدام PIP أو من المصدر

pip install matcha-tts

من المصدر

pip install git+https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS
pip install -e .

قم بتشغيل CLI / Gradio App / Jupyter Notebook

 # This will download the required models
matcha-tts --text " <INPUT TEXT> "

أو

matcha-tts-app

أو Open synthesis.ipynb على دفتر Jupyter

حجج CLI

لتوليف من النص المعطى ، قم بتشغيل:

matcha-tts --text " <INPUT TEXT> "

لتوليف من ملف ، قم بتشغيل:

matcha-tts --file < PATH TO FILE >

لتكليف الدُفعة من ملف ، قم بتشغيل:

matcha-tts --file < PATH TO FILE > --batched

حجج إضافية

معدل التحدث

matcha-tts --text " <INPUT TEXT> " --speaking_rate 1.0

درجة حرارة أخذ العينات

matcha-tts --text " <INPUT TEXT> " --temperature 0.667

خطوات حلقة Oule Ode

matcha-tts --text " <INPUT TEXT> " --steps 10

تدريب مع مجموعة البيانات الخاصة بك

لنفترض أننا نتدرب مع خطاب LJ

قم بتنزيل مجموعة البيانات من هنا ، واستخراجها إلى data/LJSpeech-1.1 ، وإعداد قوائم الملف للإشارة إلى البيانات المستخرجة مثل للبند 5 في إعداد Nvidia Tacotron 2 repo.
استنساخ وأدخل مستودع Matcha-TTS

git clone https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS

قم بتثبيت الحزمة من المصدر

pip install -e .

انتقل إلى configs/data/ljspeech.yaml وتغيير

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

إنشاء إحصائيات التطبيع مع ملف YAML لتكوين مجموعة البيانات

matcha-data-stats -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

قم بتحديث هذه القيم في configs/data/ljspeech.yaml ضمن مفتاح data_statistics .

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

إلى مسارات قطارك والتحقق من صحة.

قم بتشغيل البرنامج النصي التدريبي

make train-ljspeech

أو

python matcha/train.py experiment=ljspeech

للحصول على الحد الأدنى من تشغيل الذاكرة

python matcha/train.py experiment=ljspeech_min_memory

للتدريب متعدد GPU ، قم بالتشغيل

python matcha/train.py experiment=ljspeech trainer.devices=[0,1]

توليف من النموذج المدرب المخصص

matcha-tts --text " <INPUT TEXT> " --checkpoint_path < PATH TO CHECKPOINT >

دعم ONNX

شكر خاص لـ @Mush42 لتنفيذ دعم ONNX ودعم الاستدلال.

من الممكن تصدير نقاط تفتيش Matcha إلى OnNx ، وتشغيل الاستدلال على الرسم البياني ONNX المصدر.

ONNX التصدير

لتصدير نقطة تفتيش إلى ONNX ، قم أولاً بتثبيت ONNX مع

pip install onnx

ثم قم بتشغيل ما يلي:

python3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5

اختياريا ، يقبل مصدر ONNX حجج المبرى و checkpoint . يمكّنك ذلك من تضمين Vocoder في الرسم البياني الذي تم تصديره وإنشاء أشكال موجية في تشغيل واحد (على غرار أنظمة TTS من طرف إلى طرف).

لاحظ أن n_timesteps يتم التعامل معها كمعلمة مفرطة بدلاً من إدخال النموذج. هذا يعني أنه يجب عليك تحديده أثناء التصدير (وليس أثناء الاستدلال). إذا لم يتم تحديدها ، يتم تعيين n_timesteps على 5 .

هام : في الوقت الحالي ، هناك حاجة إلى Torch> = 2.1.0 للتصدير لأن مشغل scaled_product_attention غير قابل للتصدير في الإصدارات القديمة. حتى يتم إصدار الإصدار النهائي ، يجب على أولئك الذين يرغبون في تصدير نماذجهم تثبيت Torch> = 2.1.0 يدويًا كإطلاق مسبقًا.

الاستدلال onnx

لتشغيل الاستدلال على النموذج المصدر ، قم أولاً بتثبيت onnxruntime باستخدام

pip install onnxruntime
pip install onnxruntime-gpu  # for GPU inference

ثم استخدم ما يلي:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs

يمكنك أيضًا التحكم في معلمات التوليف:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --temperature 0.4 --speaking_rate 0.9 --spk 0

لتشغيل الاستدلال على GPU ، تأكد من تثبيت حزمة OnNxRuntime-GPU ، ثم تمرير- --gpu إلى أمر الاستدلال:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --gpu

إذا قمت بتصدير Matcha فقط إلى ONNX ، فسيقوم ذلك بكتابة طيف الميل كرسوم بيانية ومصفوفات numpy إلى دليل الإخراج. إذا قمت بتضمين Vocoder في الرسم البياني الذي تم تصديره ، فسوف يكتب هذا .wav Audio Files إلى دليل الإخراج.

إذا قمت بتصدير Matcha فقط إلى Onnx ، وكنت ترغب في تشغيل خط أنابيب TTS كامل ، يمكنك نقل مسار إلى نموذج Vocoder بتنسيق ONNX :

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --vocoder hifigan.small.onnx

سيؤدي هذا إلى كتابة ملفات الصوت .wav إلى دليل الإخراج.

استخراج محاذاة صوتية من Matcha-TTS

إذا تم تنظيم مجموعة البيانات كـ

data/
└── LJSpeech-1.1
    ├── metadata.csv
    ├── README
    ├── test.txt
    ├── train.txt
    ├── val.txt
    └── wavs

ثم يمكنك استخراج محاذاة مستوى الصوت من نموذج Matcha-TTS مدرب باستخدام:

python  matcha/utils/get_durations_from_trained_model.py -i dataset_yaml -c < checkpoint >

مثال:

python  matcha/utils/get_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt

أو ببساطة:

matcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt

القطار باستخدام محاذاة مستخرجة

في DatasetConfig قم بتشغيل مدة التحميل. مثال: ljspeech.yaml

 load_durations: True

أو انظر أمثلة في التكوينات/التجربة/ljspeech_from_durations.yaml

معلومات الاقتباس

إذا كنت تستخدم الكود الخاص بنا أو ابحث عن هذا العمل مفيدًا ، فيرجى الاستشهاد بالورقة:

 @inproceedings{mehta2024matcha,
  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},
  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{'e}kely, {'E}va and Henter, Gustav Eje},
  booktitle={Proc. ICASSP},
  year={2024}
}

شكر وتقدير

نظرًا لأن هذا الرمز يستخدم Lightning-Hydra-Template ، لديك كل الصلاحيات التي تأتي معها.

رمز المصدر الآخر نود الاعتراف به:

coqui-tts: لمساعدتي في معرفة كيفية جعل ثنائيات cython pip قابلة للتثبيت والتشجيع
معانقة نشرات الوجه: بالنسبة لمكتبة الناشرين الرائعة ومكوناتها
Grad-TTS: للحصول على رمز مصدر البحث المحاذاة رتابة
Torchdyn: مفيد لمحاولة حلقة قصيدة أخرى أثناء البحث والتطوير
labml.ai: لتنفيذ الحبل

يوسع

معلومات إضافية

الإصدار v0.0.7
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-23
الحجم 512.32KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
معلومات باللغة الإنجليزية عن تطوير الصوت (دليل مستخدم TTS إصدار دلفي)

2009-05-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل