تنزيل speech to speech - تنزيل رمز مصدر speech to speech

speech to speech

شفرة المصدر الأخرى

1.0.0

تنزيل

خطاب الكلام: جهد لمصادر مفتوحة ومحددة GPT4-O

فهرس سريع

يقترب
- بناء
- الشكل
يثبت
الاستخدام
- نهج خادم Docker
- نهج الخادم/العميل
- النهج المحلي
استخدام سطر القيادة
- المعلمات النموذج
- معلمات التوليد
- معلمات ملحوظة

يقترب

بناء

يقوم هذا المستودع بتنفيذ خط أنابيب متتالي من خطاب إلى كلام يتكون من الأجزاء التالية:

اكتشاف النشاط الصوتي (VAD)
خطاب إلى نص (STT)
نموذج اللغة (LM)
نص إلى الكلام (TTS)

الشكل

يوفر خط الأنابيب نهجًا مفتوحًا ومعيارًا بالكامل ، مع التركيز على الاستفادة من النماذج المتاحة من خلال مكتبة Transformers على مركز Face Hub. تم تصميم الرمز لسهولة التعديل ، ونحن ندعم بالفعل تطبيقات المكتبة الخاصة بالجهاز والخارجية:

فاد

Silero VAD V5

Stt

أي نقطة تفتيش طراز همس على محور الوجه المعانقة من خلال المحولات؟ ، بما في ذلك Whisper-Large-V3 و Distil-Large-V3
البرق يهمس MLX
Paraformer - funasr

LLM

أي نموذج متابع للتعليمات على محور الوجه المعانقة عبر المحولات؟
MLX-LM
Openai API

TTS

parler tts؟
melotts
chattts

يثبت

استنساخ المستودع:

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

تثبيت التبعيات المطلوبة باستخدام UV:

uv pip install -r requirements.txt

بالنسبة لمستخدمي Mac ، استخدم ملف requirements_mac.txt بدلاً من ذلك:

uv pip install -r requirements_mac.txt

إذا كنت ترغب في استخدام Melo TTS ، فأنت بحاجة أيضًا إلى التشغيل:

python -m unidic download

الاستخدام

يمكن تشغيل خط الأنابيب بطريقتين:

نهج الخادم/العميل : يتم تشغيل النماذج على خادم ، ويتم دفق إدخال/إخراج الصوت من عميل.
النهج المحلي : يدير محليا.

الإعداد الموصى به

نهج الخادم/العميل

قم بتشغيل خط الأنابيب على الخادم:

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

قم بتشغيل العميل محليًا للتعامل مع إدخال الميكروفون واستلام الصوت الذي تم إنشاؤه:
```
python listen_and_play.py --host < IP address of your server >
```

النهج المحلي (MAC)

للإعدادات المثلى على ماك:

python s2s_pipeline.py --local_mac_optimal_settings

هذا الإعداد:

يضيف --device mps لاستخدام النواب لجميع النماذج.
- يضبط LightningWhisperMlx لـ STT
- يحدد MLX LM لنموذج اللغة
- مجموعات melotts ل TTS

Docker Server

تثبيت مجموعة أدوات حاوية NVIDIA

https://docs.nvidia.com/datacenter/cloud-niater/container-toolkit/latest/install-guide.html

ابدأ حاوية Docker

docker compose up

الاستخدام الموصى به مع كودا

استفادة من تجميع الشعلة للهمسة والطاقة tts. يسمح استخدام Parler-TTS ببث إخراج الصوت ، مما يقلل من زمن انتقال Overeall :

python s2s_pipeline.py 
	--lm_model_name microsoft/Phi-3-mini-4k-instruct 
	--stt_compile_mode reduce-overhead 
	--tts_compile_mode default 
  --recv_host 0.0.0.0 
	--send_host 0.0.0.0

في الوقت الحالي ، لا تتوافق أوضاع الرسوم البيانية CUDA مع Parler-TTS المتدفق ( reduce-overhead ، max-autotune ).

دعم متعدد اللغات

يدعم خط الأنابيب حاليًا اللغة الإنجليزية والفرنسية والإسبانية والصينية واليابانية والكورية.
تعتبر حالتان للاستخدام:

محادثة باللغة الواحدة : فرض إعداد اللغة باستخدام علامة --language -تحديد رمز اللغة الهدف (الافتراضي هو "EN").
تبديل اللغة : تعيين --language إلى "Auto". في هذه الحالة ، يكتشف Whisper اللغة لكل موجه المنطوق ، ويتم مطالب LLM بـ " Please reply to my message in ... " لضمان أن يكون الرد باللغة المكتشفة.

يرجى ملاحظة أنه يجب عليك استخدام نقاط التفتيش STT و LLM متوافقة مع اللغة (اللغات) المستهدفة. بالنسبة للجزء STT ، فإن Parler-TTS ليس متعدد اللغات (على الرغم من أن هذه الميزة ستظهر قريبًا!؟). في غضون ذلك ، يجب عليك استخدام Melo (الذي يدعم اللغة الإنجليزية والفرنسية والإسبانية والصينية واليابانية والكورية) أو الدردشة.

مع إصدار الخادم:

للكشف عن اللغة التلقائية:

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

أو للغة على وجه الخصوص ، الصينية في هذا المثال

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

إعداد MAC المحلي

للكشف عن اللغة التلقائية:

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

أو للغة على وجه الخصوص ، الصينية في هذا المثال

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

استخدام سطر القيادة

ملاحظة: يمكن العثور على مراجع لجميع وسائط CLI مباشرة في فئات الوسائط أو عن طريق تشغيل python s2s_pipeline.py -h .

معلمات مستوى الوحدة النمطية

انظر فئة ModuleArguments. يسمح بتعيين:

شائع --device (إذا أراد المرء أن يعمل كل جزء على نفس الجهاز)
--mode local أو server
تنفيذ STT المختار
تنفيذ LM المختار
اختار تنفيذ TTS
مستوى التسجيل

معلمات VAD

انظر فئة VadhandlerArguments. والجدير بالذكر:

--thresh : قيمة العتبة لإثارة الكشف عن النشاط الصوتي.
--min_speech_ms : الحد الأدنى للمدة من النشاط الصوتي المكتشف ليتم اعتباره الكلام.
--min_silence_ms : الحد الأدنى لفترات الصمت لتجزئة الكلام ، وموازنة القطع على الجملة وتقليل الكمون.

معلمات STT ، LM و TTS

يتم عرض model_name و torch_dtype device لكل تطبيق للكلام إلى النص ونموذج اللغة والنص على الكلام. حدد جزء خط الأنابيب المستهدف مع البادئة المقابلة (على سبيل المثال stt أو lm أو tts ، تحقق من فئات الوسائط للتطبيقات لمزيد من التفاصيل).

على سبيل المثال:

--lm_model_name google/gemma-2b-it

معلمات التوليد

يمكن تعيين معلمات الجيل الأخرى لطريقة إنشاء النموذج باستخدام بادئة الجزء + _gen_ ، على سبيل المثال ، --stt_gen_max_new_tokens 128 . يمكن إضافة هذه المعلمات إلى فئة وسيطات Pipeline Part إذا لم تكن تعرض بالفعل.

الاستشهادات

سيليرو فاد

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

distil-whisper

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-25
الحجم 110.98KB
من Github

تطبيقات ذات صلة

How to download hydrax abyss.to

2024-11-11
العودة إلى الأرض

2023-08-09
كيفية الهروب

2023-06-28
الشريحة لفتح

2023-06-19
ميت للحقوق

2022-08-27
ترتفع إلى أنقاض

2022-08-23

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل