أدوات الاستنساخ الصوتي
1. وثائق الاستنساخ الصوتي TTS
وصف
يقوم هذا البرنامج النصي بتنفيذ توليف من نص إلى كلام باستخدام مكتبة TTS (نص إلى كلام) مع نموذجين متميزين: XTTS v2.0.2 والسلحفاة. يتضمن البرنامج النصي أيضًا وظيفة الأداة المساعدة لتحويل ملفات MP3 إلى ملفات WAV مجزأة.
المتطلبات الأساسية
قبل تشغيل البرنامج النصي ، تأكد من تثبيت مكتبة TTS باستخدام الأمر التالي:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
تنفيذ
python tortoise_TTS_local_best.py
المهام
XTTS V2.0.2 Synthesis:
- يستخدم طراز XTTS V2.0.2 من مكتبة Coqui TTS.
- يؤدي توليف النص إلى الكلام مع نص الإدخال المحدد.
- يحفظ الصوت المركب إلى ملفات WAV ، سواء مع أو بدون تقسيم الجملة.
MP3 لتحويل WAV
- يحول ملف MP3 إدخال إلى ملفات WAV مجزأة دون استخدام مكتبة PYDUB.
- شرائح الصوت إلى فواصل زمنية مدتها 10 ثوان وتوفرها كملفات WAV فردية (مطلوبة للسلحفاة).
وصف توليف نموذج السلحفاة:
- يستخدم نموذج السلحفاة من مكتبة Coqui TTS لتوليف عالي الجودة.
- يقوم بتحميل نموذج السلحفاة مسبقًا وتوليف الكلام بناءً على نص الإدخال.
- يحفظ الصوت المركب كملف WAV.
معلومات إضافية
يتم اقتراح XTTS v2.0.2 لسرعته وجودة معقولة. توفر السلحفاة أفضل جودة ولكن لديها وقت استنتاج أطول.
ملحوظات
- تأكد من تثبيت التبعيات وتعديل مسارات الملف وفقًا لذلك.
- توفر عناوين URL في التعليقات مزيدًا من المعلومات حول النماذج والتكوينات.
- لا تتردد في تعديل البرنامج النصي بناءً على متطلبات محددة ، وضمان إجراء التعديلات اللازمة لرفع مسارات وتبعيات للتنفيذ الناجح.
2. وثائق محلل نموذج TTS
وصف
يحلل هذا البرنامج النصي نماذج النص إلى كلام (TTS) المتوفرة في مكتبة TTS ، مع التركيز على وجه التحديد على دعم لغتها وقدرات الصوت. يقوم بتصنيف النماذج بناءً على:
- متعدد اللغات مقابل اللغة الإنجليزية فقط : ما إذا كان النموذج يدعم لغات متعددة أو اللغة الإنجليزية فقط.
- Custom مقابل الافتراضي للمركبات الإنجليزية : ما إذا كان النموذج يحتوي على مفردات مخصصة لإنجليزية يسمح بالاستنساخ الصوتي أو المتفرج الافتراضي الذي لا يفعل ذلك.
يتتبع البرنامج النصي أيضًا عدد النماذج ذات الأخطاء وتلك التي يتم تجاهلها لأسباب محددة (على سبيل المثال ، النماذج المسببة للأخطاء المعروفة).
كود انهيار
المتطلبات الأساسية
قبل تشغيل البرنامج النصي ، تأكد من تثبيت مكتبة TTS باستخدام الأمر التالي:
تنفيذ
python TTS_download_and_test_all_models.py
الإخراج
يقوم البرنامج النصي بإنشاء معلومات حول نماذج متعددة اللغات مع مركبة باللغة الإنجليزية ، ونماذج إنجليزية مع صوت مخصص ، ونماذج متعددة اللغات مع المفرطات الإنجليزية الافتراضية ، والموديلات الإنجليزية مع المفرطات الإنجليزية الافتراضية. بالإضافة إلى ذلك ، يحدد النماذج التي تدعم اللغات غير الإنجليزية والنماذج ذات الأخطاء والنماذج التي يجب تجاهلها.
شرح النص
يقوم البرنامج النصي بالمهام التالية:
يستورد المكتبات اللازمة (TTS ، الوقت ، OS).
قم بإعداد مؤقت لقياس وقت تنفيذ البرنامج النصي.
يحدد نص عينة لتوليف الكلام.
تهيئة العدادات والقوائم لمختلف فئات النماذج.
يتكرر من خلال جميع نماذج TTS المتاحة.
يقوم التنزيلات وتحميل كل طراز لأداء مهام النص إلى كلام مختلفة ، وتصنيفها بناءً على دعم اللغة وأنواع Vocoder.
يطبع النتائج ، بما في ذلك عدد وأسماء النماذج في كل فئة ، إلى جانب أي أخطاء واجهتها أثناء العملية.
يعرض إجمالي عدد النماذج التي تم فحصها ووقت تنفيذ البرنامج النصي.
يؤدي فحص التأكيد لضمان العد الصحيح للنماذج.
يوفر مثالًا على استخدام TTS لنص على نص مع مع طراز متعدد اللغات ومتعدد اللغات.
ملحوظات
قد يتم تجاهل بعض النماذج بسبب الأخطاء أو الأسباب الأخرى (المحددة في الكود). يتضمن البرنامج النصي أيضًا مثالًا على النص اليوناني إلى الكلام في كولاب ، باستخدام نموذج معين.
معلومات إضافية
- مكتبة TTS: https://github.com/mozilla/tts
- وثائق TTS: https://tts.readthedocs.io/
لا تتردد في تعديل البرنامج النصي حسب الحاجة لحالة الاستخدام المحددة أو دمجها في مشاريعك لتحليل نموذج TTS.
3. استنساخ الصوت باستخدام مستودع السلحفاة الرسمي
ملخص
يوضح هذا البرنامج النصي استخدام نظام TROTOISE TTS (نص إلى كلام) لإنشاء الكلام من نص الإدخال. يستخدم البرنامج النصي مكتبة Torts TTS السلحفاة ويوفر إرشادات للتثبيت. يتم حفظ الكلام الذي تم إنشاؤه كملف WAV.
تثبيت
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
الاستخدام
- استبدل المسار في متغير الصوت بعينات صوت السماعة المطلوبة.
- اختياريا ، قم بتعديل متغير النص لتحديد نص الإدخال المطلوب.
- قم بتشغيل البرنامج النصي باستخدام
python tortoise_API.py لأداء Torts TTS وحفظ الكلام الذي تم إنشاؤه كملف WAV.
مهمة descritpion
استيراد المكتبات اللازمة:
- الواردات المطلوبة المكتبات بما في ذلك Torchaudio و Tortoise.Api و Tortoise.Utils و OS.
تهيئة السلحفاة TTS:
- تهيئة السلحفاة TTS باستخدام Tortoise.API.TextToSpeech.
- اختياريا ، يتيح SpectedSpeed للأداء الأسرع (تم التعليق عليه لأنه قد يكون أبطأ في الممارسة).
حدد نص الإدخال:
- يضبط نص الإدخال المراد تحويله إلى الكلام.
اختر مسبقًا وصوتًا:
- يحدد وضع الإعداد المسبق لتحديد جودة الإخراج ("Ultra_fast" أو "Fast" أو "Standard" أو "High_Quality").
- يختار صوتًا محددًا من خلال توفير المسار لعينات صوت السماعة.
تحميل مقاطع مرجعية:
- يحمل مقاطع الصوت المرجعية من المسار الصوتي المختار.
أداء TTS مع السلحفاة:
- يستخدم TTS TROTOISE لتوليد الكلام من نص الإدخال.
- يحفظ الكلام المتولد بتنسيق WAV.
معلومات إضافية
- يقوم البرنامج النصي بتنزيل النماذج المطلوبة من محور نموذج Hugging Face (HF).
- اضبط المعلمات مثل الإعداد المسبق والصوت وفقًا لتفضيلاتك.
- يتم حفظ الصوت الذي تم إنشاؤه باسم "endered_hq_faceswap.wav" في الدليل المحدد.
4.
ملخص
يسهل هذا البرنامج النصي تحويل ملفات الصوت OPUS إلى تنسيق MP3. يتضمن وظائف لقراءة ملفات Opus ، وتحويلها إلى MP3 ، ودمج عدة ملفات MP3 في ملف واحد. يوفر البرنامج النصي المرونة من خلال السماح للمستخدمين بتحديد مجلدات الإدخال والإخراج.
حدود
opus_folder: مسار إلى المجلد الذي يحتوي على ملفات Opus.
mp3_output_folder: مسار لحفظ ملفات mp3 الفردية.
combined_output_folder: PATH لحفظ ملف MP3 المشترك.
يقوم البرنامج النصي بإنشاء مجلدات الإخراج إذا لم تكن موجودة.
المتطلبات الأساسية
المهام
- اقرأ ملف opus:
- يقرأ ملفات Opus باستخدام مكتبة SoundFile.
- إرجاع صفيف numpy ومعدل العينة.
- تحويل opus إلى mp3
- يستخدم وظيفة read_opus لقراءة ملفات opus.
- يحول OPUS إلى MP3 باستخدام نفس معدل العينة.
- يحفظ ملف MP3 إلى مجلد الإخراج المحدد.
- تحويل ملفات opus
- يتكرر من خلال ملفات opus في مجلد ويحول كل منها إلى mp3.
- إرجاع قائمة أسماء ملفات MP3 المحفوظة.
- الجمع بين ملفات mp3
- يجمع بين ملفات MP3 الفردية في واحدة.
- يحفظ ملف MP3 المشترك إلى مجلد الإخراج المحدد.
5. Bark Google Colab (ليست جيدة جدًا)
ملخص
يوضح دفتر Jupyter هذا عملية استنساخ صوت باستخدام نظام استنساخ Bark Voice. يتضمن تصاعد محرك Google للوصول إلى عينات صوتية للاستنساخ ، وتثبيت المكتبات اللازمة ، ونماذج التحميل ، وتوليد الرموز الدلالية ، وأخيراً ، باستخدام هذه الرموز للاستنساخ الصوتي.
المهام
Mount Google Drive:
- يتصاعد Google Drive للوصول إلى المجلد الذي يحتوي على عينات صوتية لاستنساخ.
تعيين المعلمات:
- يحدد المعلمات مثل المسار إلى ملف الصوت ، واسم الصوت ، ومسار الإخراج لحفظ مطالبات الصوت المستنسخة.
تثبيت واستيراد المكتبات:
- التثبيت والواردات المطلوبة المكتبات ، pytorch ، numpy ، وغيرها.
تثبيت اللحاء مع استنساخ الصوت:
- يقوم بتثبيت اللحاء مع مكتبة استنساخ الصوت من مستودع GitHub المقدم.
تحميل النماذج وتهيئة Hubert:
- يحمل النماذج اللازمة وتهيئة مدير Hubert لاستخراج الرمز المميز الدلالي.
تحميل ومعالجة الصوت:
- يقوم بتحميل ملف الصوت ويحوله لمزيد من المعالجة.
- يستخلص المتجهات الدلالية والرموز باستخدام نموذج Hubert.
تشفير وحفظ المطالبات:
- يشفر إطارات الصوت باستخدام Encodec.
- يحفظ المطالبات الجميلة والخشنة والدلالية كصفائف numpy.
توليد الصوت باستخدام اللحاء:
- نماذج اللحاء المسبقة للنص ، والتوليد الخشن ، والخشن ، وبرنامج الترميز.
- يولد الصوت باستخدام مطالبات النص ، والمطالبات الدلالية ، ومطالبات التاريخ.
تشغيل وحفظ الصوت الذي تم إنشاؤه:
- يلعب الصوت الذي تم إنشاؤه باستخدام صوت Ipython.
- اختياريا ، يحفظ الصوت الذي تم إنشاؤه كملف WAV.
إجمالي وقت التشغيل:
- يعرض إجمالي الوقت المستغرق لتنفيذ البرنامج النصي.
استخدام النص
- تأكد من تثبيت Google Drive مع إمكانية الوصول إلى مجلد عينات الصوت المطلوب.
- تعديل المعلمات مثل
audio_filepath و voice_name و output_path وفقًا لإعدادك. - قم بتشغيل البرنامج النصي لاستنساخ الصوت ، وإنشاء الصوت ، وحفظ الإخراج اختياريًا.
معلومات إضافية
- يقوم البرنامج النصي بتثبيت ويستخدم اللحاء مع مكتبة استنساخ الصوت من مستودع GitHub المقدم.
- اضبط المسارات والمعلمات والمطالبات حسب الحاجة لمشروع استنساخ الصوت الخاص بك.
- يمكن تشغيل الصوت الذي تم إنشاؤه مباشرة أو حفظه كملف WAV.
- تأكد من تثبيت التبعيات اللازمة وتكوينها بشكل صحيح.
6. Coqui TTS Calling API (غير موجود بعد الآن - لا يمكن استخدامه)
ملخص
يعرض هذا البرنامج النصي عملية استنساخ صوت باستخدام API Coqui TTS. يتضمن استيراد المكتبات اللازمة ، وإجراء مكالمات API لاستنساخ صوت من ملف صوتي ، وإنشاء نص إلى كلام باستخدام الصوت المستنسخ.
المهام
مكتبات الاستيراد:
- واردات المكتبات المطلوبة ، بما في ذلك
requests إجراء مكالمات API.
تعيين المعلمات:
- يقوم بتعيين المعلمات مثل المسار إلى ملف الصوت الإدخال ، والمسار لحفظ ملف الصوت الجديد ، والنص المراد قراءته.
استدعاء Coqui TTS API لاستنساخ الصوت:
- يستدعي Coqui TTS API لاستنساخ صوت من ملف الصوت المقدم.
- يستخرج معرف الصوت للصوت المستنسخ من أجل النص إلى الكلام اللاحق.
استدعاء Coqui TTS API للرسائل النصية:
- يدعو Coqui TTS API لتحويل النص المحدد إلى خطاب باستخدام الصوت المستنسخ.
- يسترجع عنوان URL الصوتي للخطاب الذي تم إنشاؤه.
قم بتنزيل وحفظ الصوت:
- يقوم بتنزيل ملف الصوت الذي تم إنشاؤه من عنوان URL المقدم.
- يحفظ ملف الصوت إلى المسار المحدد.
استخدام النص
- قم بتوفير المسار إلى ملف الصوت الإدخال (
path_audio ) ، والمسار لحفظ ملف الصوت الجديد ( save_path ) ، والنص المراد قراءته ( text_to_read ). - الحصول على مفتاح API اللازم من موقع Coqui TTS واستبدل العنصر النائب في
headers بالمفتاح الفعلي. - قم بتشغيل البرنامج النصي لاستنساخ الصوت وإنشاء نص إلى كلام.
معلومات إضافية
- يستخدم البرنامج النصي واجهة برمجة تطبيقات Coqui TTS للاستنساخ الصوتي ونص إلى كلام.
- اضبط المعلمات واستبدل مفتاح API لتناسب حالة الاستخدام المحددة.
- تأكد من امتثال سياسات استخدام API Coqui TTS.
- يتم حفظ ملفات الصوت التي تم تنزيلها محليًا كما هو محدد في
save_path .