التنفيذ الرسمي لـ Editts: التحرير القائم على النتائج للرسائل النصية القابلة للتحكم. عينات الصوت متوفرة على الصفحة التجريبية الخاصة بنا.
نقدم Editts ، وهي منهجية تحرير الكلام على الجرف تستند إلى النمذجة التوليدية القائمة على الدرجات لتوليف النص إلى الكلام. يسمح Editts بالتحرير المستهدف والمحبلات للصوت ، سواء من حيث المحتوى والملعب ، دون الحاجة إلى أي تدريب إضافي أو تحسين خاص بالمهمة أو التعديلات المعمارية على العمود الفقري القائم على النتيجة. على وجه التحديد ، نحن نطبق الاضطرابات الخشنة والمتعمدة في المساحة السابقة الغوسية للحث على السلوك المطلوب من نموذج الانتشار ، مع تطبيق الأقنعة وتليين النواة لضمان تطبيق التعديلات التكرارية فقط على المنطقة المستهدفة. توضح اختبارات الاستماع أن EditTs قادرة على توليد الصوت الطبيعي بشكل موثوق الذي يفي بالمتطلبات التي يفرضها المستخدم.
يرجى الاستشهاد بهذا العمل على النحو التالي.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} قم بإنشاء بيئة افتراضية Python ( venv أو conda ) وتثبيت متطلبات الحزمة كما هو محدد في requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtبناء وحدة محاذاة رتابة.
cd model/monotonic_align
python setup.py build_ext --inplaceلمزيد من المعلومات ، راجع المستودع الرسمي لـ Grad-TTS.
يتم تضمين نقاط التفتيش التالية بالفعل كجزء من هذا المستودع ، ضمن checkpts .
قم بإعداد ملف إدخال يحتوي على عينات لتوليد الكلام. حدد الجزء المراد تحريره عبر فاصل شريط عمودي ، | . على سبيل المثال ، قد تبدو عينة واحدة
في | وجه العوائق معترف به بصراحة |
نحن نقدم نموذج إدخال عينة في resources/filelists/edit_pitch_example.txt .
لتشغيل الاستدلال ، اكتب
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs اضبط CUDA_VISIBLE_DEVICES حسب الاقتضاء.
قم بإعداد ملف إدخال يحتوي على أزواج من الجمل. تسلسل كل زوج مع # وعلامة الأجزاء المراد استبدالها بفاصل شريط عمودي. على سبيل المثال ، قد يبدو زوجًا واحدًا
ثلاثة آخرين في وقت لاحق | تم تحديده | أوزوالد من صورة. #ثلاثة آخرين في وقت لاحق | معترف بها | أوزوالد من صورة.
نحن نقدم نموذج إدخال عينة في resources/filelists/edit_content_example.txt .
لتشغيل الاستدلال ، اكتب
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsتم إصداره تحت رخصة GNU العامة المعدلة.