ZeroSpeech TTS without T تنزيل - ZeroSpeech TTS without T

ZeroSpeech TTS without T

كود الذكاء الاصطناعي

1.0.0

تنزيل

Zerospeech 2019: TTS بدون T - Pytorch

هذا هو الكود المصدري الأصلي للورقة "التعلم غير الخاضع للإشراف من شامل إلى طرف للوحدات اللغوية المنفصلة لتحويل الصوت" ، والذي يتم قبوله بواسطة Interspeech 2019.
Forceurmore ، استخدمنا هذا التنفيذ للتنافس في تحدي Zerospeech 2019. في فريق المتصدرين لمجموعة البيانات المفاجئة ، فإن الطريقة المقترحة هي المكان ^الثاني من حيث البت المنخفض ، مع تحقيق درجة الرأي العليا (MOS) و SER المنخفض من فريق Place ^الأول .
لا تتردد في استخدامها أو تعديلها ، وسيكون موضع تقدير أي تقرير الأخطاء أو اقتراح تحسين. إذا كان لديك أي أسئلة ، فيرجى الاتصال بـ [email protected]. إذا وجدت هذا المشروع مفيدًا لبحثك ، فيرجى التفكير في الاستشهاد بهذه الورقة ، شكرًا!

بداية سريعة

يثبت

استنساخ هذا الريبو: git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
قرص مضغوط في هذا الريبو: cd ZeroSpeech-TTS-without-T

تثبيت التبعيات

تثبيت بيثون 3.
قم بتثبيت أحدث إصدار من Pytorch وفقًا للمنصة. لتحسين الأداء ، قم بالتثبيت باستخدام دعم GPU (CUDA) إذا كان قابلاً للتطبيق. يعمل هذا الرمز مع Pytorch 0.4 وبعد ذلك.

إعداد البيانات

قم بتنزيل مجموعة بيانات Zerospeech.

مجموعة البيانات الإنجليزية:

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

مجموعة البيانات المفاجئة:

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

بعد تفريغ مجموعة البيانات في ~/ZeroSpeech-TTS-without-T/data ، يجب أن تبدو شجرة البيانات هكذا:

 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test

المعالجة المسبقة لمجموعة البيانات وعينة من ملفات فهرس جاهزة للنموذج:
```
 python3 main.py --preprocess —-remake
```

الاستخدام

تمرين

تدريب نموذج ASR-TTS Autoencoder لاكتشاف الوحدات اللغوية المنفصلة:
```
 python3 main.py --train_ae
```
يمكن العثور على فرط الممتدة القابلة للضبط في HPS/Zerospeech.json. يمكنك ضبط هذه المعلمات والإعداد عن طريق تحرير الملف ، ويوصى بفرط البراميلات الافتراضية لهذا المشروع.

تدريب TTS Patcher لتعزيز أداء التحويل الصوتي:

 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000

تدريب TTS Patcher مع تدريب الخصومة الموجهة المستهدفة:

 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000

شاشة مع Tensorboard (اختياري)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

الاختبار

اختبار على خطاب واحد ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

اختبار على "sample.txt" وإنشاء ملفات صوتية إعادة تشكيل ::
```
 python3 main.py --test --load_test_model_name=model.pth-ae-200000
```
اختبار على كل خطاب الاختبار ضمن test/ وإنشاء ملفات الترميز::
```
 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
```

إضافة- --enc_only إذا كان الاختبار باستخدام ASR-TTS Autoender فقط:

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

التبديل بين مجموعات البيانات

ما عليك سوى استخدام --dataset=surprise للتبديل إلى المجموعة البديلة الافتراضية ، يتم التعامل مع جميع المسارات تلقائيًا إذا تم وضع بنية شجرة البيانات كما هو مقترح. على سبيل المثال:
```
 python3 main.py --train_ae --dataset=surprise
```

نماذج مدربة

نحن نقدم نماذج مدربة كملفات CKPT ، رابط donwload: bit.ly/zerospeech2019-LIU
نموذج إعادة التحميل للتدريب:
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english أو --ckpt_dir=./ckpt_surprise بشكل افتراضي).

2 طرق لتحميل النموذج للاختبار:

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

الرعاية التي يجب تعيين HPS/Zerospeech.json وفقًا لذلك للنموذج الذي تقوم بتحميله. إذا تم تحميل طراز 128-multi-1024 ، فيجب ضبط seg_len و enc_size على 128 و 1024 ، على التوالي. إذا تم تحميل نموذج ae ، فيجب استخدام الوسيطة --enc_only عند تشغيل main.py (انظر 4. في قسم الاختبار).

ملحوظات

يتضمن هذا الرمز جميع الإعدادات والأساليب التي قمنا باختبارها لهذا التحدي ، بعضها لم يسبق له مثيل لكننا لم نزيلها من رمزنا. ومع ذلك ، فإن الإرشادات السابقة والإعدادات الافتراضية هي للطريقة التي اقترحناها. من خلال تشغيلهم يمكن للمرء أن يعيد إنتاج نتائجنا بسهولة.
TODO: تحميل النماذج التي تم تدريبها مسبقًا

اقتباس

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-24
الحجم 73.92MB
من Github

تطبيقات ذات صلة

F5 TTS ComfyUI

2024-11-02
حصري 4K ر

2024-06-13
كالوس ر

2024-05-26
تطبيق T حياتي

2023-09-12
تطبيق مساعد T

2023-08-18
ستابس الزومبي في فيلم التمرد بلا نبض

2022-08-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل