TTS Tacotron Pytorch Download - TTS Tacotron Pytorch Source Code Download

TTS Tacotron Pytorch

كود الذكاء الاصطناعي

1.0.0

تنزيل

تاكوترون

تطبيق Pytorch لشبكة توليف الكلام Tacotron من Google.

يتضمن هذا التنفيذ أيضًا الاهتمام الحساس للموقع وميزات التوقف الرمزية من Tacotron 2.

علاوة على ذلك ، يتم تدريب النموذج على مجموعة بيانات الكلام LJ ، مع توفير نموذج مدرب.

يمكن العثور على عينات الصوت في دليل النتائج.

مقدمة

يعتمد هذا التنفيذ على r9y9/tacotron_pytorch ، والاختلافات الرئيسية هي:

يضيف اهتمامًا حساسًا للموقع ورمز التوقف من ورقة Tacotron 2. هذا يمكن أن يقلل إلى حد كبير من مقدار الوقت والبيانات المطلوبة لتدريب النموذج.
قم بإزالة جميع تبعيات TensorFlow التي يستخدمها R9Y9 ، والآن تعمل على Pytorch و Pytorch فقط .
يضيف وحدة الخسارة ، واستخدم فقدان L2 (MSE) بدلاً من فقدان L1.
يضيف وحدة تحميل البيانات.
دمج البرنامج النصي لبيانات الكلام LJ من Keithito.
الكود العوملة والتحسين لتصحيح أسهل والتمديد في الغضب.

علاوة على ذلك ، بعض الاختلافات عن ورقة تاكوترون الأصلية هي:

توقع r = 5 إطارات غير متتالية غير متتالية في كل خطوة فك التشفير بدلاً من r = 2.
قم بتغذية جميع إطارات R إلى خطوة إدخال وحدة فك الترميز التالية بدلاً من مجرد الإطار الأخير من إطارات R.
قم بتوسيع نطاق الخسارة على الطيف الخطي المتوقع بحيث تزن الترددات المنخفضة التي تتوافق مع الكلام البشري (من 0 إلى 3000 هرتز) أكثر.
لم يستخدم قناع الخسارة في التعلم التسلسلي إلى التسلسل ، وهذا يجبر النموذج على تعلم متى يتم إيقاف التوليف.
تعطيل التحيز لوحدة الالتواء أحادي الأبعاد في وحدة CBHG. تساعد تفاصيل التنفيذ هذه تقارب النموذج.

جودة الصوت ليست جيدة مثل عرض Google حتى الآن ، ولكن نأمل أن تتحسن في النهاية. طلبات السحب موضع ترحيب!

بداية سريعة

يثبت

استنساخ هذا الريبو: git clone [email protected]:andi611/Tacotron-Pytorch.git
قرص مضغوط في هذا الريبو: cd Tacotron-Pytorch

تثبيت التبعيات

تثبيت بيثون 3.
قم بتثبيت أحدث إصدار من Pytorch وفقًا للمنصة. لتحسين الأداء ، قم بالتثبيت باستخدام دعم GPU (CUDA) إذا كان قابلاً للتطبيق. يعمل هذا الرمز مع Pytorch 0.4 وبعد ذلك.
متطلبات التثبيت:
```
 pip3 install -r requirements.txt
```
تحذير: تحتاج إلى تثبيت الشعلة اعتمادًا على النظام الأساسي الخاص بك. هنا اذكر نسخة Pytorch المستخدمة عند بناء هذا المشروع.

تمرين

قم بتنزيل مجموعة بيانات الكلام LJ.
- خطاب LJ
يمكنك استخدام مجموعات البيانات الأخرى إذا قمت بتحويلها إلى التنسيق الصحيح. انظر التدريب_data.md لمزيد من المعلومات.
قم بفك مجموعة البيانات في ~/Tacotron-Pytorch/data
بعد التفريغ ، يجب أن تبدو شجرتك هكذا لخطاب LJ:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

المعالجة المسبقة مجموعة بيانات الكلام LJ وجعل ملفات التعريف جاهزة للمواصفات باستخدام preprocess.py:

 python3 preprocess.py --mode make

بعد المعالجة المسبقة ، ستبدو شجرتك هكذا:

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

تدريب نموذج باستخدام Train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
استعادة التدريب من نقطة تفتيش سابقة:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
تم العثور على فرط المسموحات القابلة للضبط في config.py.
يمكنك ضبط هذه المعلمات والإعداد عن طريق تحرير الملف ، ويوصى على فرطاميرات الافتراضية لخطاب LJ.
شاشة مع Tensorboard (اختياري)
```
 tensorboard --logdir 'path to log_dir'
```
يقوم المدرب بتفريغ الصوت والمحاذاة كل 2000 خطوة بشكل افتراضي. يمكنك العثور على هذه في tacotron/ckpt/ .

الاختبار: باستخدام نموذج مسبقًا واختبارًا.

قم بتشغيل بيئة الاختبار مع الوضع التفاعلي :
```
 python3 test.py --interactive --plot --model_name 500000
```
قم بتشغيل خوارزمية الاختبار على مجموعة من النصوص (يمكن العثور على النتائج في الدليل النتيجة/500000):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

شكر وتقدير

اعتمادات إلى Ryuichi Yamamoto لتنفيذ Pytorch رائع لـ Tacotron ، والذي يعتمد هذا العمل بشكل أساسي. هذا العمل مستوحى أيضًا من تطبيق Tacotron 2 Pytorch في Nvidia.