التنفيذ غير الرسمي لـ TensorFlow للنمذجة التوليدية الهرمية لتوليف الكلام القابل للتحكم
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
تُظهر الشجرة السابقة ما الحالة الحالية للمستودع.
أولاً ، تحتاج إلى تثبيت Python 3.5 مع TensorFlow V1.6.
التالي يمكنك تثبيت المتطلبات:
PIP تثبيت -r متطلبات. txt
آخر:
PIP3 تثبيت -RESERES.TXT
تم اختبار هذا الريبو على مجموعة بيانات LJSPEEDE ، التي لديها ما يقرب من 24 ساعة من التسجيل الصوتي للممثلة المسمى.
قبل تشغيل الخطوات التالية ، يرجى التأكد من أنك داخل مجلد Tacotron-2
CD Tacotron-2
يمكن بعد ذلك البدء في المعالجة المسبقة باستخدام:
Python preprocess.py
أو
Python3 preprocess.py
يمكن اختيار مجموعة البيانات باستخدام وسيطة dataset . الافتراضي هو ljspeech .
يمكن تدريب نموذج التنبؤ بالميزات باستخدام:
Python Train.py -model = 'tacotron'
أو
Python3 Train.py -model = 'tacotron'
هناك ثلاثة أنواع من توليف طيفي MEL لشبكة التنبؤ الطيفي (Tacotron):
Python synthesize.py -model = 'tacotron' -mode = 'eval' -resference_audio = 'ref_1.wav'
أو
python3 synthesize.py -model = 'tacotron' -mode = 'eval' -reference_audio = 'ref_1.wav'
ملحوظة:
eval .Blizzard 2013 voice dataset (حوالي 0.001) لا يحصل على نقل ومراقبة نمط جيد ، قد يكون لأن هذا النموذج مدرب على LJSPEEDE التي لا تمثل مجموعات بيانات معبرة تمامًا ، ولديها فقط من البيانات التي يتم تشغيلها على مدار 24 ساعة.wavenet وكذلك WaveRNN .تودو
العمل قيد التقدم