(غير رسمي) تنفيذ Tensorflow من Diffwave (Zhifeng Kong et al. ، 2020)
تم اختباره في بيثون 3.7.3 بيئة كوندا ، المتطلبات. txt
لتنزيل مجموعة بيانات LJ-Speech ، قم بتشغيله تحت البرنامج النصي.
سيتم تنزيل مجموعة البيانات في "~/TensorFlow_Datasets" بتنسيق tfrecord. إذا كنت ترغب في تغيير دليل التنزيل ، فحدد معلمة data_dir من LJSpeech Enthomizer.
from dataset import LJSpeech
from dataset . config import Config
config = Config ()
# lj = LJSpeech(config, data_dir=path, download=True)
lj = LJSpeech ( config , download = True ) لتدريب الطراز ، تشغيل Train.py.
سيتم كتابة نقطة التفتيش على TrainConfig.ckpt ، ملخص Tensorboard على TrainConfig.log .
python train.py
tensorboard --logdir ./log/ إذا كنت ترغب في تدريب النموذج من Raw Audio ، حدد دليل الصوت وقم بتشغيل العلم --from-raw .
python . t rain.py --data-dir D: L JSpeech-1.1 w avs --from-raw للبدء في التدريب من نقطة التفتيش السابقة ، تتوفر --load-step .
python . t rain.py --load-step 416 --config ./ckpt/q1.jsonللتجارب ، مرجع expr.ipynb.
لمجموعة اختبار الاستدلال ، قم بتشغيل interference.py.
python . i nference.pyيتم ربط نقاط التفتيش المسبقة على الإصدارات.
لاستخدام النموذج المسبق ، قم بتنزيل الملفات وفك ضغطه. Checkout GIT مستودع لعلامات الالتزام والمتابعة هي نموذج نص.
with open ( 'l1.json' ) as f :
config = Config . load ( json . load ( f ))
diffwave = DiffWave ( config . model )
diffwave . restore ( './l1/l1_1000000.ckpt-1' ). expect_partial ()RES.CHANNELS = 64 ، t = 20 ، تدريب 1M خطوات.

المرجع https://revsic.github.io/tf-diffwave.