cs224n gpu that talks
1.0.0
تنفيذ نموذج نص إلى كلام تلافيفي يعتمد على Tachibana et. آل. (2017). بالنظر إلى سلسلة من الأحرف ، يتنبأ النموذج بسلسلة من إطارات الطيف في مرحلتين (Text2mel و SSRN).
كما تمت مناقشته في التقرير ، يمكننا الحصول على جودة صوت لائقة إلى حد ما مع Text2mel المدربين على 60 ألف خطوة ، SSRN ل 100K خطوة. هذا يتوافق مع حوالي (6+12) ساعة من التدريب على وحدة معالجة الرسومات Tesla K80 واحدة على مجموعة بيانات الكلام LJ.
النموذج المسبق : [تنزيل] العينات : [الأساس-النماذج-M4]
لمزيد من التفاصيل ، انظر: ورق الملصقات
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
قم بتشغيل كل ملف باستخدام python <script_file>.py -h لرؤية تفاصيل الاستخدام.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(من SRC/ init .py) تم الرجوع إلى رمز الأداة المساعدة من المصادر التالية ، كل الرموز الأخرى هي ملك المؤلف: