تنزيل SyntaSpeech - تنزيل رمز مصدر SyntaSpeech

SyntaSpeech

كود الذكاء الاصطناعي

Pretrained Models for LJ, Biaobei, and LibriTTS.

تنزيل

Swytaspeech: بناء نصية للبناء-النص العدائي

| | | 中文文档

هذا المستودع هو تنفيذ Pytorch الرسمي لورقة IJCAI-2022 الخاصة بنا ، والتي نقترح فيها syntaspeech للاتصالات التي لا يدرك النص إلى نص.

تم تصميم syntaspeech على أساس portaspeech (Neups 2021) مع ثلاث ميزات جديدة:

نقترح منشئ الرسم البياني النحوي (المادة 3.1) وشرف الرسم البياني النحوي (المادة 3.2) ، والذي ثبت أنه وحدة فعالة لاستخراج ميزات النحوية لتحسين نمذجة Prosody ودقة مدة طراز TTS.
نقدم تدريبًا عدوانيًا متعدد الطول (المادة 3.3) ، والذي يمكن أن يحل محل الشبكة اللاحقة القائمة على التدفق في Portaspeech ، مما يؤدي إلى تسريع وقت الاستدلال وتحسين جودة الصوت الطبيعية.
نحن ندعم ثلاث مجموعات بيانات: LJSPEEDE (مجموعة بيانات اللغة الإنجليزية أحادية الكلام) ، Biaobei (مجموعة بيانات صينية واحدة) ، و Libritts (مجموعة بيانات اللغة الإنجليزية متعددة الكلام).

البيئات

conda create -n synta python=3.7
condac activate synta
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 
pip install -r requirements.txt
# install dgl for graph neural network, dgl-cu102 supports rtx2080, dgl-cu113 support rtx3090
pip install dgl-cu102 dglgo -f https://data.dgl.ai/wheels/repo.html 
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install force alignment tools

تشغيل syntaspeech!

يرجى اتباع الخطوات التالية لتشغيل هذا الريبو.

1. التحضير

إعداد البيانات

يمكنك استخدام مجموعات البيانات ذات الثمينات مباشرة لـ LJSpeech و Biaobei. قم بتنزيلها وفك ضغطها في data/binary/ المجلد.

بالنسبة إلى Libritts ، يمكنك تنزيل مجموعات البيانات RAW ومعالجتها باستخدام وحدات data_gen الخاصة بنا. يمكن العثور على تعليمات مفصلة في DOSC/Express_Data.

تحضير Vocoder

نحن نقدم النموذج الذي تم تدريبه مسبقًا للمركبات لثلاث مجموعات بيانات. على وجه التحديد ، HIFI-GAN لـ LJSPEEDE و BIAOBEI ، موازية Wavegan لل Libritts. قم بتنزيلها وفك ضغطها في checkpoints/ المجلد.

2. مثال التدريب

ثم يمكنك تدريب Syntaspeech في مجموعات البيانات الثلاثة.

 cd < the root_dir of your SyntaSpeech folder >
export PYTHONPATH=./
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset # training in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset # training in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset # training in LibriTTS

3. Tensorboard

tensorboard --logdir=checkpoints/lj_synta
tensorboard --logdir=checkpoints/biaobei_synta
tensorboard --logdir=checkpoints/libritts_synta

4. مثال الاستدلال

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset --infer # inference in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset --infer # inference in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset ---infer # inference in LibriTTS

عروض صوتية

يمكن العثور على عينات صوتية في الورقة في الصفحة التجريبية الخاصة بنا.

نحن نقدم أيضًا صفحة العرض التوضيحية لـ LJSPEEDE. جرب جملك المثيرة للاهتمام هناك!

اقتباس

 @article{ye2022syntaspeech,
  title={SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech},
  author={Ye, Zhenhui and Zhao, Zhou and Ren, Yi and Wu, Fei},
  journal={arXiv preprint arXiv:2204.11792},
  year={2022}
}