تنزيل MockingBird - تنزيل رمز مصدر MockingBird

MockingBird

شفرة المصدر الأخرى

1.0.0

تنزيل

على الرغم من أنني لم أعد أقوم بتحديث هذا الريبو بنشاط ، إلا أنه يمكنك أن تجدني دفع هذه التقنية باستمرار إلى جانب جيد ومصدر مفتوح. أنا أيضًا أقوم ببناء نسخة مستضافة محسّنة ومستضافة: https://noiz.ai/ وهي مجانية ولكنها ليست جاهزة للاستخدام التجاري الآن.

الطائر المحاكي

الإنجليزية | 中文 | 中文 Linux

سمات

الماندرين الصيني المدعوم واختباره مع مجموعات بيانات متعددة: Aidatatang_200ZH ، MagicData ، Aishell3 ، Data_aishell ، وما إلى ذلك.

عملت Pytorch في Pytorch ، التي تم اختبارها في إصدار 1.9.0 (الأحدث في أغسطس 2021) ، مع GPU Tesla T4 و GTX 2060

يعمل Windows + Linux في كل من نظام التشغيل Windows و Linux OS (حتى في M1 MacOS)

تأثير سهل ورائع مع مزج تم توليفه تم تدريبه حديثًا ، عن طريق إعادة استخدام المشفر/المتفرج المسبق

خادم ويب جاهز لتقديم نتائجك مع الاتصال عن بُعد

فيديو تجريبي

بداية سريعة

1. التثبيت متطلبات

1.1 الإعداد العام

اتبع الريبو الأصلي لاختبار إذا كنت جاهزًا للبيئة. ** Python 3.7 أو أعلى ** مطلوب لتشغيل صندوق الأدوات.

تثبيت Pytorch.

إذا حصلت على ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2 ) نسخة منخفضة من Python ، حاول استخدام 3.9 وسيتم تثبيتها بنجاح

تثبيت FFMPEG.
قم بتشغيل pip install -r requirements.txt لتثبيت الحزم الضرورية المتبقية.

البيئة webrtcvad-wheels بها هنا هي Repo Tag 0.0.1 Pytorch1.9.0 with Torchvision0.10.0 and cudatoolkit10.2 requirements.txt requirements. txt تم تصدير requirements. txt قبل بضعة أشهر ، لذلك لا يعمل مع إصدارات أحدث

تثبيت Webrtcvad pip install webrtcvad-wheels (إذا كنت بحاجة)

أو

تثبيت التبعيات مع conda أو mamba
conda env create -n env_name -f env.yml
mamba env create -n env_name -f env.yml
سيخلق بيئة افتراضية عند تثبيت التبعيات اللازمة. قم بالتبديل إلى البيئة الجديدة بواسطة conda activate env_name واستمتع بها.
يتضمن Env.Yml التبعيات اللازمة فقط لتشغيل المشروع-مؤقتًا دون محاذاة رتابة. يمكنك التحقق من الموقع الرسمي لتثبيت إصدار GPU من Pytorch.

1.2 الإعداد مع M1 Mac

الخطوات التالية هي حل بديل لاستخدام demo_toolbox.py الأصلي دون تغيير الرموز.
نظرًا لأن المشكلة الرئيسية تأتي مع حزم PYQT5 المستخدمة في demo_toolbox.py غير متوافق مع رقائق M1 ، كانت واحدة لمحاولة على نماذج التدريب باستخدام شريحة M1 ، إما أن يتخلى هذا الشخص عن demo_toolbox.py ، أو يمكن للمرء تجربة web.py . المشروع.

1.2.1 تثبيت `PyQt5` ، مع المرجع هنا.

إنشاء وفتح محطة Rosetta ، مع المرجع هنا.

استخدم نظام Python لإنشاء بيئة افتراضية للمشروع

/usr/bin/python3 -m venv /PathToMockingBird/venv
source /PathToMockingBird/venv/bin/activate

ترقية PIP وتثبيت PyQt5

pip install --upgrade pip
pip install pyqt5

1.2.2 تثبيت `pyworld` و `ctc-segmentation`

يبدو أن كلتا الحزمتين فريدة لهذا المشروع ولا يتم رؤيتها في مشروع استنساخ الصوت الأصلي في الوقت الفعلي. عند التثبيت مع pip install ، تفتقر كلا الحزمان إلى عجلات ، لذا يحاول البرنامج تجميعها مباشرة من رمز C ولم يتمكن من العثور على Python.h .

تثبيت pyworld

brew install python Python.h يمكن أن يأتي مع Python مثبتة بواسطة Brew
export CPLUS_INCLUDE_PATH=/opt/homebrew/Frameworks/Python.framework/Headers filepath من Python.h . يحتاج المرء إلى إضافة المسار يدويًا إلى متغيرات البيئة.
pip install pyworld التي ينبغي أن تفعل.

تثبيت ctc-segmentation
لا تنطبق نفس الطريقة على ctc-segmentation ، ويحتاج المرء إلى تجميعه من الرمز المصدر على Github.

git clone https://github.com/lumaku/ctc-segmentation.git
cd ctc-segmentation
source /PathToMockingBird/venv/bin/activate إذا لم يتم نشر البيئة الافتراضية ، تنشطها.
cythonize -3 ctc_segmentation/ctc_segmentation_dyn.pyx
/usr/bin/arch -x86_64 python setup.py build build with x86 Architecture.
/usr/bin/arch -x86_64 python setup.py install --optimize=1 --skip-build تثبيت مع بنية X86.

1.2.3 التبعيات الأخرى

/usr/bin/arch -x86_64 pip install torch torchvision torchaudio pip تثبيت PyTorch كمثال على ذلك ، يعبر عن تثبيته مع بنية x86
pip install ffmpeg تثبيت FFMPEG
pip install -r requirements.txt تثبيت متطلبات أخرى.

1.2.4 قم بتشغيل وقت الاستدلال (مع صندوق الأدوات)

لتشغيل المشروع على X86 Architecture. المرجع.

vim /PathToMockingBird/venv/bin/pythonM1 إنشاء ملف قابل للتنفيذ pythonM1 لشرط المترجم Python في /PathToMockingBird/venv/bin .

اكتب في المحتوى التالي:

#!/usr/bin/env zsh
mydir=${0:a:h}
/usr/bin/arch -x86_64 $mydir/python "$@"

chmod +x pythonM1 قم بتعيين الملف على أنه قابل للتنفيذ.
في حالة استخدام Pycharm IDE ، قم بتكوين مترجم المشروع إلى pythonM1 (الخطوات هنا) ، إذا كان استخدام سطر الأوامر Python ، Run /PathToMockingBird/venv/bin/pythonM1 demo_toolbox.py

2. قم بإعداد النماذج الخاصة بك

لاحظ أننا نستخدم التشفير/المتفرجات المسبق ولكن ليس المزج ، لأن النموذج الأصلي غير متوافق مع الرموز الصينية. وهذا يعني أن demo_cli لا يعمل في هذه اللحظة ، لذلك مطلوب نماذج مزج إضافية.

يمكنك إما تدريب النماذج الخاصة بك أو استخدام النماذج الموجودة:

2.1 ترميز القطار مع مجموعة البيانات الخاصة بك (اختياري)

المعالجة المسبقة مع Audios و MELPLICTORGRAMS: python encoder_preprocess.py <datasets_root> السماح للمعلمة --dataset {dataset} لدعم مجموعات البيانات التي تريد المعالجة المسبقة. سيتم استخدام مجموعة القطار فقط من مجموعات البيانات هذه. الأسماء الممكنة: Librispeech_other ، voxceleb1 ، voxceleb2. استخدام الفاصلة لسباحة مجموعات البيانات المتعددة.
تدريب الترميز: python encoder_train.py my_run <datasets_root>/SV2TTS/encoder

للتدريب ، يستخدم المشفر Visdom. يمكنك تعطيله --no_visdom ، لكن من الجيد أن يكون لديك. قم بتشغيل "Visdom" في عملية CLI/عملية منفصلة لبدء خادم Visdom الخاص بك.

2.2 مزج قطار مع مجموعة البيانات الخاصة بك

قم بتنزيل DataSet و Unzip: تأكد من أنه يمكنك الوصول إلى كل .wav في المجلد
المعالجة المسبقة مع Audios و MELPLICTORGRAMS: python pre.py <datasets_root> السماح للمعلمة --dataset {dataset} لدعم Aidatatang_200ZH ، MagicData ، Aishell3 ، Data_aishell ، إلخ.
تدريب المخلف: python train.py --type=synth mandarin <datasets_root>/SV2TTS/synthesizer
انتقل إلى الخطوة التالية عندما ترى عرض خط الانتباه والخسارة تلبي احتياجاتك في مزج مجلد التدريب/ Save_Models/ .

2.3 استخدم نموذجًا مسبقًا من المزج

بفضل المجتمع ، سيتم مشاركة بعض النماذج:

مؤلف	الرابط تنزيل	معاينة الفيديو	معلومات
@مؤلف	https://pan.baidu.com/s/1ionvrxmki-t1nhqxkyty3g baidu 4j5d		75 ألف خطوة تدربها مجموعات بيانات متعددة
@مؤلف	https://pan.baidu.com/s/1fmh9ilgkjll2piirtyduvw رمز baidu ： om7f		25K خطوة تدربها مجموعات بيانات متعددة ، تعمل فقط تحت الإصدار 0.0.1
fawenyo	https://yisiou-my.sharepoint.com/:u:/g/personal/lawrence_cheng_fawenyo_onmicrosoft_com/ewfwdhzee-nng9twdkccc4bc7bk2j9ccbown0nog؟	إخراج الإدخال	200k خطوة مع لهجة تايوان المحلية ، يعمل فقط تحت الإصدار 0.0.1
miven	https://pan.baidu.com/s/1pi-hm3sn5wbechrryx-rcq الكود: 2021 https://www.aliyundrive.com/s/awpsbo8mcsp الرمز: Z2M0	https://www.bilibili.com/video/bv1uh411b7ad/	يعمل فقط تحت الإصدار 0.0.1

2.4 Train Vocoder (اختياري)

ملاحظة: لدى Vocoder فرقًا كبيرًا في الواقع ، لذلك قد لا تحتاج إلى تدريب واحدة جديدة.

المعالجة المسبقة للبيانات: python vocoder_preprocess.py <datasets_root> -m <synthesizer_model_path>

<datasets_root> استبدل بجذر مجموعة البيانات الخاصة بك ， <synthesizer_model_path> استبدال مع دليل أفضل نماذج مدربة من Sythensizer ، على سبيل المثال sythensizersaved_modexxx

تدريب Wavernn Vocoder: python vocoder_train.py mandarin <datasets_root>
تدريب Hifigan Vocoder python vocoder_train.py mandarin <datasets_root> hifigan

3. الإطلاق

3.1 باستخدام خادم الويب

يمكنك بعد ذلك محاولة التشغيل: python web.py وفتحه في المتصفح ، افتراضيًا مثل http://localhost:8080

3.2 باستخدام صندوق الأدوات

يمكنك بعد ذلك تجربة مربع الأدوات: python demo_toolbox.py -d <datasets_root>

3.3 باستخدام سطر الأوامر

يمكنك بعد ذلك تجربة الأمر: python gen_voice.py <text_file.txt> your_wav_file.wav قد تحتاج إلى تثبيت CN2AN بواسطة "PIP تثبيت CN2AN" للحصول على نتيجة رقمية أفضل.

مرجع

هذا المستودع متشعب من تشييد الصناديق في الوقت الفعلي والذي يدعم اللغة الإنجليزية فقط.

عنوان URL	تعيين	عنوان	مصدر التنفيذ
1803.09017	GlobalStySteroken (Synthesizer)	الرموز النمطية: نمذجة النمذجة غير الخاضعة للرقابة والتحكم والنقل في تخليق الكلام من طرف إلى طرف	هذا الريبو
2010.05646	HIFI-GAN (VOCODER)	شبكات الخصومة التوليدية لتوليف خطاب فعال وعالي الإخلاص	هذا الريبو
2106.02297	FRE-VAN (VOCODER)	FRE-VAN: تخليق الصوت المتسق للترددات العدائية	هذا الريبو
1806.04558	SV2TTS	نقل التعلم من التحقق من مكبر الصوت إلى توليف النص إلى كلام متعدد النطاقات	هذا الريبو
1802.08435	Wavernn (Vocoder)	تخليق الصوت العصبي الفعال	Fatchord/Wavernn
1703.10135	تاكوترون (مزج)	تاكوترون: نحو تخليق الكلام من شوط إلى النهاية	Fatchord/Wavernn
1710.10467	GE2E (تشفير)	خسارة معممة من طرف إلى طرف للتحقق من المتحدثين	هذا الريبو

و سؤال وجواب

1. أين يمكنني تنزيل مجموعة البيانات؟

مجموعة البيانات	المصدر الأصلي	مصادر بديلة
Aidatatang_200zh	openslr	محرك Google
MagicData	openslr	Google Drive (مجموعة DEV)
Aishell3	openslr	محرك Google
data_aishell	openslr

بعد unsip Aidatatang_200ZH ، تحتاج إلى فك ضغط جميع الملفات بموجب aidatatang_200zhcorpustrain

2. ما هو `<datasets_root>` ؟

إذا كان مسار مجموعة البيانات D:dataaidatatang_200zh ، فإن <datasets_root> هو D:data

3. لا يكفي VRAM

تدريب المزيج ： اضبط batch_size في synthesizer/hparams.py

//Before
tts_schedule = [(2,  1e-3,  20_000,  12),   # Progressive training schedule
                (2,  5e-4,  40_000,  12),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  12),   #
                (2,  1e-4, 160_000,  12),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  12),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  12)],  # lr = learning rate
//After
tts_schedule = [(2,  1e-3,  20_000,  8),   # Progressive training schedule
                (2,  5e-4,  40_000,  8),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  8),   #
                (2,  1e-4, 160_000,  8),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  8),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  8)],  # lr = learning rate

المعالجة المفرطة في القطار البيانات ： اضبط batch_size في synthesizer/hparams.py

//Before
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 16,                  # For vocoder preprocessing and inference.
//After
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 8,                  # For vocoder preprocessing and inference.

Train Vocoder-Train the Vocoder ： اضبط Batch_size في vocoder/wavernn/hparams.py

//Before
# Training
voc_batch_size = 100
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad = 2

//After
# Training
voc_batch_size = 6
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad =2

4. إذا حدث `RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder.embedding.weight: copying a param with shape torch.Size([70, 512]) from checkpoint, the shape in current model is torch.Size([75, 512]).`

يرجى الرجوع إلى العدد رقم 37

5. كيفية تحسين معدل إشغال وحدة المعالجة المركزية و GPU؟

اضبط batch_size حسب الاقتضاء للتحسين

6. ماذا لو حدث أن `the page file is too small to complete the operation`

يرجى الرجوع إلى هذا الفيديو وتغيير الذاكرة الافتراضية إلى 100 جرام (102400) ، على سبيل المثال: عندما يتم وضع الملف في القرص D ، يتم تغيير الذاكرة الافتراضية للقرص D.