vits2_pytorch download - vits2_pytorch source code download

vits2_pytorch

كود الذكاء الاصطناعي

1.0.0

تنزيل

VITS2: تحسين جودة وكفاءة نصوص واحدة من النصوص إلى التعلم وتصميم الهندسة المعمارية

Jungil Kong ، Jihoon Park ، Beomjeong Kim ، Jeongmin Kim ، Dohee Kong ، Sangjin Kim

التنفيذ غير الرسمي لورقة VITS2 ، تتمة إلى Vits Paper. (بفضل المؤلفين على عملهم!)

نص بديل

تمت دراسة نماذج النص إلى الكلام أحادي المرحلة مؤخرًا ، وقد تفوقت نتائجها على أنظمة خطوط أنابيب على مرحلتين. على الرغم من أن النموذج السابق للمرحلة الواحدة قد أحرز تقدمًا كبيرًا ، إلا أن هناك مجالًا للتحسين من حيث غير طبيعي ، وكفاءة حسابية ، والاعتماد القوي على تحويل الصوت. في هذا العمل ، نقدم VITS2 ، وهو نموذج نص إلى خطاب من مرحلة واحدة يقوم بتجميع خطاب أكثر طبيعية بكفاءة من خلال تحسين عدة جوانب من العمل السابق. نقترح تحسين الهياكل وآليات التدريب ونحضر أن الأساليب المقترحة فعالة في تحسين الطبيعية ، وتشابه خصائص الكلام في نموذج متعدد المتحدثين ، وكفاءة التدريب والاستدلال. علاوة على ذلك ، نثبت أن الاعتماد القوي على تحويل الصوت في الأعمال السابقة يمكن تقليله بشكل كبير من خلال طريقتنا ، مما يسمح بنهج مرحلة واحدة من طراز واحد.

الاعتمادات

سنقوم ببناء هذا الريبو بناءً على حالات الريبو. الهدف من ذلك هو جعل هذا النموذج أسهل في نقل التعلم من النموذج المسبق!
(08-17-2023)-كان المؤلفون لطيفون حقًا لإرشادي عبر الورقة والإجابة على أسئلتي. أنا منفتح لمناقشة أي تغييرات أو الإجابة على الأسئلة المتعلقة بالتنفيذ. لا تتردد في فتح مشكلة أو الاتصال بي مباشرة.

نقاط التفتيش المسبقة

ljspeech-no-sdp (ارجع إلى config.yaml في مجلد checkppoint هذا) | 64k خطوات | إثبات أن التدريب يعمل! أوصي الخبراء بإعادة تسمية CKPTS إلى *_0.pth وبدء التدريب باستخدام التعلم النقل. (سأضيف دفتر ملاحظات لهذا قريبًا لمساعدة المبتدئين).
تحقق من صفحة "المناقشة" لسجلات التدريب وروابط التكرار والمساهمات المجتمعية الأخرى.

عينة من الصوت

عينات نموذجية روسية مدربة #32. بفضل shigabeev لمشاركة العينات.
بعض العينات على صفحة مناقشة مجموعة البيانات غير الأصلية. بفضل Athenasaurav لاستخدام موارد GPU الخاصة به ومجموعة البيانات!
إضافة عينة الصوت @104k خطوات. ljspeech-nosdp ؛ Tensorboard
العينات الفيتنامية بفضل @ductho9799 للمشاركة!

المتطلبات الأساسية

بيثون> = 3.10
تم اختباره على إصدار Pytorch 1.13.1 مع Google Colab و Lambdalabs Cloud.
استنساخ هذا المستودع
تثبيت متطلبات بيثون. يرجى إحالة المتطلبات. txt
1. قد تحتاج إلى تثبيت espeak أولاً: apt-get install espeak
قم بتنزيل مجموعات البيانات
1. قم بتنزيل واستخراج مجموعة بيانات الكلام LJ ، ثم إعادة تسمية أو إنشاء رابط إلى مجلد DataSet: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. لإعدادات Mults-Speaker ، قم بتنزيل واستخراج مجموعة بيانات VCTK ، وملفات WAV Downsample إلى 22050 هرتز. ثم أعد تسمية أو إنشاء رابط إلى مجلد مجموعة البيانات: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
قم ببناء البحث في محاذاة رتيب وتشغيل المعالجة المسبقة إذا كنت تستخدم مجموعات البيانات الخاصة بك.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

كيفية الجري (الجفاف في الجفاف)

النموذج الأمامي تمريرة (الجافة)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

مثال التدريب

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

تودوس والميزات والملاحظات

تنبؤ المدة (الشكل 1A)

وأضاف تمييز LSTM إلى المتنبئ المدة.
أضيفت فقدان العدواني إلى المتنبئ المدة. ("use_duration_discriminator" علامة في ملف التكوين ؛ الافتراضي هو "صحيح")
البحث عن محاذاة رتابة مع الضوضاء الغوسية المضافة. قد تحتاج إلى التحقق من الخبراء (القسم 2.2)
تمت إضافة "use_noise_scaled_mas" في ملف التكوين. اختر من صواب أو خطأ ؛ تحديث الضوضاء أثناء التدريب بناءً على عدد الخطوات ولا يقل عن 0.0 أبدًا
تحديث models.py/train.py/train_ms.py
تحديث ملفات التكوين (vits2_vctk_base.json ؛ vits2_ljs_base.json)
تحديث الخسائر في Train.py و Train_ms.py

كتلة المحولات في تدفق تطبيع (الشكل 1 ب)

أضاف كتلة المحولات إلى تدفق تطبيع. هناك ثلاثة أنواع من كتل المحولات: ما قبل الثورة (تنفيذي) ، FFT (من SO-VITS-SVC REPO) و Mono-Layer.
تمت إضافة علامة "Transformer_flow_type" في ملف التكوين. اختر من "pre_conv" ، "fft" ، "mono_layer_inter_residual" ، "mono_layer_post_residual".
طبقات وكتل إضافية في النماذج .Py (ResidualCouplingTransformersLayer ، ResearCouplingTransFormersBlock ، FftransformerCouplinglayer ، monotransformerflowlayer)
إضافة ملف التكوين (vits2_ljs_base.json ؛ يمكن تشغيله باستخدام علامة "use_transformer_flows")

تشفير نص مكيف مكيف (الشكل 1C)

تمت إضافة مكبر صوت مضاف إلى تشفير النص في النماذج.
إضافة ملف التكوين (VITS2_LJS_BASE.JSON ؛ يمكن تشغيله باستخدام "use_spk_conditioned_encoder" العلامة)

تشفير MEL Spectrogram الخلفي (القسم 3)

تمت إضافة تشفير MEL Spectrogram الخلفي في Train.py
يمكن تشغيل ملف التكوين الجديد (vits2_ljs_base.json ؛ باستخدام "use_mel_posterior_encoder")
تم تحديث "data_utils.py" لاستخدام علامة "use_mel_posterior_encoder" لـ Vits2