تنزيل WavThruVec_pytorch - تنزيل رمز المصدر WavThruVec

WavThruVec_pytorch

كود الذكاء الاصطناعي

1.0.0

تنزيل

wavthruvec pytorch

تطبيق غير رسمي لـ Wavthruvec على أساس Pytorch.

الورقة الأصلية هي Wavthruvec: تمثيل الكلام الكامن كسمات وسيطة لتوليف الكلام العصبي

بنيان

يتبع نموذج Text2VEC في الغالب بنية Fastspeech (xcmyz's). لقد قمت بتعديل النموذج ، بشكل رئيسي على RAD-TTS (NVIDIA'S). وأضيف ECAPA_TDNN كمشفر مكبر صوت ، لحالة Multi-Speaker.

للحصول على تفاصيل أخرى لم يتم ذكرها في الورقة ، أتابع أيضًا RAD-TTS.

يعتمد VEC2WAV في الغالب على HIFI-GAN ، ويقدم تطبيع الدُفعات الشرطية لشرط الشبكة على تضمين السماعة. تسلسل معدلات upsample هو (5،4،4،2،2) وبالتالي فإن عامل التخطي هو $ Times 320 $ (الورقة الأصلية هي $ Times 640 $ ) ، وبعبارة أخرى ، فإن WAVs المولدة لها معدل عينة قدره 16 كيلو هرتز (32 كيلو هرتز في الورق الأصلي) ،.

Text2Vec التدريب

Text2vec الاستدلال

VEC2WAV

مدخل

للنص:

لا تستخدم أي طرق تطبيع نص أو صوتية مستندة إلى القواعد ، ولكن تغذية الحرف الخام والتحول إلى إبطال النصوص كمدخلات.

للصوت:

استخدم إخراج WAV2VEC 2.0 كميزة WAV (بدلاً من طيف MEL) ، مع DTYPE من 'float32' وشكل (batch_size, n_frame, n_channel) .

ملاحظة: N_Channel = 768 أو 1024 ، يعتمد على إصدار نموذج WAV2VEC 2.0 الذي تستخدمه ، لأن TencentGamemate توفر Vistseq-Version (768) و Unggingface-Version (1024). هذين الإصدارين له شكل إخراج مختلف.

WAV2VEC 2.0 قبل

من هذا المستودع WAV2VEC2.0 (خطاب الكلام الصيني قبل) ، ويمكن العثور عليه أيضًا في Huggingface

attn_prior

أحد أكبر الفرق بين Wavthruvec و Fastspeech هو وحدة البحث عن المحاذاة الرتابة (MAS) (راجع إلى alignment.py ).

في Fastspeech ، تشمل مدخلات التدريب محاذاة للمعلم لإطارات MEL ورموز النص. على وجه التحديد ، يتضمن استخدام MFA لإنشاء duration إطارات MEL لكل رمز نصية قبل التدريب.

أثناء وجوده في WavThruvec ، يتم إنشاء duration باستخدام MAS من RAD-TTS ، ويتم تغذيتها في الطول (المدة).

وفقًا لبحث المحاذاة الرتيب وتطبيق RAD-TTS ، عند تدريب النموذج ، سيتم إنشاء ملفات محاذاة ضمن './data/align_prior' {n_token}_{n_feat}_prior.pth

بيئة

كودا 10.1
بيثون 3.9.7
الشعلة 1.8.1+CU101
Torch-Optimizer 0.3.0
Torchaudio 0.8.1
Tensorboard 2.12.0
Librosa 0.8.0
Numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

مجموعة البيانات والاستعداد

Aishell3

repars_data.py:

1. اقرأ ملفات WAV و WAV2VEC2 PRETRAINED ، وقم بإعادة نموذج WAVS إلى 16 كيلو هرتز ، وتحويلها إلى ملفات .npy ، والتي تحظى بميزة WAV2VEC 2.0 المقابلة.
2. اقرأ نسخ Aishell3 (content.txt) ، وتصفية الصوتية الصينية والفارغ. خذ مسار النسخ ومسار الملف لإنشاء قائمة القطار (./ data/enc_train.txt).
3. بناء المفردات ، والتي سيتم استخدامها لتحويل الأحرف إلى متغير الشعلة.

على سبيل المثال ، قم بإعداد _data.py فقط تأخذ بعض المتحدثين وبعض ملفات WAV.

تمرين

WavThruvec يناقض مكونان: Text2Vec (التشفير) و VEC2WAV (فك ترميز) ، ويتدربون بشكل مستقل

وهكذا ، وضعت لهم في اثنين من dips منفصلة واستخدمت تكوينات التدريب المختلفة لكل منهما.

Tensorboard

يتم تخزين سجلات Tensorboard في دليل run/{log_seed}/tb_logs . لنفترض log_seed=1 ، يمكنك استخدام هذا الأمر لخدمة Tensorboard على مضيفك المحلي.

 tensorboard --logdir run/1/tb_logs

حفظ نقطة التفتيش واستعادة

يتم حفظ نقاط التفتيش النموذجية في دليل run/{log_seed}/model_new .

افترض أنك حفظ نقاط التفتيش كل 10000 تكرار ، والآن لديك نقطة تفتيش نقطة checkpoint_10000.pth.tar . إذا كنت بحاجة إلى إعادة تشغيل التدريب في step 10000 ، فاستخدم هذا الأمر.

 python ./text2vec/train.py --restore_step 10000

تودو

التجربة والأداء
مزيد من التفاصيل للتنفيذ

مرجع

مستودع

Fastspeech (xcmyz)
WAV2VEC2.0 (خطاب صيني قبل)
RAD-TTS (NVIDIA'S)
GAN-TTS (Yanggeng1995's)
HIFI-GAN
Fastpitch (Dan-Wells ')
ecapa_tdnn (تاو رويجي)
ECAPA_TDNN (Lawlict's)
توهج tts (Jaywalnut310)

ورق

Fastspeech
Fastspeech2
HIFI-GAN
wav2vec
RAD-TTS
البحث عن محاذاة رتابة

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-14
الحجم 892.77KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل