تنزيل wavenet_vocoder - wavenet_vocoder تنزيل رمز المصدر

wavenet_vocoder

بايثون

v0.1.1 release

تنزيل

Wavenet Vocoder

ملاحظة : هذا هو نسخة التطوير. إذا كنت بحاجة إلى إصدار مستقر ، فيرجى الخروج من V0.1.1.

الهدف من المستودع هو توفير تنفيذ من المتفرجات التي يمكن أن تولد عينات من الكلام الخام عالية الجودة مشروطة بالسمات اللغوية أو الصوتية.

تتوفر عينات الصوت على https://r9y9.github.io/wavenet_vocoder/.

أخبار

2019/10/31: تم تكييف المستودع مع ESPNET. تتوفر العينات الإنجليزية والصينية واليابانية والنماذج المسبقة هناك. راجع https://github.com/espnet/espnet و https://github.com/espnet/espnet#tts-results للحصول على التفاصيل.

عبر الإنترنت TTS التجريبي

يتوفر دفتر ملاحظات من المفترض أن يتم تنفيذه على https://colab.research.google.com:

Tacotron2: العرض التوضيحي النص إلى الكلام القائم على Wavenet

أبرز

ركز على التكييف المحلي والعالمي لـ Wavenet ، وهو أمر ضروري للمركبات.
يتم دعم نمذجة الصوت الخام 16 بت بواسطة توزيعات الخليط: مزيج من الخدمات اللوجستية (MOL) ، مزيج من gaussians ، وتوزيعات غاوسية واحدة.
عينات صوتية مختلفة ونماذج مدربة مسبقًا
الاستدلال السريع عن طريق تخزين المؤسسة الوسيطة في الملاحظات. على غرار Arxiv: 1611.09482
التكامل مع ESPNET (https://github.com/espnet/espnet)

نماذج مدربة مسبقا

ملاحظة : هذا ليس في حد ذاته نموذج نص إلى كلام (TTS). مع نموذج مدرب مسبقًا متوفر هنا ، يمكنك توليف الشكل الموجي بالنظر إلى طيف MEL ، وليس النص الخام. ستحتاج إلى نموذج التنبؤ الطيف (مثل Tacotron2) لاستخدام النماذج التي تم تدريبها مسبقًا لـ TTS.

ملاحظة : أما بالنسبة للنموذج المسبق لـ LJSpeech ، فقد تم ضبط النموذج عدة مرات وتدريبه على أكثر من 1000 ألف خطوة في المجموع. يرجى الرجوع إلى القضايا ( #1 ، #75 ، #45) لمعرفة كيفية تدريب النموذج.

نموذج عنوان URL	بيانات	Hyper Params URL	ارتكاب غيت	خطوات
وصلة	ljspeech	وصلة	2092A64	1000K ~ خطوات
وصلة	CMU القطب الشمالي	وصلة	B1A1076	740K خطوات

لاستخدام النماذج التي تم تدريبها مسبقًا ، قم أولاً بالخروج عن التزام GIT المحدد المذكور أعلاه. أي،

 git checkout ${commit_hash}

ثم يتبع قسم "توليف من نقطة تفتيش" في ReadMe. لاحظ أن الإصدار القديم من Synthesis.py قد لا يقبل --preset=<json> المعلمة وقد تضطر إلى تغيير hparams.py وفقًا لملف الإعداد المسبق (JSON).

يمكنك المحاولة على سبيل المثال:

 # Assuming you have downloaded LJSpeech-1.1 at ~/data/LJSpeech-1.1
# pretrained model (20180510_mixture_lj_checkpoint_step000320000_ema.pth)
# hparams (20180510_mixture_lj_checkpoint_step000320000_ema.json)
git checkout 2092a64
python preprocess.py ljspeech ~/data/LJSpeech-1.1 ./data/ljspeech 
  --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json
python synthesis.py --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json 
  --conditional=./data/ljspeech/ljspeech-mel-00001.npy 
  20180510_mixture_lj_checkpoint_step000320000_ema.pth 
  generated

يمكنك العثور على ملف WAV تم إنشاؤه في دليل generated . أتساءل كيف يعمل؟ ثم نلقي نظرة على الرمز :)

هيكل المستودع

يتكون المستودع من 1) مكتبة Pytorch ، 2) أدوات سطر الأوامر ، و 3) وصفات على غرار ESPNET. الأول هو مكتبة Pytorch لتوفير وظائف Wavanet. والثاني هو مجموعة من الأدوات لتشغيل التدريب/الاستدلال على Wavenet ، ومعالجة البيانات ، وما إلى ذلك. آخرها هي الوصفات القابلة للتكرار التي تجمع بين مكتبة Wavenet وأدوات الأداة المساعدة. يرجى إلقاء نظرة عليهم اعتمادًا على هدفك. إذا كنت ترغب في إنشاء Wavenet الخاص بك على مجموعة البيانات الخاصة بك (أعتقد أن هذه هي الحالة الأكثر ترجيحًا) ، فإن الوصفة هي الطريق بالنسبة لك.

متطلبات

بيثون 3
CUDA> = 8.0
pytorch> = v0.4.0

تثبيت

 git clone https://github.com/r9y9/wavenet_vocoder && cd wavenet_vocoder
pip install -e .

إذا كنت بحاجة فقط إلى جزء المكتبة ، فيمكنك تثبيته من PYPI:

 pip install wavenet_vocoder

ابدء

وصفات Kaldi-Style

يوفر المستودع وصفات Kaldi-Style لإجراء تجارب قابلة للتكرار ويمكن التحكم فيها بسهولة. الوصفات المتاحة هي كما يلي:

mulaw256 : Wavenet الذي يستخدم توزيع الإخراج الفئوي. المدخلات هي 8 بت شكل موجي كمي.
mol : مزيج من الخدمات اللوجستية (مول) Wavenet. الإدخال هو الصوت الخام 16 بت.
gaussian : Wavenet أحادي غوسيا (ويعرف أيضًا باسم المعلم Wavenet of Clarinet). الإدخال هو الصوت الخام 16 بت.

تم run.sh جميع الوصفة. يرجى الاطلاع على Run.sh في دليل EGS للحصول على التفاصيل.

إشعار : لا يتم دعم التكييف العالمي لـ Multi-Speaker Wavenet في الوصفات المذكورة أعلاه (لا ينبغي أن يكون من الصعب تنفيذها). يرجى التحقق من V0.1.12 للحصول على الميزة ، أو إذا كنت بحاجة إلى الميزة حقًا ، فيرجى إثارة مشكلة.

قم بتطبيق وصفة على مجموعة البيانات الخاصة بك

تم تصميم الوصفات لتكون عامة بحيث يمكن للمرء استخدامها لأي مجموعة بيانات. لتطبيق وصفات على مجموعة البيانات الخاصة بك ، ستحتاج إلى وضع جميع ملفات WAV في دليل مسطح واحد. أي،

 > tree -L 1 ~/data/LJSpeech-1.1/wavs/ | head
/Users/ryuichi/data/LJSpeech-1.1/wavs/
├── LJ001-0001.wav
├── LJ001-0002.wav
├── LJ001-0003.wav
├── LJ001-0004.wav
├── LJ001-0005.wav
├── LJ001-0006.wav
├── LJ001-0007.wav
├── LJ001-0008.wav
├── LJ001-0009.wav

هذا كل شيء! الخطوة الأخيرة هي تعديل db_root في Run.sh أو إعطاء db_root كأجهزة سطر الأوامر لـ RUN.SH.

 ./run.sh --stage 0 --stop-stage 0 --db-root ~/data/LJSpeech-1.1/wavs/

خطوة بخطوة

تتكون الوصفة عادة من خطوات متعددة. يوصى بشدة بتشغيل الوصفة خطوة بخطوة لفهم كيفية عملها لأول مرة. للقيام بذلك ، حدد stage و stop_stage على النحو التالي:

 ./run.sh --stage 0 --stop-stage 0

 ./run.sh --stage 1 --stop-stage 1

 ./run.sh --stage 2 --stop-stage 2

في المواقف النموذجية ، ستحتاج إلى تحديد أجهزة CUDA بشكل واضح لخطوة التدريب.

 CUDA_VISIBLE_DEVICES="0,1" ./run.sh --stage 2 --stop-stage 2

مستندات أدوات سطر الأوامر

يتم كتابة أدوات سطر الأوامر مع docopt. انظر كل docstring للاستخدامات الأساسية.

tojson.py

تفريغ Hyperparameters إلى ملف JSON.

الاستخدام:

 python tojson.py --hparams="parameters you want to override" <output_json_path>

المعالجة المسبقة

الاستخدام:

 python preprocess.py wavallin ${dataset_path} ${out_dir} --preset=<json>

Train.py

ملاحظة: للتدريب متعدد GPU ، من الأفضل أن تتأكد من أن batch_size ٪ num_gpu == 0

الاستخدام:

 python train.py --dump-root=${dump-root} --preset=<json>
  --hparams="parameters you want to override"

تقييم

بالنظر إلى الدليل الذي يحتوي على ميزات تكييف محلية ، قم بتجميع الأشكال الموجية لهم.

الاستخدام:

 python evaluate.py ${dump_root} ${checkpoint} ${output_dir} --dump-root="data location"
    --preset=<json> --hparams="parameters you want to override"

خيارات:

--num-utterances=<N> : عدد الكلام. إذا لم يتم تحديدها ، قم بإنشاء جميع الكلام. هذا مفيد لتصحيح الأخطاء.

التوليف

إشعار : ربما لا يعمل هذا الآن. الرجاء استخدام التقييم.

توليف الموجي يعطي ميزة تكييف.

الاستخدام:

 python synthesis.py ${checkpoint_path} ${output_dir} --preset=<json> --hparams="parameters you want to override"

خيارات مهمة:

--conditional=<path> : (مطلوب للوافنيت الشرطي) مسار الميزات الشرطية المحلية (.npy). إذا تم تحديد ذلك ، يتم تحديد عدد الخطوات الزمنية التي يجب إنشاؤها حسب حجم الميزة الشرطية.

سيناريوهات التدريب

تدريب wavenet غير مشروط

إشعار : ربما لا يعمل هذا الآن. يرجى التحقق من v0.1.1 للحصول على نسخة العمل.

 python train.py --dump-root=./data/cmu_arctic/
    --hparams="cin_channels=-1,gin_channels=-1"

يجب عليك تعطيل التكييف العالمي والمحلي عن طريق تعيين gin_channels و cin_channels إلى القيم السلبية.

تدريب Wavenet مشروط على طيف الميل

 python train.py --dump-root=./data/cmu_arctic/ --speaker-id=0 
    --hparams="cin_channels=80,gin_channels=-1"

تدريب Wavenet مشروط على طيف الميل وتضمين مكبر الصوت

إشعار : ربما لا يعمل هذا الآن. يرجى التحقق من v0.1.1 للحصول على نسخة العمل.

 python train.py --dump-root=./data/cmu_arctic/ 
    --hparams="cin_channels=80,gin_channels=16,n_speakers=7"

متفرقات

مراقبة مع Tensorboard

يتم التخلص من السجلات في ./log دليل بشكل افتراضي. يمكنك مراقبة السجلات بواسطة Tensorboard:

 tensorboard --logdir=log

قائمة الأوراق التي استخدمت المستودع

مقارنة بين المبردات العصبية الحديثة لإعادة بناء إشارة الكلام https://www.isca-spheade.org/archive/ssw_2019/abstracts/ssw10_o_1-2.html
WaveGlow: شبكة توليد قائمة على التدفق لتوليف الكلام https://arxiv.org/abs/1811.00002
wavecyclegan2: قسمة الوقت العصبية بعد التصفية لتوليد موجة الكلام https://arxiv.org/abs/1904.02892
إعادة توليد حدودي مع المفرطات العصبية https://arxiv.org/abs/1906.06762
تمثيل خلط FO TTS Synthesis https://arxiv.org/abs/1811.07240
بنية عصبية موحدة للمهام الصوتية الآلية https://arxiv.org/abs/1903.00142
ESPNET-TTS: مجموعة أدوات Text-to-To-to-to-Specte موحدة وقابلة للتكرار وقابلة للتكامل.

شكراً جزيلاً!! إذا وجدت واحدة جديدة ، يرجى تقديم العلاقات العامة.

الرعاة

https://github.com/echelon

مراجع

آرون فان دن أوورد ، ساندر ديلمان ، Heiga Zen ، وآخرون ، "Wavenet: نموذج توليدي للصوت الخام" ، Arxiv: 1609.03499 ، سبتمبر 2016.
آرون فان دن أوورد ، يازه لي ، إيغور بابوشكين ، وآخرون ، "موازي Wavenet: توليف الكلام السريع السريع" ، Arxiv: 1711.10433 ، نوفمبر 2017.
تاماموري ، أكيرا ، وآخرون. "Vocoder wavenet المعتمد على المتحدث." وقائع interspeech. 2017.
Jonathan Shen ، Ruoming Pang ، Ron J. Weiss ، et al ، "Synthesis Natural TTS عن طريق تكييف Wavenet على تنبؤات MEL Spectrogram" ، Arxiv: 1712.05884 ، ديسمبر 2017.
Wei Ping ، Kainan Peng ، Andrew Gibiansky ، et al ، "Deep Voice 3: 2000-Speaker Neural text-to-the-abeech" ، Arxiv: 1710.07654 ، أكتوبر 2017.
توم لو باين ، بويا خورامي ، شيو تشانغ ، وآخرون ، "خوارزمية توليد Wavenet السريعة" ، Arxiv: 1611.09482 ، نوفمبر 2016
يي جيا ، يو تشانغ ، رون ج. فايس ، كوان وانغ ، جوناثان شين ، فاي رن ، تشيفنغ تشن ، باتريك نغوين ، رومينج بانج ، إغناسيو لوبيز مورينو ، يونغوي وو ، وآخرون ، "نقل التعلم من المتحدث إلى Synthesis to-Text-to-Spection" ، 1806.

يوسع

معلومات إضافية

الإصدار v0.1.1 release
النوع بايثون
وقت التحديث 2025-07-11
الحجم 101.28KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Dog_Fox_Bunny

2022-08-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ToDo Co

بايثون

1.0.0
Python Portfolio

بايثون
datamule python

بايثون
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل