vall e Download - تنزيل رمز المصدر vall e

vall e

كود الذكاء الاصطناعي

1.0.0

تنزيل

فال

تطبيق Pytorch غير رسمي لـ Vall-E ، استنادًا إلى رمز Encodec.

ابدأ

لعبة جوجل كولاب مثال :. يرجى ملاحظة أن هذا المثال يفرط في نطق واحد تحت data/test ولا يمكن استخدامه. النموذج المسبق لم يأت بعد.

متطلبات

نظرًا لأن المدرب يعتمد على السرعة العميقة ، فستحتاج إلى الحصول على وحدة معالجة الرسومات التي قام بها Deepspeed بتطويرها واختبارها ، بالإضافة إلى تثبيت مترجم CUDA أو ROCM لتثبيت هذه الحزمة.

ثَبَّتَ

 pip install git+https://github.com/enhuiz/vall-e

أو يمكنك استنساخ:

 git clone --recurse-submodules https://github.com/enhuiz/vall-e.git

لاحظ أنه يتم اختبار الرمز فقط تحت Python 3.10.7 .

يدرب

ضع بياناتك في مجلد ، على سبيل المثال data/your_data . يجب تسمية الملفات الصوتية مع الملفات .wav والملفات النصية مع .normalized.txt .
كمية البيانات:

 python -m vall_e.emb.qnt data/your_data

توليد صوتيات بناءً على النص:

 python -m vall_e.emb.g2p data/your_data

تخصيص التكوين الخاص بك عن طريق إنشاء config/your_data/ar.yml و config/your_data/nar.yml . ارجع إلى مثال التكوينات في config/test و vall_e/config.py للحصول على التفاصيل. يمكنك اختيار إعدادات نموذجية مختلفة ، تحقق من vall_e/vall_e/__init__.py .
تدريب نموذج AR أو NAR باستخدام البرامج النصية التالية:

 python -m vall_e.train yaml=config/your_data/ar_or_nar.yml

يمكنك ترك التدريب الخاص بك في أي وقت عن طريق كتابة quit في CLI. سيتم حفظ أحدث نقطة تفتيش تلقائيًا.

يصدّر

يجب تصدير كلا النموذجين المدربين إلى مسار معين. لتصدير أي منهما ، قم بالتشغيل:

 python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml

سيؤدي هذا إلى تصدير أحدث نقطة تفتيش.

توليف

 python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt

تودو

نموذج AR للمبلغ الأول
فك تشفير الصوت من الرموز
نموذج NAR للكميات بقية
المدربين لكلا النموذجين
تنفيذ ADALN لنموذج NAR.
عينة عينة من مستوى القياس الكمي لتدريب NAR.
نقطة تفتيش وعروض تجريبية مدربة مسبقًا على Libritts
تخليق CLI

يلاحظ

Encodec مرخص بموجب CC-By-NC 4.0. إذا كنت تستخدم الرمز لإنشاء كميات صوتية أو تنفيذ فك التشفير ، فمن المهم الالتزام بشروط ترخيصها.

الاستشهادات

 @article { wang2023neural ,
  title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
  author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
  journal = { arXiv preprint arXiv:2301.02111 } ,
  year = { 2023 }
}

 @article { defossez2022highfi ,
  title = { High Fidelity Neural Audio Compression } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2210.13438 } ,
  year = { 2022 }
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-20
الحجم 796.54KB
من Github

تطبيقات ذات صلة

الحشرة ه

2024-02-17
إي

2022-09-04
كل إي

2022-09-02
بالنسبة لـ E

2022-08-31
احصل على إي

2022-08-30
هاكر إي

2022-08-25

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل