يعمل هذا الرمز على Python 3.10 ، لم أختبره على الإصدارات الأخرى. بعض الإصدارات القديمة سيكون لها مشاكل.
هذا ممكن الآن.
للمطورين:
للجميع:
تأكد من أن هذه الأشياء ليست في إدخال صوتك: (لا يوجد ترتيب معين)
ما الذي يجعل الصوت السريع الجيد؟ (لا يوجد ترتيب معين)
| اسم | نموذج هوبرت | نسخة كمية | عصر | لغة | مجموعة البيانات |
|---|---|---|---|---|---|
| Quantifier_hubert_base_ls960.pth | قاعدة هوبرت | 0 | 3 | المهندس | Gitmylo/Bark-Semantic Retraining |
| Quantifier_HUBERT_BASE_LS960_14.PTH | قاعدة هوبرت | 0 | 14 | المهندس | Gitmylo/Bark-Semantic Retraining |
| Quantifier_V1_HUBERT_BASE_LS960_23.PTH | قاعدة هوبرت | 1 | 23 | المهندس | Gitmylo/Bark-Semantic Retraining |
| مؤلف | اسم | نموذج هوبرت | نسخة كمية | عصر | لغة | مجموعة البيانات |
|---|---|---|---|---|---|---|
| هوبسب | Polish-Hubert-Quantizer_8_epoch.pth | قاعدة هوبرت | 1 | 8 | بول | Hobis/Bark-Polish-Semantic-Wav Retraining |
| C0untfloyd | German-Hubert-Quantizer_14_epoch.pth | قاعدة هوبرت | 1 | 14 | جير | Countfloyd/Bark-German-Semantic-Wav Retraining |
from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio
# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )
# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example
if wav . shape [ 0 ] == 2 : # Stereo to mono if needed
wav = wav . mean ( 0 , keepdim = True )
semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr ) import torch
from hubert . customtokenizer import CustomTokenizer
# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' ) # Automatically uses the right layers
# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )
# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file. ببساطة تشغيل أوامر التدريب.
طريقة بسيطة لإنشاء بيانات دلالية ووجود للتدريب ، هي مع البرنامج النصي الخاص بي: bark-data-gen. لكن تذكر أن إنشاء WAVS سيستغرق في نفس الوقت تقريبًا إن لم يكن أطول من إنشاء الدلالات. هذا يمكن أن يستغرق بعض الوقت لتوليد بسبب ذلك.
على سبيل المثال ، إذا كان لديك مجموعة بيانات تحتوي على Zips تحتوي على ملفات صوتية ، وملحق واحد للدلالات ، وواحدة لملفات WAV. داخل مجلد يسمى "الأدب"
يجب عليك تشغيل process.py --path Literature --mode prepare لاستخراج جميع البيانات إلى دليل واحد
يجب عليك تشغيل process.py --path Literature --mode prepare2 لإنشاء متجهات Hubert الدلالية ، جاهزة للتدريب
يجب عليك تشغيل process.py --path Literature --mode train للتدريب
وعندما يتم تدريب النموذج الخاص بك بما فيه الكفاية ، يمكنك تشغيل process.py --path Literature --mode test لاختبار أحدث طراز.
أنا لست مسؤولاً عن الصوت الذي تم إنشاؤه باستخدام الدلالات التي أنشأتها هذا النموذج. فقط لا تستخدمه لأغراض غير قانونية.