تنزيل bark voice cloning HuBERT quantizer - bark voice cloning HuBERT quantizer Source Code

bark voice cloning HuBERT quantizer

شفرة المصدر الأخرى

1.0.0

تنزيل

نباح صوت استنساخ

يرجى قراءة

يعمل هذا الرمز على Python 3.10 ، لم أختبره على الإصدارات الأخرى. بعض الإصدارات القديمة سيكون لها مشاكل.

استنساخ الصوت مع اللحاء بجودة عالية؟

هذا ممكن الآن.

أمثلة _biden_example.mov

كيف يمكنني استنساخ صوت؟

للمطورين:

أمثلة رمز على صفحة نموذج Huggingface

للجميع:

الصوت webui مع اللحاء والاستنساخ الصوتي
على الانترنت المعانقة الصوتية مساحة الاستنساخ
دفتر بيثون التفاعلي

الأصوات المستنسخة ليست مقنعة للغاية ، لماذا أصوات الآخرين المستنسخة أفضل من أصواتي؟

تأكد من أن هذه الأشياء ليست في إدخال صوتك: (لا يوجد ترتيب معين)

الضوضاء (يمكنك استخدام مزيل الضوضاء من قبل)
الموسيقى (هناك أيضًا أدوات مزيل الموسيقى) (إلا إذا كنت تريد الموسيقى في الخلفية)
قطع في النهاية (سيؤدي ذلك إلى محاولة الاستمرار في الجيل)
أقل من ثانية واحدة من بيانات التدريب (أقترح شخصيًا حوالي 10 ثوانٍ لإمكانات جيدة ، لكنني حصلت على نتائج رائعة مع 5 ثوانٍ أيضًا.)

ما الذي يجعل الصوت السريع الجيد؟ (لا يوجد ترتيب معين)

تحدث بوضوح
لا توجد ضوضاء خلفية غريبة
متحدث واحد فقط
الصوت الذي ينتهي بعد انتهاء الجملة
صوت منتظم/مشترك (عادة ما يكون لديهم المزيد من النجاح ، لا يزال قادرًا على استنساخ الأصوات المعقدة ، ولكن ليس جيدًا في ذلك)
حوالي 10 ثوان من البيانات

نماذج ما قبل

رسمي

اسم	نموذج هوبرت	نسخة كمية	عصر	لغة	مجموعة البيانات
Quantifier_hubert_base_ls960.pth	قاعدة هوبرت	0	3	المهندس	Gitmylo/Bark-Semantic Retraining
Quantifier_HUBERT_BASE_LS960_14.PTH	قاعدة هوبرت	0	14	المهندس	Gitmylo/Bark-Semantic Retraining
Quantifier_V1_HUBERT_BASE_LS960_23.PTH	قاعدة هوبرت	1	23	المهندس	Gitmylo/Bark-Semantic Retraining

مجتمع

مؤلف	اسم	نموذج هوبرت	نسخة كمية	عصر	لغة	مجموعة البيانات
هوبسب	Polish-Hubert-Quantizer_8_epoch.pth	قاعدة هوبرت	1	8	بول	Hobis/Bark-Polish-Semantic-Wav Retraining
C0untfloyd	German-Hubert-Quantizer_14_epoch.pth	قاعدة هوبرت	1	14	جير	Countfloyd/Bark-German-Semantic-Wav Retraining

للمطورين: تنفيذ الاستنساخ الصوتي في مشاريع اللحاء الخاصة بك

ما عليك سوى نسخ الملفات من هذا الدليل إلى مشروعك.
يحتوي Hubert Manager على طرق لتنزيل Hubert ونموذج الكمية المخصصة.
يجب أن يكون تحميل CustomHubert واضحًا جدًا
يحتوي دفتر الملاحظات على رمز لاستخدامه على CUDA أو وحدة المعالجة المركزية. بدلا من مجرد وحدة المعالجة المركزية.

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

تحميل وتشغيل KMEANS المخصصة

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

كيف أقوم بتدريبه بنفسي؟

ببساطة تشغيل أوامر التدريب.

طريقة بسيطة لإنشاء بيانات دلالية ووجود للتدريب ، هي مع البرنامج النصي الخاص بي: bark-data-gen. لكن تذكر أن إنشاء WAVS سيستغرق في نفس الوقت تقريبًا إن لم يكن أطول من إنشاء الدلالات. هذا يمكن أن يستغرق بعض الوقت لتوليد بسبب ذلك.

على سبيل المثال ، إذا كان لديك مجموعة بيانات تحتوي على Zips تحتوي على ملفات صوتية ، وملحق واحد للدلالات ، وواحدة لملفات WAV. داخل مجلد يسمى "الأدب"

يجب عليك تشغيل process.py --path Literature --mode prepare لاستخراج جميع البيانات إلى دليل واحد

يجب عليك تشغيل process.py --path Literature --mode prepare2 لإنشاء متجهات Hubert الدلالية ، جاهزة للتدريب

يجب عليك تشغيل process.py --path Literature --mode train للتدريب

وعندما يتم تدريب النموذج الخاص بك بما فيه الكفاية ، يمكنك تشغيل process.py --path Literature --mode test لاختبار أحدث طراز.

تنصل

أنا لست مسؤولاً عن الصوت الذي تم إنشاؤه باستخدام الدلالات التي أنشأتها هذا النموذج. فقط لا تستخدمه لأغراض غير قانونية.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-25
الحجم 88.29KB
من Github

تطبيقات ذات صلة

BARK

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
GOOGLE VOICE واجهة SMS غير محدودة

2009-11-07

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل