ملحوظة
هذا المشروع لا يزال قيد التطوير ..
rvc_inferpy هي مكتبة Python لأداء الاستدلال الصوتي مع RVC (تحويل الصوت القائم على الاسترجاع). يوفر واجهة سطر أوامر بسيطة (CLI) ويمكن دمجها في مشاريع Python لمعالجة الصوت مع معلمات قابلة للتخصيص.
يمكنك تثبيت الحزمة باستخدام pip :
pip install rvc-inferpy يمكنك التفاعل مع rvc_inferpy من خلال سطر الأوامر. لعرض الخيارات المتاحة وكيفية استخدام الأداة ، قم بتشغيل:
rvc-cli -hإليك تفاصيل خيارات سطر الأوامر الكامل:
usage: rvc-cli [-h] [--model_name MODEL_NAME] [--audio_path AUDIO_PATH]
[--f0_change F0_CHANGE] [--f0_method F0_METHOD]
[--min_pitch MIN_PITCH] [--max_pitch MAX_PITCH]
[--crepe_hop_length CREPE_HOP_LENGTH] [--index_rate INDEX_RATE]
[--filter_radius FILTER_RADIUS] [--rms_mix_rate RMS_MIX_RATE]
[--protect PROTECT] [--split_infer] [--min_silence MIN_SILENCE]
[--silence_threshold SILENCE_THRESHOLD] [--seek_step SEEK_STEP]
[--keep_silence KEEP_SILENCE] [--do_formant] [--quefrency QUEFRENCY]
[--timbre TIMBRE] [--f0_autotune] [--audio_format AUDIO_FORMAT]
[--resample_sr RESAMPLE_SR] -h, --help : عرض رسالة مساعدة والخروج.--model_name MODEL_NAME : اسم أو مسار النموذج.--audio_path AUDIO_PATH : مسار إلى ملف الصوت الإدخال.--f0_change F0_CHANGE : عامل تغيير الملعب.--f0_method F0_METHOD : طريقة لتقدير F0 (على سبيل المثال ، "crepe").--min_pitch MIN_PITCH : قيمة الحد الأدنى للملعب.--max_pitch MAX_PITCH : أقصى قيمة الملعب.--crepe_hop_length CREPE_HOP_LENGTH : طول قفزة الكريب.--index_rate INDEX_RATE : معدل الفهرس.--filter_radius FILTER_RADIUS : نصف قطر المرشح.--rms_mix_rate RMS_MIX_RATE : معدل مزيج RMS.--protect PROTECT : حماية العامل لتجنب التشويه.--split_infer : تمكين الانقسام.--min_silence MIN_SILENCE : مدة الصمت الدنيا (بالثواني).--silence_threshold SILENCE_THRESHOLD : عتبة الصمت في ديسيبل.--seek_step SEEK_STEP : حجم الخطوة للكشف عن الصمت.--keep_silence KEEP_SILENCE : مدة الحفاظ على الصمت (بالثواني).--do_formant : تمكين معالجة التركيب.--quefrency QUEFRENCY : تعديل Quefrency.--timbre TIMBRE : عامل ضبط timbre.--f0_autotune : تمكين ضبط F0 التلقائي.--audio_format AUDIO_FORMAT : تنسيق صوت الإخراج المطلوب (على سبيل المثال ، "WAV" ، "MP3").--resample_sr RESAMPLE_SR : Resample Sample Rate.rvc-cli --model_name " model_name_here " --audio_path " path_to_audio.wav " --f0_change 0 --f0_method " crepe " --min_pitch 50 --max_pitch 800 يمكنك أيضًا استخدام rvc_inferpy مباشرة في مشاريع بيثون. هذا مثال:
from rvc_inferpy import infer_audio
inferred_audio = infer_audio (
MODEL_NAME = "model_name_here" , # Name or path to the RVC model
SOUND_PATH = "path_to_audio.wav" , # Path to the input audio file
F0_CHANGE = 0 , # Change in fundamental frequency
F0_METHOD = "crepe" , # F0 extraction method ("crepe", "dio", etc.)
MIN_PITCH = 50 , # Minimum pitch value
MAX_PITCH = 800 , # Maximum pitch value
CREPE_HOP_LENGTH = 128 , # Hop length for Crepe
INDEX_RATE = 1.0 , # Index rate for model inference
FILTER_RADIUS = 3 , # Radius for smoothing filters
RMS_MIX_RATE = 0.75 , # Mixing rate for RMS
PROTECT = 0.33 , # Protect level to prevent overfitting
SPLIT_INFER = True , # Whether to split audio for inference
MIN_SILENCE = 0.5 , # Minimum silence duration for splitting
SILENCE_THRESHOLD = - 40 , # Silence threshold in dB
SEEK_STEP = 10 , # Seek step in milliseconds
KEEP_SILENCE = 0.1 , # Keep silence duration in seconds
QUEFRENCY = 0.0 , # Cepstrum quefrency adjustment
TIMBRE = 1.0 , # Timbre preservation level
F0_AUTOTUNE = False , # Enable or disable F0 autotuning
OUTPUT_FORMAT = "wav" # Desired output format (e.g., "wav", "mp3")
) ستعيد دالة infer_audio كائن الصوت المعالج بناءً على المعلمات المقدمة
from rvc_inferpy import infernew
infer = infernew(
model_name="model_name_here",
sound_path="path_to_audio.wav",
f0_change=0
)
output_audio = infer.run_inference()
print("Inference completed:", output_audio)
يمكنك أيضًا تنزيل نماذج RVC الخاصة بك باستخدام
from rvc_inferpy import download_rvc_model dlrvc
dlrvc("URL_HERE", "model_name")
ملحوظة
سمحت نماذج Downloas فقط Huggingface, Google Drive, and Pixeldrain .
نصيحة
تأكد من تحميل النماذج الخاصة بك في المجلد models/{model_name} .
يحظر استخدام الصوت المحول للأغراض التالية.
انتقاد أو مهاجمة الأفراد.
الدعوة إلى أو معارضة مواقف سياسية أو أديان أو أيديولوجيات محددة.
عرض علنًا تعبيرات محفزة بقوة دون تقسيم المناطق المناسبة.
بيع النماذج الصوتية ومقاطع الصوت المولدة.
انتحال شخصية المالك الأصلي للصوت بنوايا خبيثة لإيذاء/إيذاء الآخرين.
أغراض احتيالية تؤدي إلى سرقة الهوية أو المكالمات الهاتفية الاحتيالية.
لست مسؤولاً عن أي أضرار مباشرة أو غير مباشرة أو تبعية أو عرضية أو خاصة ناشئة عن أو بأي حال من الأحوال مرتبطة بالاستخدام/إساءة الاستخدام أو عدم القدرة على استخدام هذا البرنامج.
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.