rvc_inferpy
v0.5.7-beta
笔记
该项目仍在开发中。
rvc_inferpy是一个用于使用RVC(基于检索的语音转换)执行音频推理的Python库。它提供了一个简单的命令行界面(CLI),并且可以集成到使用可自定义参数的音频处理的Python项目中。
您可以使用pip安装软件包:
pip install rvc-inferpy您可以通过命令行与rvc_inferpy进行交互。要查看可用选项以及如何使用该工具,请运行:
rvc-cli -h这是完整命令行选项的细分:
usage: rvc-cli [-h] [--model_name MODEL_NAME] [--audio_path AUDIO_PATH]
[--f0_change F0_CHANGE] [--f0_method F0_METHOD]
[--min_pitch MIN_PITCH] [--max_pitch MAX_PITCH]
[--crepe_hop_length CREPE_HOP_LENGTH] [--index_rate INDEX_RATE]
[--filter_radius FILTER_RADIUS] [--rms_mix_rate RMS_MIX_RATE]
[--protect PROTECT] [--split_infer] [--min_silence MIN_SILENCE]
[--silence_threshold SILENCE_THRESHOLD] [--seek_step SEEK_STEP]
[--keep_silence KEEP_SILENCE] [--do_formant] [--quefrency QUEFRENCY]
[--timbre TIMBRE] [--f0_autotune] [--audio_format AUDIO_FORMAT]
[--resample_sr RESAMPLE_SR] -h, --help :显示帮助消息和退出。--model_name MODEL_NAME :模型的名称或路径。--audio_path AUDIO_PATH :输入音频文件的路径。--f0_change F0_CHANGE :音高变化因子。--f0_method F0_METHOD :F0估计方法(例如,“ crepe”)。--min_pitch MIN_PITCH :最小音高值。--max_pitch MAX_PITCH :最大音高值。--crepe_hop_length CREPE_HOP_LENGTH :crepe hop长度。--index_rate INDEX_RATE :索引速率。--filter_radius FILTER_RADIUS :滤镜半径。--rms_mix_rate RMS_MIX_RATE :RMS混合速率。--protect PROTECT :保护因素避免失真。--split_infer :启用拆分推理。--min_silence MIN_SILENCE :最小沉默持续时间(以秒为单位)。--silence_threshold SILENCE_THRESHOLD :db中的沉默阈值。--seek_step SEEK_STEP :静音检测的步骤大小。--keep_silence KEEP_SILENCE :持续时间保持沉默(以秒为单位)。--do_formant :启用共振剂处理。--quefrency QUEFRENCY :Quefrency调整。--timbre TIMBRE :音色调整因子。--f0_autotune :启用自动F0调整。--audio_format AUDIO_FORMAT :所需的输出音频格式(例如,“ wav”,“ mp3”)。--resample_sr RESAMPLE_SR :重新样本样本率。rvc-cli --model_name " model_name_here " --audio_path " path_to_audio.wav " --f0_change 0 --f0_method " crepe " --min_pitch 50 --max_pitch 800您也可以在Python项目中直接使用rvc_inferpy 。这是一个例子:
from rvc_inferpy import infer_audio
inferred_audio = infer_audio (
MODEL_NAME = "model_name_here" , # Name or path to the RVC model
SOUND_PATH = "path_to_audio.wav" , # Path to the input audio file
F0_CHANGE = 0 , # Change in fundamental frequency
F0_METHOD = "crepe" , # F0 extraction method ("crepe", "dio", etc.)
MIN_PITCH = 50 , # Minimum pitch value
MAX_PITCH = 800 , # Maximum pitch value
CREPE_HOP_LENGTH = 128 , # Hop length for Crepe
INDEX_RATE = 1.0 , # Index rate for model inference
FILTER_RADIUS = 3 , # Radius for smoothing filters
RMS_MIX_RATE = 0.75 , # Mixing rate for RMS
PROTECT = 0.33 , # Protect level to prevent overfitting
SPLIT_INFER = True , # Whether to split audio for inference
MIN_SILENCE = 0.5 , # Minimum silence duration for splitting
SILENCE_THRESHOLD = - 40 , # Silence threshold in dB
SEEK_STEP = 10 , # Seek step in milliseconds
KEEP_SILENCE = 0.1 , # Keep silence duration in seconds
QUEFRENCY = 0.0 , # Cepstrum quefrency adjustment
TIMBRE = 1.0 , # Timbre preservation level
F0_AUTOTUNE = False , # Enable or disable F0 autotuning
OUTPUT_FORMAT = "wav" # Desired output format (e.g., "wav", "mp3")
) infer_audio函数将根据提供的参数返回处理后的音频对象
from rvc_inferpy import infernew
infer = infernew(
model_name="model_name_here",
sound_path="path_to_audio.wav",
f0_change=0
)
output_audio = infer.run_inference()
print("Inference completed:", output_audio)
您还可以使用自己的RVC模型下载
from rvc_inferpy import download_rvc_model dlrvc
dlrvc("URL_HERE", "model_name")
笔记
Downloas型号仅允许Huggingface, Google Drive, and Pixeldrain链接。
提示
确保您将模型上传到models/{model_name}文件夹中。
禁止将转换的语音用于以下目的。
批评或攻击个人。
倡导或反对特定的政治立场,宗教或意识形态。
公开表现出强烈的刺激表达式,而无需进行适当的分区。
销售语音模型和生成的语音剪辑。
冒充声音的原始主人,以恶意伤害/伤害他人的意图。
导致身份盗用或欺诈性电话的欺诈目的。
我对与使用/滥用或无法使用此软件有关的任何直接,间接,结果,附带或特殊损害不承担任何责任。
该项目已根据MIT许可获得许可。