so vits svc fork下载 - so vits svc fork源代码下载

so vits svc fork

其他源码

v4.2.26

下载

softvc vits歌声转换叉

简体中文

带有实时支持的so-vits-svc叉子，并大大改进了界面。基于分支4.0 （V1）（OR 4.1 ），模型是兼容的。 4.1不支持模型。其他模型也不支持。

不再维护

原因

一年之内，该技术发生了巨大的发展，并且有许多更好的选择
希望创建一个更模块化，易于安装的存储库，但没有技能，时间，金钱
Pysimplegui不再是LGPL
使用Typer比直接使用点击越来越流行

替代方案

总是要注意很少有影响者对任何新项目/技术都感到非常惊讶的影响者。您需要带有半构想的每个社交网络帖子。

2023年发生的声音改变繁荣已经结束，许多开发人员，不仅仅是该存储库中的开发人员都在一段时间内都不是很活跃。

这里有太多替代方案可在这里列出：

RVC家族：Iahispano/Applio（MIT），Fumiama's RVC（AGPL）和原始RVC（MIT）
VCCLIENT（MIT等）非常积极地维护，并为实时转换提供基于Web的GUI。
鱼扩散试图是模块化的，但没有完全积极地维护。
YXLLLC/DDSP -SVC-偶尔会发行新版本。 yxlllc/reflow-vae-svc
coqui-ai/tts用于TTS，但部分模块化。但是，不幸的是，它不再维护。

在其他地方，几家初创企业改善和销售了语音改变者（可能是为了获利）。

自2023年春季以来，该存储库的更新仅限于维护。~~很难在此处缩小替代方案的列表，但是如果您正在寻找具有更好性能的语音变化器（尤其是在质量以外的延迟方面），请考虑尝试其他项目。~~ >~~但是，对于那些想暂时尝试语音转换的人来说，该项目可能是理想的选择（因为它易于安装）。~~

原始存储库中不可用的功能

实时语音转换（在v1.1.0中增强）
部分集成了QuickVC
修复了原始存储库中ContentVec的滥用。 ¹
使用CREPE更准确的音高估算。
GUI和统一CLI可用
〜〜2倍训练
准备仅通过与pip安装来使用。
自动下载预算的型号。无需安装fairseq 。
代码完全用黑色，Isort，Autoflake等格式化。

安装

选项1。一键易于安装

该BAT文件将自动执行下面描述的步骤。

选项2。手动安装（使用PIPX，实验）

1。安装pipx

Windows（由于PYPA/PIPX＃940所需的开发版本）：

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/MacOS：

python -m pip install --user pipx
python -m pipx ensurepath

2。安装SO-VITS-SVC-FORK

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

选项3。手动安装

创建虚拟环境

视窗：

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/MacOS：

python3.11 -m venv venv
source venv/bin/activate

Anaconda：

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

如果在程序文件中安装了Python，则在不创建虚拟环境的情况下安装可能会导致PermissionError 。

通过PIP（或使用PIP的您喜欢的软件包管理器）安装此信息：

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

笔记

如果没有GPU或使用MACOS，只需删除pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121即可。国会议员可能受到支持。
如果您在Linux上使用AMD GPU，请替换--index-url https://download.pytorch.org/whl/cu121与--index-url https://download.pytorch.org/whl/nightly/rocm5.7 。 Windows不支持AMD GPU（＃120）。

更新

请定期更新此软件包，以获取最新功能和错误修复。

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

用法

推理

GUI

GUI通过以下命令启动：

svcg

CLI

实时（来自麦克风）

svc vc

文件

svc infer source.wav

审计的模型可在拥抱面或civitai上使用。

笔记

如果使用WSL，请注意，WSL需要额外的设置来处理音频，而GUI将无法在不找到音频设备的情况下工作。
实时推断，如果输入上存在噪声，则休伯特模型也会对此做出反应。在这种情况下，请考虑使用实时降低降噪应用，例如RTX语音。
不支持4.0V1或此存储库以外的模型。
GPU推理至少需要4 GB的VRAM。如果它不起作用，请尝试CPU推断，因为它足够快。 ²

训练

训练前

如果您的数据集具有BGM，请使用诸如Ultimate Vocal Over剂之类的软件删除BGM。建议使用3_HP-Vocal-UVR.pth或UVR-MDX-NET Main 。 ³
如果您的数据集是带有单个扬声器的长音频文件，请使用svc pre-split将数据集拆分为多个文件（使用librosa ）。
如果您的数据集是带有多个扬声器的长音频文件，请使用svc pre-sd将数据集拆分为多个文件（使用pyannote.audio ）。由于准确性问题，可能需要进一步的手动分类。如果说话者用各种语音样式说话，那么宣扬的演讲风格 - 宣传者比实际的扬声器数量更大。由于未解决的依赖关系，请手动安装pyannote.audio pip install pyannote-audio 。
要手动对音频文件进行分类，可以使用svc pre-classify 。上下箭头键可用于更改播放速度。

云

⁴

如果您无法访问具有超过10 GB VRAM的GPU，则建议使用Google COLAB的免费计划，并建议使用论文空间的Pro/Growth Plan Play/Growts Plans for Heeby用户。相反，如果您可以访问高端GPU，则不建议使用云服务。

当地的

将数据集像dataset_raw/{speaker_id}/**/{wav_file}.{any_format}

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

笔记

每个文件的数据集音频持续时间应<〜10s。
至少需要4GB VRAM。 ⁵
建议在config.json中尽可能增加batch_size ，以匹配train容量。将batch_size设置为auto-{init_batch_size}-{max_n_trials} （或简单地auto ）会自动增加batch_size ，直到发生OOM错误，但在某些情况下可能不会有用。
要使用CREPE ，请用SVC svc pre-hubert -fm crepe svc pre-hubert 。
要正确使用ContentVec ，请用-t so-vits-svc-4.0v1替换svc pre-config 。训练可能需要更长的时间，因为由于重复使用传统初始发电机的重量，某些权重被重置。
要使用MS-iSTFT Decoder ，请用svc pre-config svc pre-config -t quickvc Pre-Config。
静音去除和体积归一化将自动执行（如在上游回购中），并且不需要。
如果您已经在大型，无版权的数据集上训练，请考虑将其作为初始模型释放。
有关更多详细信息（例如参数等），您可以看到Wiki或讨论。

进一步的帮助

有关更多详细信息，请运行svc -h或svc <subcommand> -h 。

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

外部链接

视频教程

贡献者

谢谢这些好人（表情符号钥匙）：

_34J ？？？？配x ✅？	_{GarrettConway} ？？	_蓝色？？	_{throflawayAccount01} ？	_绯？	_Lordmau5 ？？？？	_DL909 ？
_满足256 ？	_{皮埃尔利吉·扎加里亚（Pierluigi Zagaria）} ？	_{ruckusmattster} ？	_Desuka-Art ？	_嘿，fixit	_{书呆子啮齿动物} ？	_谢宇
_Coldcawfee ？	_Sbersier ？？？	_Meldoner ？？	_mmmodeusher ？	_阿隆丹？	_likkkez ？	_胶带游戏？
_他？	_75aosu ？	_Tonyco82 ？	_yxlllc ？	_开口？	_{escoolioinglesias} ？？？	_blacksingh ？
_{MGS。 M. Thoyib Antarnusa} ？	_Exosfeer ？	_古拉农？？	_{亚历山大·库米斯（Alexander Koumis）}	_Acekagami ？	_Highupech ？	_天蝎座
_maximxls	_Star3lord ？	_叉？	_{Zerui Chen} ？	_{Roee Shenberg} ？？	_Justas ？	_Onako2
_4ll0w3v1l	_J5Y0V6B ？️	_{Marcellocirelli} ？	_{Priyanshu Patel}	_{Anna Gorshunova} ？

该项目遵循全企业规范。欢迎任何形式的贡献！

＃206↩
＃469↩
https://ytpmv.info/how-to-use-uvr/
如果您注册推荐代码，然后添加付款方式，则可以在第一个月的每月账单中节省约5美元。请注意，两个推荐奖励都是论文空间信用额，而不是现金。这是一个艰难的决定，但插入了，因为调试和培训初始模型需要大量的计算能力，而开发人员是学生。 ↩
＃456↩

展开

附加信息