so vits svc fork

so vits svc fork

Otro código fuente

v4.2.26

Descargar

SoftVC Vits Singing Voice Conversion Fork

简体中文

Una bifurcación de so-vits-svc con soporte en tiempo real y una interfaz muy mejorada . Basado en la Rama 4.0 (V1) (o 4.1 ) y los modelos son compatibles. 4.1 Los modelos no son compatibles. Otros modelos tampoco son compatibles.

Ya no mantenido

Razones

Dentro de un año, la tecnología ha evolucionado enormemente y hay muchas alternativas mejores
Esperaba crear un repositorio más modular y fácil de instalar, pero no tenía las habilidades, el tiempo, el dinero para hacerlo
Pysimplegui ya no es LGPL
Usar typer se está volviendo más popular que directamente usando hacer clic

Alternativas

Siempre tenga cuidado con los pocos influyentes que están demasiado sorprendidos por cualquier proyecto/tecnología nuevo. Debe tomar cada publicación de redes sociales con semiduales.

El auge del cambiador de voz que ocurrió en 2023 ha llegado a su fin, y muchos desarrolladores, no solo los de este repositorio, no han sido muy activos por un tiempo.

Hay demasiadas alternativas a la lista aquí, pero:

Familia RVC: Iahispano/Applio (MIT), Fumiama's RVC (AGPL) y RVC original (MIT)
VCClient (MIT, etc.) se mantiene de manera bastante activa y ofrece GUI basada en la web para la conversión en tiempo real.
La difusión de peces trató de ser bastante modular pero no muy activamente mantenida.
YXLLLC/DDSP -SVC: ocasionalmente se emiten nuevos lanzamientos. yxlllc/reflow-vae-svc
Coqui-AI/TTS fue para TTS pero fue parcialmente modular. Sin embargo, ya no se mantiene, desafortunadamente.

En otros lugares, varias nuevas empresas han mejorado y comercializado cambiadores de voz (probablemente con fines de lucro).

Las actualizaciones de este repositorio se han limitado al mantenimiento desde la primavera de 2023. Es difícil reducir la lista de alternativas aquí, pero considere probar otros proyectos si está buscando un cambio de voz con un rendimiento aún mejor (especialmente en términos de latencia distinta de la calidad). > ~~Sin embargo, este proyecto puede ser ideal para aquellos que desean probar la conversión de voz por el momento (porque es fácil de instalar).~~

Características no disponibles en el repositorio original

Conversión de voz en tiempo real (mejorada en v1.1.0)
Integra parcialmente QuickVC
El mal uso correcto de ContentVec en el repositorio original. ¹
Estimación de tono más precisa usando CREPE .
GUI y CLI unificada disponible
~ 2x entrenamiento más rápido
Listo para usar simplemente instalando con pip .
Descargue automáticamente los modelos previos a la aparición. No es necesario instalar fairseq .
Código completamente formateado con negro, isort, autoflake, etc.

Instalación

Opción 1. Un clic de instalación fácil

Este archivo BAT realizará automáticamente los pasos descritos a continuación.

Opción 2. Instalación manual (usando PIPX, Experimental)

1. Instalación de PIPX

Windows (versión de desarrollo requerida debido a PYPA/PIPX#940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/macOS:

python -m pip install --user pipx
python -m pipx ensurepath

2. Instalación de SO-VITS-SVC-Fork

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Opción 3. Instalación manual

Creando un entorno virtual

Windows:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/macOS:

python3.11 -m venv venv
source venv/bin/activate

Anaconda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Instalar sin crear un entorno virtual puede causar un PermissionError si Python se instala en archivos de programa, etc.

Instale esto a través de PIP (o su Administrador de paquetes favorito que usa PIP):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Notas

Si no hay GPU disponible o usa macOS, simplemente elimine pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . Probablemente sea compatible con los parlamentarios.
Si está utilizando una GPU AMD en Linux, reemplace --index-url https://download.pytorch.org/whl/cu121 con --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . Las GPU AMD no son compatibles con Windows (#120).

Actualizar

Actualice este paquete regularmente para obtener las últimas funciones y correcciones de errores.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Uso

Inferencia

Guía

GUI se lanza con el siguiente comando:

svcg

CLI

Tiempo real (del micrófono)

svc vc

Archivo

svc infer source.wav

Los modelos previos a la aparición están disponibles para abrazar la cara o Civitai.

Notas

Si usa WSL, tenga en cuenta que WSL requiere una configuración adicional para manejar el audio y la GUI no funcionará sin encontrar un dispositivo de audio.
En la inferencia en tiempo real, si hay ruido en las entradas, el modelo Hubert también reaccionará a ellas. Considere usar aplicaciones de reducción de ruido en tiempo real como RTX Voice en este caso.
Los modelos distintos de 4.0V1 o este repositorio no son compatibles.
La inferencia de GPU requiere al menos 4 GB de VRAM. Si no funciona, pruebe la inferencia de CPU ya que es lo suficientemente rápido. ²

Capacitación

Antes de entrenar

Si su conjunto de datos tiene BGM, elimine el BGM usando software como Ultimate Vocal Remover. 3_HP-Vocal-UVR.pth o se recomienda UVR-MDX-NET Main . ³
Si su conjunto de datos es un archivo de audio largo con un solo altavoz, use svc pre-split para dividir el conjunto de datos en múltiples archivos (usando librosa ).
Si su conjunto de datos es un archivo de audio largo con múltiples altavoces, use svc pre-sd para dividir el conjunto de datos en múltiples archivos (usando pyannote.audio ). Puede ser necesaria una clasificación manual adicional debido a problemas de precisión. Si los altavoces hablan con una variedad de estilos de habla, establezca-mineros más grandes que el número real de altavoces. Debido a las dependencias no resueltas, instale pyannote.audio manualmente: pip install pyannote-audio .
Para clasificar manualmente los archivos de audio, svc pre-classify está disponible. Las teclas de flecha arriba y abajo se pueden usar para cambiar la velocidad de reproducción.

Nube

⁴

Si no tiene acceso a una GPU con más de 10 GB de VRAM, se recomienda el plan gratuito de Google Colab para usuarios de luz y se recomienda el plan Pro/Growth de PaperSpace para usuarios pesados. Por el contrario, si tiene acceso a una GPU de alta gama, no se recomienda el uso de servicios en la nube.

Local

Coloque su conjunto de datos como dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subcarpetas y no ASCII Los nombres de archivo son aceptables) y ejecutar:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Notas

La duración del audio del conjunto de datos por archivo debe ser <~ 10s.
Necesita al menos 4 GB de VRAM. ⁵
Se recomienda aumentar el batch_size tanto como sea posible en config.json antes del comando train para que coincida con la capacidad VRAM. Configuración de batch_size en auto-{init_batch_size}-{max_n_trials} (o simplemente auto ) aumentará automáticamente batch_size hasta que ocurra el error OOM, pero puede no ser útil en algunos casos.
Para usar CREPE , reemplace svc pre-hubert con svc pre-hubert -fm crepe .
Para usar ContentVec correctamente, reemplace svc pre-config con -t so-vits-svc-4.0v1 . El entrenamiento puede tardar un poco más porque algunos pesos se restablecen debido a la reutilización de los pesos del generador inicial heredado.
Para usar MS-iSTFT Decoder , reemplace svc pre-config con svc pre-config -t quickvc .
La eliminación de silencio y la normalización del volumen se realizan automáticamente (como en el repositorio aguas arriba) y no son necesarios.
Si ha entrenado en un conjunto de datos grande y sin derechos de autor, considere lanzarlo como modelo inicial.
Para más detalles (por ejemplo, parámetros, etc.), puede ver el wiki o las discusiones.

Ayuda

Para más detalles, ejecute svc -h o svc <subcommand> -h .

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Enlaces externos

Tutorial de video

Colaboradores

Gracias a estas maravillosas personas (Key Emoji):

_34J ? ? ? ? ️ ✅?	_{Garrettconway} ? ?	_Blueamulet ? ?	_{ShotlewayAccount01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_{Satisfacer256} ?	_{Pierluigi Zagaria} ?	_{ruckusmatstster} ?	_Desuka ?	_Heyfixit	_{Roedor nerd} ?	_谢宇
_Coldcawfee ?	_sbersier ? ? ?	_Meldón ? ?	_mmodeusher ?	_Alondano ?	_Likkkez ?	_{Juegos de cinta adhesiva} ?
_{Xianglong él} ?	_75aosu ?	_Tonyco82 ?	_yxlllc ?	_sobresalido ?	_{espoolioinglesias} ? ? ?	_Blacksingh ?
_{Mgs. M. theyib antarnusa} ?	_Exosfeño ?	_guranón ? ?	_{Alexander Koumis}	_ackagami ?	_Altúrgano ?	_Escorpi
_Maximxls	_Star3lord ?	_Torpe ?	_{Zerui chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_Onako2
_4LL0W3V1L	_j5y0v6b ? ️	_{marcellocirelli} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

Este proyecto sigue la especificación de todos los contribuyentes. ¡Contribuciones de cualquier tipo bienvenido!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Si registra un código de referencia y luego agrega un método de pago, puede ahorrar alrededor de $ 5 en la facturación mensual de su primer mes. Tenga en cuenta que ambas recompensas de referencia son créditos en el espacio de documentos y no en efectivo. Fue una decisión difícil pero insertada porque la depuración y la capacitación del modelo inicial requieren una gran cantidad de potencia informática y el desarrollador es un estudiante. ↩
#456 ↩

Expandir

Información adicional