简体中文
Una bifurcación de so-vits-svc con soporte en tiempo real y una interfaz muy mejorada . Basado en la Rama 4.0 (V1) (o 4.1 ) y los modelos son compatibles. 4.1 Los modelos no son compatibles. Otros modelos tampoco son compatibles.
Siempre tenga cuidado con los pocos influyentes que están demasiado sorprendidos por cualquier proyecto/tecnología nuevo. Debe tomar cada publicación de redes sociales con semiduales.
El auge del cambiador de voz que ocurrió en 2023 ha llegado a su fin, y muchos desarrolladores, no solo los de este repositorio, no han sido muy activos por un tiempo.
Hay demasiadas alternativas a la lista aquí, pero:
En otros lugares, varias nuevas empresas han mejorado y comercializado cambiadores de voz (probablemente con fines de lucro).
Las actualizaciones de este repositorio se han limitado al mantenimiento desde la primavera de 2023.
Es difícil reducir la lista de alternativas aquí, pero considere probar otros proyectos si está buscando un cambio de voz con un rendimiento aún mejor (especialmente en términos de latencia distinta de la calidad).>Sin embargo, este proyecto puede ser ideal para aquellos que desean probar la conversión de voz por el momento (porque es fácil de instalar).
QuickVCContentVec en el repositorio original. 1CREPE .pip .fairseq .Este archivo BAT realizará automáticamente los pasos descritos a continuación.
Windows (versión de desarrollo requerida debido a PYPA/PIPX#940):
py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepathLinux/macOS:
python -m pip install --user pipx
python -m pipx ensurepathpipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121Windows:
py -3.11 -m venv venv
venv S cripts a ctivateLinux/macOS:
python3.11 -m venv venv
source venv/bin/activateAnaconda:
conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork Instalar sin crear un entorno virtual puede causar un PermissionError si Python se instala en archivos de programa, etc.
Instale esto a través de PIP (o su Administrador de paquetes favorito que usa PIP):
python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-forkpip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . Probablemente sea compatible con los parlamentarios.--index-url https://download.pytorch.org/whl/cu121 con --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . Las GPU AMD no son compatibles con Windows (#120).Actualice este paquete regularmente para obtener las últimas funciones y correcciones de errores.
pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork GUI se lanza con el siguiente comando:
svcgsvc vcsvc infer source.wavLos modelos previos a la aparición están disponibles para abrazar la cara o Civitai.
3_HP-Vocal-UVR.pth o se recomienda UVR-MDX-NET Main . 3svc pre-split para dividir el conjunto de datos en múltiples archivos (usando librosa ).svc pre-sd para dividir el conjunto de datos en múltiples archivos (usando pyannote.audio ). Puede ser necesaria una clasificación manual adicional debido a problemas de precisión. Si los altavoces hablan con una variedad de estilos de habla, establezca-mineros más grandes que el número real de altavoces. Debido a las dependencias no resueltas, instale pyannote.audio manualmente: pip install pyannote-audio .svc pre-classify está disponible. Las teclas de flecha arriba y abajo se pueden usar para cambiar la velocidad de reproducción. 4
Si no tiene acceso a una GPU con más de 10 GB de VRAM, se recomienda el plan gratuito de Google Colab para usuarios de luz y se recomienda el plan Pro/Growth de PaperSpace para usuarios pesados. Por el contrario, si tiene acceso a una GPU de alta gama, no se recomienda el uso de servicios en la nube.
Coloque su conjunto de datos como dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subcarpetas y no ASCII Los nombres de archivo son aceptables) y ejecutar:
svc pre-resample
svc pre-config
svc pre-hubert
svc train -tbatch_size tanto como sea posible en config.json antes del comando train para que coincida con la capacidad VRAM. Configuración de batch_size en auto-{init_batch_size}-{max_n_trials} (o simplemente auto ) aumentará automáticamente batch_size hasta que ocurra el error OOM, pero puede no ser útil en algunos casos.CREPE , reemplace svc pre-hubert con svc pre-hubert -fm crepe .ContentVec correctamente, reemplace svc pre-config con -t so-vits-svc-4.0v1 . El entrenamiento puede tardar un poco más porque algunos pesos se restablecen debido a la reutilización de los pesos del generador inicial heredado.MS-iSTFT Decoder , reemplace svc pre-config con svc pre-config -t quickvc . Para más detalles, ejecute svc -h o svc <subcommand> -h .
> svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...
so-vits-svc allows any folder structure for training data.
However, the following folder structure is recommended.
When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
(The latest model will be automatically loaded.)
To train a model, run pre-resample, pre-config, pre-hubert, train.
To infer a model, run infer.
Options:
-h, --help Show this message and exit.
Commands:
clean Clean up files, only useful if you are using the default file structure
infer Inference
onnx Export model to onnx (currently not working)
pre-classify Classify multiple audio files into multiple files
pre-config Preprocessing part 2: config
pre-hubert Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
pre-resample Preprocessing part 1: resample
pre-sd Speech diarization using pyannote.audio
pre-split Split audio files into multiple files
train Train model If D_0.pth or G_0.pth not found, automatically download from hub.
train-cluster Train k-means clustering
vc Realtime inference from microphoneTutorial de video
Gracias a estas maravillosas personas (Key Emoji):
34J ? ? ? ? | Garrettconway ? ? | Blueamulet ? ? | ShotlewayAccount01 ? | 緋 ? | Lordmau5 ? ? ? ? | DL909 ? |
Satisfacer256 ? | Pierluigi Zagaria ? | ruckusmatstster ? | Desuka ? | Heyfixit | Roedor nerd ? | 谢宇 |
Coldcawfee ? | sbersier ? ? ? | Meldón ? ? | mmodeusher ? | Alondano ? | Likkkez ? | Juegos de cinta adhesiva ? |
Xianglong él ? | 75aosu ? | Tonyco82 ? | yxlllc ? | sobresalido ? | espoolioinglesias ? ? ? | Blacksingh ? |
Mgs. M. theyib antarnusa ? | Exosfeño ? | guranón ? ? | Alexander Koumis | ackagami ? | Altúrgano ? | Escorpi |
Maximxls | Star3lord ? | Torpe ? | Zerui chen ? | Roee Shenberg ? ? | Justas ? | Onako2 |
4LL0W3V1L | j5y0v6b ? ️ | marcellocirelli ? | Priyanshu Patel | Anna Gorshunova ? |
Este proyecto sigue la especificación de todos los contribuyentes. ¡Contribuciones de cualquier tipo bienvenido!
#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Si registra un código de referencia y luego agrega un método de pago, puede ahorrar alrededor de $ 5 en la facturación mensual de su primer mes. Tenga en cuenta que ambas recompensas de referencia son créditos en el espacio de documentos y no en efectivo. Fue una decisión difícil pero insertada porque la depuración y la capacitación del modelo inicial requieren una gran cantidad de potencia informática y el desarrollador es un estudiante. ↩
#456 ↩