Descarga bark voice cloning HuBERT quantizer - bark voice cloning HuBERT quantizer Código fuente Descargar

bark voice cloning HuBERT quantizer

Otro código fuente

1.0.0

Descargar

Clonación de voz de corteza

Por favor lea

Este código funciona en Python 3.10, no lo he probado en otras versiones. Algunas versiones más antiguas tendrán problemas.

¿Clonación de voz con corteza en alta calidad?

Es posible ahora.

Ejemplos_Biden_example.mov

¿Cómo clono una voz?

Para los desarrolladores:

Ejemplos de código en la página del modelo Huggingface

Para todos:

Audio-Webui con corteza y clonación de voz
espacio en línea de clonación de voz
cuaderno de pitón interactivo

Las voces clonadas no son muy convincentes, ¿por qué las voces clonadas de otras personas son mejores que las mías?

Asegúrese de que estas cosas no estén en su entrada de voz: (sin ningún orden en particular)

Ruido (puede usar un removedor de ruido antes)
Música (también hay herramientas de removedor de música) (a menos que desee música de fondo)
Un límite al final (esto hará que intente continuar con la generación)
Menos de 1 segundo de datos de capacitación (personalmente sugiero alrededor de 10 segundos para un buen potencial, pero también he tenido excelentes resultados con 5 segundos).

¿Qué hace que un buen audio rápido? (sin ningún orden en particular)

Claramente hablado
No hay ruidos de fondo extraños
Solo un altavoz
Audio que termina después de que termina una oración
Voz regular/común (generalmente tienen más éxito, todavía es capaz de clonar voces complejas, pero no tan bien en eso)
Alrededor de 10 segundos de datos

Modelos previos a la aparición

Oficial

Nombre	Modelo de Hubert	Versión cuantificadora	Época	Idioma	Conjunto de datos
cuantificador_hubert_base_ls960.pth	Base de Hubert	0	3	Inglaterra	Gitmylo/corteza semántica
cuantificador_hubert_base_ls960_14.pth	Base de Hubert	0	14	Inglaterra	Gitmylo/corteza semántica
cuantificador_v1_hubert_base_ls960_23.pth	Base de Hubert	1	23	Inglaterra	Gitmylo/corteza semántica

Comunidad

Autor	Nombre	Modelo de Hubert	Versión cuantificadora	Época	Idioma	Conjunto de datos
Hobispla	polaco-hubert-quantizer_8_epoch.pth	Base de Hubert	1	8	Polla	Hobis/corteza-polish-semántica-ola
C0untfloyd	alemán-hubert-quantizer_14_epoch.pth	Base de Hubert	1	14	Ger	Countfloyd/corteza-alemán-ondulante

Para desarrolladores: Implementación de clonación de voz en sus proyectos de corteza

Simplemente copie los archivos de este directorio en su proyecto.
El Hubert Manager contiene métodos para descargar Hubert y el modelo de cuantizador personalizado.
Cargar el Customhubert debería ser bastante sencillo
El cuaderno contiene código para usar en CUDA o CPU. En lugar de solo CPU.

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

Cargando y ejecutando los kmeanos personalizados

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

¿Cómo lo entreno yo mismo?

Simplemente ejecute los comandos de entrenamiento.

Una manera simple de crear datos semánticos y Wavs para el entrenamiento es con mi guión: Bark-Data-Gen. Pero recuerde que la creación de los Wavs tomará aproximadamente al mismo tiempo, si no más, la creación de la semántica. Esto puede tardar un tiempo en generar por eso.

Por ejemplo, si tiene un conjunto de datos con ZIPS que contiene archivos de audio, una zip para semántica y otro para los archivos WAV. Dentro de una carpeta llamada "literatura"

Debe ejecutar process.py --path Literature --mode prepare para extraer todos los datos a un directorio

Debe ejecutar process.py --path Literature --mode prepare2 para crear vectores semánticos de Hubert, listo para la capacitación

Debe ejecutar process.py --path Literature --mode train para entrenamiento

Y cuando su modelo se ha entrenado lo suficiente, puede ejecutar process.py --path Literature --mode test para probar el último modelo.

Descargo de responsabilidad

No soy responsable del audio generado utilizando la semántica creada por este modelo. Simplemente no lo use con fines ilegales.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-25
tamaño 88.29KB
Proviene de Github

Aplicaciones relacionadas

BARK

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interfaz SMS ilimitada de GOOGLE VOICE

2009-11-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo