bark voice cloning HuBERT quantizer Download - bark voice cloning HuBERT quantizer Código Fonte Download

bark voice cloning HuBERT quantizer

Outro código-fonte

1.0.0

Baixar

Clonagem por voz de casca

Por favor, leia

Este código funciona no Python 3.10, não o testei em outras versões. Algumas versões mais antigas terão problemas.

Clonagem de voz com casca em alta qualidade?

É possível agora.

exemplos_biden_example.mov

Como faço para clonar uma voz?

Para desenvolvedores:

Exemplos de código na página do modelo Huggingface

Para todos:

Audio-webui com casca e clonagem de voz
Espaço de clonagem de voz huggingface online
Notebook interativo do Python

As vozes clonadas não são muito convincentes, por que as vozes clonadas de outras pessoas são melhores do que as minhas?

Certifique -se de que essas coisas não estejam na sua entrada de voz: (em nenhuma ordem específica)

Ruído (você pode usar um removedor de ruído antes)
Música (também existem ferramentas de removedor de música) (a menos que você queira música em segundo plano)
Um corte no final (isso fará com que ele tente continuar na geração)
Sob 1 segundo dos dados de treinamento (eu pessoalmente sugiro cerca de 10 segundos para um bom potencial, mas também tive ótimos resultados com 5 segundos.)

O que contribui para um bom áudio rápido? (em nenhuma ordem específica)

Claramente falado
Sem ruídos de fundo estranhos
Apenas um alto -falante
Áudio que termina após o término de uma frase
Voz regular/comum (eles geralmente têm mais sucesso, ainda é capaz de clonar vozes complexas, mas não tão boas nisso)
Cerca de 10 segundos de dados

Modelos pré -terem sido pretados

Oficial

Nome	Modelo Hubert	Versão quantizadora	Época	Linguagem	Conjunto de dados
quantifier_hubert_base_ls960.tth	Hubert Base	0	3	Eng	Treinamento Gitmylo/Bark-semantica
quantifier_hubert_base_ls960_14.th	Hubert Base	0	14	Eng	Treinamento Gitmylo/Bark-semantica
quantifier_v1_hubert_base_ls960_23.pth	Hubert Base	1	23	Eng	Treinamento Gitmylo/Bark-semantica

Comunidade

Autor	Nome	Modelo Hubert	Versão quantizadora	Época	Linguagem	Conjunto de dados
Hobispl	polonês-Hubert-Quantizer_8_epoch.tth	Hubert Base	1	8	Pol	Hobis/Bark-Polish-semantica-o-o-treinamento
C0untfloyd	Alemão-Hubert-Quantizer_14_epoch.tth	Hubert Base	1	14	Ger	Countfloyd/Bark-Aleman-semantic-WAV-Treining

Para desenvolvedores: implementando a clonagem de voz em seus projetos de casca

Basta copiar os arquivos deste diretório para o seu projeto.
O Hubert Manager contém métodos para baixar Hubert e o modelo de quantizador personalizado.
Carregar o CustomHubert deve ser bem direto
O notebook contém código a ser usado no CUDA ou CPU. Em vez de apenas CPU.

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

Carregando e executando os Kmeans personalizados

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

Como faço para treinar sozinho?

Simplesmente execute os comandos de treinamento.

Uma maneira simples de criar dados e ondas semânticos para treinamento é com o meu script: gen-gen de casca. Mas lembre -se de que a criação dos Wavs levará ao mesmo tempo, se não for maior que a criação da semântica. Isso pode demorar um pouco para gerar por causa disso.

Por exemplo, se você possui um conjunto de dados com ZIPS contendo arquivos de áudio, um zip para semântica e outro para os arquivos WAV. Dentro de uma pasta chamada "literatura"

Você deve executar process.py --path Literature --mode prepare para extrair todos os dados para um diretório

Você deve executar process.py --path Literature --mode prepare2 para criar vetores semânticos de Hubert, prontos para o treinamento

Você deve executar process.py --path Literature --mode train para treinamento

E quando o seu modelo é treinado o suficiente, você pode executar process.py --path Literature --mode test .

Isenção de responsabilidade

Não sou responsável pelo áudio gerado usando a semântica criada por este modelo. Só não o use para fins ilegais.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-25
tamanho 88.29KB
Vindo de Github

Aplicativos Relacionados

BARK

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Interface SMS ilimitada do GOOGLE VOICE

2009-11-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos