Neural Voice Cloning With Few Samples Download - Neural Voice Cloning With Few Samples download de código -fonte

Neural Voice Cloning With Few Samples

Código-Fonte de IA

1.0.0

Baixar

Status : Arquivo (o código é fornecido como está, sem atualizações esperadas)

As amostras de clonagem de voz neural

Estamos tentando clonar vozes para alto -falantes, o que é independente de conteúdo. Isso significa que temos que cena a identidade do falante, e não o conteúdo que eles falam. Tentamos fazer isso criando um espaço de incorporação de alto -falante para diferentes falantes.

As incorporações do alto -falante tentam representar a identidade do alto -falante (vários aspectos da voz, como pitch, sotaque, etc. do alto -falante), você pode considerar isso como a impressão digital de voz do alto -falante.

Agora estamos nos referindo ao seguinte artigo para nossa implementação:-

"Clonagem de voz neural com poucas amostras" de Baidu

Status

A arquitetura para o modelo generativo e codificador de alto-falantes foi construído.

O modelo generativo de vários falantes foi treinado para adaptação de alto-falantes para 84 alto-falantes usando o DataSet VCTK foi concluído no NVIDIA-V100 GPU para épocas de 190000.

Adapatação do alto -falante

O conjunto de dados VCTK foi dividido para treinamento e teste: 84 alto-falantes são usados para treinar o modelo de vários falantes, 8 alto-falantes para validação e 16 alto-falantes para clonagem.

Treinamento para adapatação de alto -falante

A seguir, treinará o modelo nos primeiros 84 alto -falantes do conjunto de dados.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

Isso pode levar até 20 horas usando uma GPU.

Para adaptar o modelo a um falante específico após o treinamento inicial

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

Isso levará em média 10 a 20 minutos.

Algumas vozes clonadas

Até agora, algumas das vozes do cone que temos usando o link de adaptação do alto -falante

Agradecimentos

A implementação do modelo generativo de vários alto-falantes foi inspirado em https://github.com/r9y9/deepvoice3_pytorch
Clonagem de voz neural com poucas amostras

Citar

Se você achar útil o código no repositório, cite -o usando:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 42.14MB
Vindo de Github

Aplicativos Relacionados

azure search python samples

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
preso com Jester

2024-02-23
Versão Android da Nuvem Neural

2022-11-24
Somos felizes, poucos

2022-09-05

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos