Neural Voice Cloning With Few Samples Descargar - Neural Voice Cloning With Few Samples Descargar código fuente

Neural Voice Cloning With Few Samples

Código Fuente de IA

1.0.0

Descargar

Estado : Archivo (el código se proporciona como es, no se esperan actualizaciones)

Clonación de la voz neuronal

Estamos tratando de clonar las voces para oradores que es independiente. Esto significa que tenemos que encapturar la identidad del altavoz en lugar del contenido que hablan. Tratamos de hacer esto haciendo que un altavoz incruste espacio para diferentes altavoces.

Las incrustaciones del altavoz intentan representar la identidad del altavoz (varios aspectos de la voz como el tono, el acento, etc. del altavoz), puede considerar esto como la huella digital de voz del altavoz.

En este momento nos referimos al siguiente documento para nuestra implementación:-

"Clonación de voz neuronal con pocas muestras" de Baidu

Estado

Se ha construido la arquitectura para el modelo generativo y codificador de altavoces múltiples.

El modelo generativo de múltiples altavoces ha sido entrenado para la adaptación de los altavoces para 84 altavoces que utilizan VCTK-Dataset se ha completado en NVIDIA-V100 GPU para épocas de 190000.

Adapatación del altavoz

El conjunto de datos VCTK se dividió para el entrenamiento y las pruebas: 84 altavoces se utilizan para capacitar al modelo de múltiples altavoces, 8 altavoces para la validación y 16 altavoces para la clonación.

Entrenamiento para la adaptación de los altavoces

Lo siguiente capacitará al modelo en los primeros 84 altavoces en el conjunto de datos.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

Esto puede demorar hasta 20 horas usando una GPU.

Para adaptar el modelo a un altavoz en particular después del entrenamiento inicial

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

Esto tomará un promedio de 10 a 20 minutos.

Algunas voces clonadas

Hasta ahora, algunas de las voces conedes que tenemos usando el enlace de adaptación de altavoces

Expresiones de gratitud

La implementación del modelo generativo de múltiples expansiones se inspiró en https://github.com/r9y9/deepvoice3_pytorch
Clonación de voz neuronal con pocas muestras

Citar

Si encuentra útil el código en el repositorio, cíquelo usando:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 42.14MB
Proviene de Github

Aplicaciones relacionadas

azure search python samples

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
atrapado con bufón

2024-02-23
Versión de Android de nube neuronal

2022-11-24
Somos pocos felices

2022-09-05

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo