Download Multi Tacotron Voice Cloning - Download de código fonte Multi Tacotron Voice Cloning

Multi Tacotron Voice Cloning

Código-Fonte de IA

1.0.0

Baixar

Clonagem de voz multi-tacotron

Este repositório é uma implementação multilíngue fonêmica (russa-inglês) baseada na clonagem de voz em tempo real. É uma estrutura de aprendizado profundo de quatro estágios que permite criar uma representação numérica de uma voz a partir de alguns segundos de áudio e para nós para condicionar um modelo de texto em fala. Se você precisar da versão em inglês, use a implementação original.

Este repositório é uma implementação fonêmica multilíngue (russa-inglesa) com base na clonagem em tempo real. Consiste em quatro redes neurais que permitem criar uma representação numérica da voz a partir de vários segundos de som e usá -la para criar um modelo para converter texto em fala

Exemplo

Início rápido

Use a demonstração online do Colab

Requisitos

Você precisará do seguinte o que planeja usar a caixa de ferramentas apenas para treinar os modelos.

≥python 3.6 .

Pytorch (> = 1.0.1).

Execute pip install -r requirements.txt para instalar os pacotes necessários.

Uma GPU é obrigatória, mas você não precisa necessariamente de uma GPU de alta camada se quiser usar a caixa de ferramentas.

Modelos pré -terem sido pretados

Faça o download do último geere.

Conjuntos de dados

NOME	Linguagem	Link	Comentários	Meu link	Comentários
Dicionário Fonema	En, ru	En, ru	Dicionário Fonema	Link	Dicionário fonêmico russo e inglês combinado
Librispeech	En	Link	300 alto -falantes, discurso limpo 360h
Voxceleb	En	Link	7000 alto -falantes, muitas horas de discurso ruim
M-AAKABS	Ru	Link	3 alto -falantes, 46h de fala limpa
Open_tts, Open_stt	Ru	Open_tts, Open_stt	Muitos oradores, muitas horas de discurso ruim	Link	Limpo 4 horas de fala de um orador. Corrigiu a anotação, dividida em segmentos de até 7 segundos
Voxforge+Audiobook	Ru	Link	Muitos oradores, 25h de várias qualidade	Link	Eu escolhi bons arquivos. Invadiu segmentos. Adicionado um audiolivro da Internet. Aconteceu 200 alto -falantes alguns minutos para cada
Ruslan	Ru	Link	Um alto -falante, 40h bom discurso	Link	Corrigido em 16kHz
Mozilla	Ru	Link	50 alto -falante, 30h bom discurso	Link	Carred em 16kHz, espalhou diferentes usuários em pastas
Single russo	Ru	Link	Um orador, 9h bom discurso	Link	Corrigido em 16kHz

Caixa de ferramentas

Você pode tentar a caixa de ferramentas:

python demo_toolbox.py -d <datasets_root>
ou
python demo_toolbox.py

Wiki

Modelos pré -terem sido pretados

Treinamento (e para outros idiomas)

CONTRIBUIÇÃO

Para qualquer dúvida, envie um e -mail para MEM

Artigos implementados

Url	Designação	Título	Fonte de implementação
1806.04558	Sv2tts	Transfira o aprendizado da verificação do alto-falante para a síntese de texto para fala multispica.	Corentinj
1802.08435	Wavernn (vocoder)	Síntese de áudio eficientes	Fatchord/Wavernn
1712.05884	Tacotron 2 (Synthesizer)	Síntese natural de TTS por condicionamento de wavenet em previsões de espectrograma MEL	Rayhane-Mamah/Tacotron-2
1710.10467	GE2E (codificador)	Perda de ponta a ponta generalizada para verificação do alto-falante	Corentinj

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 322.81KB
Vindo de Github

Aplicativos Relacionados

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Versão multi-chinesa do projeto Dragon Ball

2024-08-23
Uma Família da Pesada: De volta ao Multi

2022-08-29

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos