vits mandarin biaobei Download - vits mandarin biaobei Download do código -fonte

vits mandarin biaobei

Código-Fonte de IA

1.0.0

Baixar

Vits: autoencoder variacional condicional com aprendizado adversário para a fala de ponta a ponta

Jaehyeon Kim, Jungil Kong e Juhee Son

Em nosso artigo recente, propomos Vits: AutoEncoder variacional condicional com aprendizado adversário para o texto a ponta-a-ponta.

Vários modelos recentes de texto para falar de ponta a ponta (TTS) que permitem treinamento em estágio único e amostragem paralela foram propostos, mas sua qualidade de amostra não corresponde à dos sistemas TTS em dois estágios. Neste trabalho, apresentamos um método TTS de ponta a ponta paralelo que gera áudio mais natural do que os modelos atuais de dois estágios. Nosso método adota a inferência variacional aumentada com os fluxos normalizados e um processo de treinamento adversário, o que melhora o poder expressivo da modelagem generativa. Também propomos um preditor de duração estocástica para sintetizar a fala com diversos ritmos do texto de entrada. Com a modelagem de incerteza sobre variáveis latentes e o preditor de duração estocástica, nosso método expressa a relação natural de um a muitos, na qual uma entrada de texto pode ser falada de várias maneiras com diferentes arremessos e ritmos. Uma avaliação humana subjetiva (pontuação média de opinião, ou MOS) no discurso de LJ, um conjunto de dados de alto -falante, mostra que nosso método supera os melhores sistemas TTS publicamente disponíveis e atinge um MOS comparável à verdade fundamental.

Visite nossa demonstração para amostras de áudio.

Também fornecemos os modelos pré -treinados.

** Nota de atualização: graças a Rishikesh (ऋषिकेश ऋषिकेश), nossa demonstração interativa do TTS está agora disponível no Colab Notebook.

Vits no treinamento	Vits em inferência

Pré-requisitos

Python> = 3.6
Clone este repositório
Instale os requisitos do Python. Consulte requisitos.txt
1. Pode ser necessário instalar o Espeak primeiro: apt-get install espeak
Baixar conjuntos de dados
1. Faça o download e extraia o conjunto de dados de fala do LJ, depois renomeie ou crie um link para a pasta do conjunto de dados: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Para configuração de vários alto-falantes, baixe e extraia o conjunto de dados VCTK e desative os arquivos WAV para 22050 Hz. Em seguida, renomeie ou crie um link para a pasta do conjunto de dados: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Crie pesquisa de alinhamento monotônico e execute o pré -processamento se você usar seus próprios conjuntos de dados.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Treinamento Exmaple

 # LJ Speech
python train.py -c configs/ljs_base.json -m ljs_base

# VCTK
python train_ms.py -c configs/vctk_base.json -m vctk_base

Exemplo de inferência

Veja inference.ipynb

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 963.36KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
PIADA

2024-02-26

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos