whisper vits japanese Download - whisper vits japanese Source Code Download

whisper vits japanese

Código-Fonte de IA

1.0.0

Baixar

Whisper-Vits-Japanese

O tutorial está aqui: https://www.bilibili.com/video/bv19e4y167dx/?spm_id_from=333.999.0.0

Tarefa	Caderno
Sussurro_vits_japanese (conjunto de dados de ella embutido)

2023.01.31 Atualizou o novo espec.pt gera automaticamente uma nova especificação.

Este projeto usa o projeto Whisper do Google como o processador de dados do VITS. Ao modificar a transcrição.py do projeto Whisper, ele gera o arquivo SRT correspondente para o áudio (o PR excluído é usado aqui e o PR não é mais encontrado, por isso não pode ser referenciado ao autor original). Ao mesmo tempo, o limite do Whisper só pode ler alguns arquivos de áudio é relaxado até o ponto em que ele pode atravessar todos os arquivos de áudio na pasta. O Whisper pode gerar SRT para possibilitar a entrada de áudio longo, e os usuários não precisam mais cortar o áudio em pedaços ou até transliterar o texto de áudio longo. Contamos diretamente no sussurro para reconhecimento de fala e preparação de dados, cortamos automaticamente em áudio curto, geramos arquivos de transcrição automaticamente e, em seguida, enviamos -os para o processo de treinamento do VITS. Considerando que o som seco de áudio a longo prazo é mais fácil de obter, as barreiras de entrada Vits são bastante reduzidas novamente.

O processo de processamento é aproximadamente o seguinte: O arquivo SRT reconhecido pelo Whisper será processado pelo Auto.py. O processo de processamento refere-se a TobiasRordorf/SRT-para-CSV e Audio-Split: Split Long Audio Arquivos com base no arquivo SRT no arquivo SRT (transcrição salva no CSV) (github.com). O arquivo de áudio é convertido primeiro em 22050Hz e 16 bits e, em seguida, os registros de data e hora do arquivo SRT com o mesmo nome e a transcrição do reconhecimento de fala são convertidos em um arquivo CSV. O arquivo CSV possui o horário de início e o horário de término de cada segmento do áudio, bem como os caminhos correspondentes de transcrição e arquivo de áudio. O pacote AudioSement é usado para dividir o áudio longo de acordo com o horário de início e o horário de término, e os arquivos de áudio com sufixos são gerados na ordem das fatias, como a_0.wav e a_1.wav, etc. Todo o áudio fatiado será armazenado na pasta Slice_Audio, e depois o arquivo de TXT com "o caminho | O fluxo de dados subsequente pode ser conectado diretamente à parte VITS.

O limpador e o símbolo dos Vits que eu uso agora é Cjangcjengh/Vits: Vits Implementação de japonês, chinês, coreano e sânscrito (github.com) como a versão inicial do período de Deus da criação. Agora, seu armazém atualizou mais produtos de limpeza e símbolos, mas sou uma pessoa muito nostálgica e sinto falta do tempo em que todos vieram para o Vits no começo, então ainda uso a versão original. O VITS possui dois principais pré -processamento, um é o alinhamento monotônico e o outro é pré -processado.py e você pode iniciar o trem.py. Coloquei todos os processos em sussurro-vits-japonese.ipynb e só preciso clicar neles passo a passo para ser executado. A única coisa que precisa do usuário alterar é substituir meu caminho postal de áudio pelo seu próprio zip de áudio, e o restante das peças não precisa ser modificado. Por fim, adicionei as instruções para salvar o modelo e os arquivos processados no disco de rede e restaurar o último ponto de verificação mais recente do disco de rede durante o próximo treinamento.

A parte do treinamento multiplayer a seguir é concluída pelo MR47121836 e expressamos nossa gratidão

Além disso, reconhecimentos especiais incluem problemas de porta, versão numpy e questões de pré -processamento de texto apontadas pela perda de rastreamento.

2023.02.02 Adicionado auto_ms.py, arquivo ms.json. Para treinamento para vários jogadores, você precisa executar auto_ms.py

Pré-processamento:

Basta nomear o arquivo de arquivo de áudio speawerid_xxxx.wav e carregá -lo na pasta de áudio. Em seguida, siga as etapas gerais para executá -lo. Quando o processamento de áudio for concluído, execute o arquivo Auto_ms.py e o arquivo TXT será gerado automaticamente, com o caminho do formato | SpeowerID | Texto.

NOTA: Se você usar auto_ms.py para gerar o TXT, deverá modificá -lo no código na etapa de alinhamento e conversão de texto: (porque o text_index não é 1, mas 2 ao treinar para várias pessoas)

 python preprocess.py --text_index 2 --text_cleaners japanese_cleaners --filelists /content/whisper-vits-japanese/filelists/train_filelist.txt /content/whisper-vits-japanese/filelists/val_filelist.txt

trem:

 python train_ms.py -c configs/ms.json -m ms

A parte da interface do modelo multiplayer usa:

 hps = utils.get_hparams_from_file("./configs/ms.json")

net_g = SynthesizerTrn(
    len(symbols),  
    hps.data.filter_length // 2 + 1,  
    hps.train.segment_size // hps.data.hop_length,  
    n_speakers=hps.data.n_speakers,  
    **hps.model).cuda()  
_ = net_g.eval()  

_ = utils.load_checkpoint("/root/autodl-tmp/logs/ms/G_29000.pth", net_g, None)

stn_tst = get_text("ごめんね優衣", hps)
with torch.no_grad():  
    x_tst = stn_tst.cuda().unsqueeze(0)  
    x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).cuda()  
    sid = torch.LongTensor([11]).cuda() //11指speakerId为11，如果有12个n_speaker,编号就从0-11  
    audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()  
ipd.display(ipd.Audio(audio, rate=hps.data.sampling_rate, normalize=False))

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 488.76KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
PIADA

2024-02-26

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos