cs224n gpu that talks download - cs224n gpu that talks download do código -fonte

cs224n gpu that talks

Código-Fonte de IA

1.0.0

Baixar

Atenção, estou tentando falar: síntese de fala de ponta a ponta (CS224N '18)

Implementação de um modelo convolucional de texto em fala baseado em seq2seq com base em Tachibana et. al. (2017). Dada uma sequência de caracteres, o modelo prevê uma sequência de quadros de espectrograma em dois estágios (text2mel e ssrn).

Conforme discutido no relatório, podemos obter qualidade de áudio razoavelmente decente com o Text2mel treinado para 60k etapas, SSRN para 100 mil etapas. Isso corresponde a cerca de (6+12) horas de treinamento em uma única GPU do Tesla K80 no conjunto de dados de fala do LJ.

Modelo pré-treinado : [download] Amostras : [Modelo-Base-M4] [não supervisionado-Decoder-M1]

Para mais detalhes, consulte: Papel de pôster

Uso:

Estrutura de diretório

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

Arquivos de script

Execute cada arquivo com python <script_file>.py -h para ver os detalhes do uso.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Notebooks:

Avaliação : executa previsões de modelos em todos os conjuntos de treinamento e validação para diferentes pontos de verificação do modelo salvo e salva os resultados finais.
Demonstração : Digite interativamente as frases de entrada e ouça o áudio de saída gerado.

Avançar:

Treinamento em diferentes idiomas com menor quantidade de dados disponíveis no conjunto de dados de idiomas indianos
Explorando o uso de métodos semi-supervisionados para acelerar o treinamento, usando um 'modelo de linguagem de áudio' pré-treinado como inicialização

Código externo referenciado:

(Da SRC/ init .

src/data_load.py, dsp_utils.py (com modificações)
https://www.github.com/
src/spsi.py (referenciado)
https://github.com/lonce/spsi_python (autor: @lonce)
src/utils.py (referenciado)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/common_attention.py

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-15
tamanho 1.72MB
Vindo de Github

Aplicativos Relacionados

zkwork_aleo_gpu_worker

2024-11-11
esse não é o meu vizinho versão chinesa

2024-05-14
Essa não é a versão móvel do meu vizinho

2024-03-04
Esse não é o jogo de terror do meu vizinho

2024-03-04
Esse não é o jogo do meu vizinho

2024-02-25
Pegue isso

2022-08-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos