Download de UTAUTAI - Download de código fonte UTAUTAI

UTAUTAI

Código-Fonte de IA

1.0.0

Baixar

Utautai: Interigência artificial de tecnologia automatizada sem restrições

Readme

ÍNDICE RÁPIDO

Arquitetura de modelo
? O que é utautai?
?Método
?PENDÊNCIA
Apreciação
️Soe seu apoio
? Contribuições de boas -vindas

Arquitetura de modelo

Arquitetura principal de Utautai ? Desculpe pelo desenho à mão

? O que é utautai?

Um repositório de código aberto destinado a gerar faixas vocais e instrumentais combinando a partir de letras, semelhantes ao chirp e riffusão de Samo Ai.

?Método

O método de Utautai é inspirado principalmente por Spear TTS

Durante o treinamento, a entrada consiste em tokens semânticos obtidos de 'Lyrics2Semantic AR', que extrai tokens semânticas das letras, bem como tokens acústicos. Além disso, as representações MERT derivadas da música são submetidas à quantização de K-means para obter mais tokens semânticos.

No entanto, durante a inferência, não é possível obter representações MERT da música. Portanto, treinamos um módulo de estilo seguindo a metodologia do prompt TTS2 para adquirir as representações de Mert de destino do prompt durante a inferência. O módulo de estilo é composto por um modelo de difusão baseado em transformador.

Penso que, usando essa abordagem, podemos realizar com sucesso as tarefas de destino. O que você acha?

?PENDÊNCIA

Como podemos obter letras que combinam com o áudio cortado? Ou deveríamos cortar o áudio em primeiro lugar? código
Examine o manuseio da fonemização e os tokens especiais e faça as modificações necessárias de código. código
Corrija o coletor no conjunto de dados. código
Preencha o código de inferência do StyleModule. código
Outras correções de código menor, como estratégias de mascaramento.
Elimine o modelo de difusão e adapte o modelo de consistência.

Apreciação

Papel TTS Spear
Vall-E Papel
Papel jukebox
Papel de tempestade de som
Papel de música
Papel Audiolm
MusicGen Paper
PROMPTTTTS2 PAPEL
repo repositório de tempestade de Lucidrains
Soundstorm SpeechTokenizer
Vall-e de Lifeiteng
Vall-ex de Plachtaa
latido

️Soe seu apoio

Se você achar Utautai interessante e útil, dê -nos uma estrela no Github! ️ Isso nos incentiva a continuar melhorando o modelo e adicionando recursos interessantes.