Descarga de UTAUTAI - Descarga del código fuente UTAUTAI

UTAUTAI

Código Fuente de IA

1.0.0

Descargar

Utautai: Interigencia artificial de tecnología automatizada sin restricciones

Readme

Índice rápido

Arquitectura modelo
? ¿Qué es Utautai?
?Método
?HACER
Apreciación
Encar de su apoyo
? Contribuciones de bienvenida

Arquitectura modelo

Arquitectura principal de Utautai ? Perdón por el tirón de la mano

? ¿Qué es Utautai?

Un repositorio de código abierto destinado a generar pistas vocales e instrumentales a juego a partir de letras, similares a Chirp y Riffusion de Suno AI.

?Método

El método de Utautai se inspira principalmente en Spear TTS

Durante el entrenamiento, el aporte consiste en tokens semánticos obtenidos de 'Lyrics2Semantic AR', que extrae tokens semánticos de letras, así como tokens acústicos. Además, las representaciones de MERT derivadas de la música están sujetas a cuantización de K-means para obtener más tokens semánticos.

Sin embargo, durante la inferencia, no es posible obtener representaciones de Mert de la música. Por lo tanto, capacitamos un módulo de estilo que sigue la metodología de TTS2 rápido para adquirir las representaciones de MERT objetivo de la solicitud durante la inferencia. El módulo de estilo está compuesto por un modelo de difusión basado en transformadores.

Creo que al usar este enfoque, podemos lograr con éxito las tareas objetivo. ¿Qué opinas?

?HACER

¿Cómo podemos obtener letras que coincidan con el audio recortado? ¿O deberíamos incluso recortar el audio en primer lugar? código
Examine el manejo de la fonemización y los tokens especiales, y haga modificaciones de código necesarias. código
Corrija el colator en el conjunto de datos. código
Complete el código de inferencia de estilemódulo. código
Otras correcciones de código menor, como estrategias de enmascaramiento.
Elimine el modelo de difusión y adapte el modelo de consistencia.

Apreciación

Papel TTS de lanza
Papel vall-e
Papel jukebox
Papel de tormenta de sonido
Paper MusicLM
Papel de audiolm
Paper MusicGen
Papel pridtts2
Repo de tormenta de sonido de Lucidrains
SoundStorm SpeechTokenizer
Lifeiteng's Vall-e
Vall-ex de Plachtaa
ladrar

Encar de su apoyo

Si encuentra que Utautai es interesante y útil, ¡danos una estrella en Github! ️ Nos anima a seguir mejorando el modelo y agregar características emocionantes.