? Perdón por el tirón de la mano
Un repositorio de código abierto destinado a generar pistas vocales e instrumentales a juego a partir de letras, similares a Chirp y Riffusion de Suno AI.
El método de Utautai se inspira principalmente en Spear TTS
Durante el entrenamiento, el aporte consiste en tokens semánticos obtenidos de 'Lyrics2Semantic AR', que extrae tokens semánticos de letras, así como tokens acústicos. Además, las representaciones de MERT derivadas de la música están sujetas a cuantización de K-means para obtener más tokens semánticos.
Sin embargo, durante la inferencia, no es posible obtener representaciones de Mert de la música. Por lo tanto, capacitamos un módulo de estilo que sigue la metodología de TTS2 rápido para adquirir las representaciones de MERT objetivo de la solicitud durante la inferencia. El módulo de estilo está compuesto por un modelo de difusión basado en transformadores.
Creo que al usar este enfoque, podemos lograr con éxito las tareas objetivo. ¿Qué opinas?
Si encuentra que Utautai es interesante y útil, ¡danos una estrella en Github! ️ Nos anima a seguir mejorando el modelo y agregar características emocionantes.
Las contribuciones siempre son bienvenidas.