Téléchargement UTAUTAI - Téléchargement du code source UTAUTAI

UTAUTAI

Code Source AI

1.0.0

Télécharger

UTAUTAI: Tune sans restriction de la technologie automatisée Interrigence artificielle

Réadmettre

Index rapide

Architecture modèle
? Qu'est-ce que Utautai?
?Méthode
?FAIRE
Appréciation
Çons, consultez votre soutien
? Contributions de bienvenue

Architecture modèle

Architecture principale d'Utautai ? Désolé pour le dessin à main

? Qu'est-ce que Utautai?

Un référentiel open source visait à générer des morceaux vocaux et instrumentaux assortis de paroles, similaires au chirp et à la riffusion de Suno AI.

?Méthode

La méthode d'Utautai est principalement inspirée par Spear TTS

Pendant l'entraînement, la contribution se compose de jetons sémantiques obtenus à partir de «Lyrics2Sémantic AR», qui extrait les jetons sémantiques des paroles, ainsi que des jetons acoustiques. De plus, les représentations MERT dérivées de la musique sont soumises à la quantification des k-means pour obtenir d'autres jetons sémantiques.

Cependant, pendant l'inférence, il n'est pas possible d'obtenir des représentations Mert de la musique. Par conséquent, nous formons un module de style suivant la méthodologie de l'invite TTS2 à acquérir les représentations cibles Mert à partir de l'invite pendant l'inférence. Le module de style est composé d'un modèle de diffusion basé sur un transformateur.

Je pense qu'en utilisant cette approche, nous pouvons accomplir avec succès les tâches cibles. Qu'en penses-tu?

?FAIRE

Comment pouvons-nous obtenir des paroles qui correspondent à l'audio recadré? Ou devrions-nous même recadrer l'audio en premier lieu? code
Examinez le traitement de la phonémisation et des jetons spéciaux et apportez les modifications nécessaires au code. code
Corrigez le colmator dans l'ensemble de données. code
Complétez le code d'inférence StyleModule. code
D'autres correctifs de code mineurs, tels que des stratégies de masquage.
Éliminez le modèle de diffusion et adaptez le modèle de cohérence.

Appréciation

Papier de lance TTS
Papier Vall-E
Papier de juke-box
Papier de tempête sonore
Papier musiclm
Papier audiolm
Musicgen Paper
Papier PromptTTS2
Repo de la tempête Soundstor de Lucidrains
Soundstorm SpeechTokenzer
Vall-e de LifeIteng
Vall-Ex de Plachtaa
aboyer

Çons, consultez votre soutien

Si vous trouvez Utautai intéressant et utile, donnez-nous une étoile sur Github! ️ Il nous encourage à continuer d'améliorer le modèle et à ajouter des fonctionnalités passionnantes.