Outte AI a lancé une nouvelle méthode de synthèse de texte vocale appelée OUTETTS-0.1-350M, un modèle TTS simplifié basé sur l'architecture LLAMA. Il ne nécessite pas d'adaptateur externe, utilise directement WavTokenizer pour générer des balises audio et a une fonction de clonage vocale d'échantillon zéro, qui peut copier de nouveaux sons en quelques secondes d'audio de référence. Les paramètres du modèle sont à grande échelle relativement faibles, mais il peut atteindre des performances comparables aux systèmes plus grands et plus complexes, et est compatible avec llama.cpp, ce qui le rend idéal pour les applications en temps réel. Son efficacité et sa facilité d'utilisation le font avoir un large éventail de prospects d'application dans des domaines tels que les assistants personnalisés, les livres audio et la localisation de contenu.
Récemment, Outte AI a publié une nouvelle méthode de synthèse de texte vocale appelée OUTETTS-0.1-350M. Cette approche utilise la modélisation du langage pur sans adaptateurs externes ni architectures complexes, fournissant une approche TTS simplifiée. OUTETTS-0.1-350M est basé sur l'architecture de lama, en utilisant WavTokenizer pour générer directement des balises audio, ce qui rend le processus plus efficace.
Le modèle a un clonage vocal zéro-échantillon et peut copier de nouveaux sons en quelques secondes d'audio de référence. OUTETTS-0.1-350M est conçu pour les performances de l'appareil et est compatible avec llama.cpp, ce qui le rend idéal pour les applications en temps réel. Bien que le modèle ait une taille de paramètre relativement petite (350 millions), ses performances sont comparables aux systèmes TTS plus grands et plus complexes.
L'accessibilité et l'efficacité de OUTETTS-0.1-350M le rend adapté à un large éventail d'applications, y compris des assistants personnalisés, des livres audio et une localisation de contenu. Onete AI, publié sous licence CC-BY, encourage une expérimentation et une intégration supplémentaires dans différents projets pour démocratiser la technologie TTS avancée.

La publication de OUTETTS-0.1-350M marque une étape clé en avant dans la technologie de texte-parole, qui utilise une architecture simplifiée pour fournir une synthèse de la parole de haute qualité avec des exigences de calcul minimales. Il intègre l'architecture de lama, utilise WavTokenizer et est capable d'effectuer un clonage vocal d'échantillon zéro sans adaptateurs complexes, qui le distingue du modèle TTS traditionnel.
Adresse: https://www.outeai.com/blog/outts-0.1-350m
L'architecture efficace et simplifiée d'Onetts-0.1-350M et la fonction de clonage vocale de l'échantillon zéro apportent de nouvelles possibilités à la technologie du texte vocale et offre aux développeurs des outils plus pratiques et faciles à utiliser. Ses caractéristiques open source ont favorisé le développement technologique et la vulgarisation des applications dans ce domaine.