ORPHEUS TTS: Un nouveau modèle de génération de TTS qui exprime des émotions proches des humains - AI Article

Auteur：Eve Cole Date de mise à jour：2025-05-23 12:00:03

2025 Binance directe

Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜

Le 19 mars, un modèle Open Source Text-the-Speech (TTS) appelé Orpheus TTS a été officiellement dévoilé. Ce modèle a rapidement attiré l'attention avec son expression émotionnelle proche de l'homme, ses effets vocaux naturels et lisses et ses caractéristiques de flux de sortie en temps réel ultra-faible. Il est rapporté qu'Orpheus TTS fonctionne bien dans les scénarios de dialogue en temps réel et devrait apporter de nouvelles percées à l'interaction vocale intelligente.

Orpheus TTS se concentre sur une faible latence et une expression émotionnelle élevée. Ses caractéristiques de base comprennent: la latence ultra-faible, avec une latence par défaut d'environ 200 millisecondes. Grâce à l'optimisation du cache KV du flux d'entrée et du modèle, le retard peut être comprimé à 25 à 50 millisecondes pour répondre aux besoins des conversations en temps réel; L'expression émotionnelle et la production vocale sont naturelles et lisses, qui peuvent être proches des émotions humaines, soutenir les changements d'intonation riches et améliorer l'expérience interactive; Les flux de sortie en temps réel prennent en charge la génération d'audio en streaming pour s'assurer que la génération de voix et les entrées sont synchronisées et conviennent à des scénarios tels que les assistants virtuels, les systèmes de service client.

Grâce à sa faible latence et ses caractéristiques élevées de naturel, Orpheus TTS est considéré comme ayant un large potentiel dans le domaine de la conversation en temps réel. Qu'il s'agisse d'assistants vocaux intelligents, d'éducation en ligne ou de doublage des ancres virtuelles et des personnages de jeux, ce modèle peut offrir une expérience d'interaction vocale plus humaine. De plus, sa nature open source offre également aux développeurs plus de possibilités de personnalisation.

Avec la combinaison de l'expression émotionnelle, des effets naturels et de la latence ultra-bas, Orpheus TTS marque une nouvelle hauteur pour la technologie TTS. Il améliore non seulement la qualité de la synthèse de la parole, mais ouvre également une nouvelle situation pour les scénarios interactifs dynamiques à travers des flux de sortie en temps réel. À l'avenir, ce modèle pourrait devenir une référence dans le domaine des TTS open source.

Adresse: https://github.com/canopyai/orpheus-tts