Em 19 de março, um modelo de texto para fala em código aberto (TTS) chamado Orpheus TTS foi oficialmente revelado. Esse modelo rapidamente atraiu a atenção com sua expressão emocional humana, efeitos de voz natural e suave e características de fluxo de saída em tempo real com latência ultra baixa. É relatado que o Orpheus TTS tem um bom desempenho em cenários de diálogo em tempo real e espera-se que traga novos avanços à interação inteligente da voz.
Orpheus TTS se concentra em baixa latência e alta expressão emocional. Seus principais recursos incluem: latência ultra baixa, com uma latência padrão de cerca de 200 milissegundos. Através da otimização do cache do KV do fluxo e modelo de entrada, o atraso pode ser comprimido para 25-50 milissegundos para atender às necessidades de conversas em tempo real; A expressão emocional e a produção de voz são naturais e suaves, o que pode estar próximo das emoções humanas, apoiar mudanças ricas em entonação e melhorar a experiência interativa; Os fluxos de saída em tempo real suportam a geração de áudio de streaming para garantir que a geração e a entrada de voz sejam sincronizadas e sejam adequadas para cenários como assistentes virtuais, sistemas de atendimento ao cliente.
Graças às suas características de baixa latência e alta naturalidade, o Orpheus TTS é considerado como tendo amplo potencial no campo de conversação em tempo real. Seja um assistente de voz inteligente, educação on -line ou dublagem de âncoras virtuais e personagens de jogos, esse modelo pode fornecer uma experiência de interação de voz mais humana. Além disso, sua natureza de código aberto também fornece aos desenvolvedores mais possibilidades de personalização.
Com a combinação de expressão emocional, efeitos naturais e latência ultra baixa, o Orpheus TTS marca uma nova altura para a tecnologia TTS. Ele não apenas melhora a qualidade da síntese de fala, mas também abre uma nova situação para cenários interativos dinâmicos por meio de fluxos de saída em tempo real. No futuro, esse modelo pode se tornar uma referência no campo do TTS de código aberto.
Endereço: https://github.com/canypyai/orpheus-tts