Doubao lança grande modelo de fala em tempo real com idioma chinês de primeira classe, Shuangshang Online - artigo AI

Autor：Eve Cole Data da Última Atualização：2025-01-28 11:48:02

O mais recente modelo de fala em tempo real lançado pela Doubao Company alcançou um progresso revolucionário no campo do diálogo chinês. Foi totalmente lançado na versão 7.2.0 de Ano Novo do aplicativo Doubao. Este modelo integra profundamente a compreensão e geração de fala para criar um sistema de diálogo de fala ponta a ponta, que melhora significativamente a expressividade, o controle e a aceitação emocional da fala. Também possui funções como baixa latência e interrupção de conversas a qualquer momento, trazendo mais benefícios. aos usuários. Experiência interativa natural e suave. Esta atualização também traz uma nova função de chamada de voz em tempo real, que suporta ajuste flexível de detalhes da conversa, imitação de múltiplas vozes e dialetos, e até mesmo a capacidade de cantar algumas músicas, aumentando ainda mais o realismo do diálogo homem-máquina.

Recentemente, a Doubao Company anunciou o lançamento do seu novo modelo de fala em tempo real, alegando ter alcançado uma "liderança" no diálogo chinês, marcando uma melhoria significativa nas capacidades de diálogo da IA. Este modelo é totalmente aberto no aplicativo Doubao (versão número 7.2.0 New Year Edition), trazendo aos usuários uma experiência de comunicação de voz mais rica e realista.

Segundo relatos, o grande modelo de fala em tempo real de Doubao realiza a integração profunda da compreensão e geração de fala, formando um sistema de diálogo de fala de ponta a ponta. Esse avanço tecnológico permite que o modelo tenha um ótimo desempenho em termos de expressividade de voz, controle e aceitação emocional. Possui baixa latência e capacidade de interromper conversas a qualquer momento, o que melhora muito a experiência interativa do usuário. As autoridades afirmaram que esta tecnologia não só melhora o “QI”, mas também possui inteligência emocional online, permitindo-lhe compreender e expressar melhor as emoções.

Esta atualização também inclui uma função de chamada de voz em tempo real, que se baseia no modelo grande mais recente da Doubao e pode ajustar com flexibilidade detalhes como ritmo de conversa, voz, volume e sons de respiração em diferentes cenários. Além disso, a nova função de voz também pode imitar diferentes vozes, suportar vários dialetos e conversas em inglês e ainda ter a capacidade de cantar algumas músicas. Tudo isto elevou o realismo do diálogo homem-máquina a um novo nível, quase chegando ao ponto em que é “difícil distinguir entre homem e máquina”.

A equipe de P&D de Doubao afirmou que esta nova tecnologia é baseada em uma estrutura ponta a ponta e usa métodos nativos para integrar profundamente padrões de fala e texto para modelagem unificada. Tal design não apenas otimiza o processo de reconhecimento e geração de fala, mas também dá à IA uma “alma” mais rica para que possa se comunicar melhor com os humanos.

O lançamento do grande modelo de voz em tempo real da Doubao na área de diálogo por voz chinês proporcionará aos usuários uma experiência interativa sem precedentes e promoverá o desenvolvimento de tecnologia de voz inteligente.

O lançamento do modelo de voz em tempo real Doubao marca um progresso significativo na tecnologia de interação de voz inteligente, e seu excelente desempenho no campo do diálogo chinês é emocionante. No futuro, com o desenvolvimento contínuo da tecnologia, acredito que modelos de fala semelhantes trarão mais comodidade e surpresas à vida das pessoas.