Modelo multimodal em tempo real de código aberto Moshi: a geração de voz em tempo real suporta vários sotaques-artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-21 19:25:02

Kyutai, um laboratório independente de pesquisa de IA sem fins lucrativos na França, lançou recentemente um assistente de voz chamado Moshi, que marca um grande avanço na tecnologia de modelos básicos multimodais nativos em tempo real. Como um modelo revolucionário de IA, Moshi não apenas imita o GPT-4O do OpenAI em algumas funções principais, mas também alcança transcendência significativa, abrindo novas instruções de desenvolvimento para a tecnologia de interação de voz.

Portal do produto: https://top.aibase.com/tool/moshi-chat

O recurso mais atraente de Moshi é seu excelente entendimento emocional e habilidades de expressão. Esse assistente de voz é capaz de conversas naturais em uma variedade de sotaques, incluindo várias variantes de idiomas, incluindo o francês. O que é ainda mais incrível é que o Moshi pode processar a entrada de áudio e a saída de voz ao mesmo tempo e, mantendo a comunicação suave do pensamento de texto, exibe 70 emoções humanas diferentes e estilos de fala, melhorando bastante a naturalidade e a afinidade da interação humano-computador .

Em termos de implementação técnica, a Moshi adota um mecanismo exclusivo de streaming de áudio duplo que permite a verdadeira interação em tempo real. Esse recurso inovador é suportado pelo forte suporte do helium, um modelo de linguagem de parâmetros de 7 bilhões desenvolvido por Kyutai.

Para garantir a qualidade da voz e a experiência do usuário de Moshi, a equipe de Kyutai conduziu um rigoroso processo de ajuste fino. Através da tecnologia de texto em fala (TTS), a equipe converteu conversas sintéticas de 100.000 "estilo falado" e treinado usando dados sintéticos gerados por outro modelo TTS. Esses esforços resultaram em Moshi alcançar uma incrível latência de ponta a ponta de 200ms, proporcionando aos usuários uma experiência de resposta quase instantânea.

Considerando as necessidades de diferentes usuários, Kyutai também desenvolveu uma versão leve do Moshi. Esta versão otimizada pode ser executada sem problemas no MacBook ou no consumidor GPUs, reduzindo bastante a barreira para usar e permitindo que uma base de usuários mais ampla experimente essa tecnologia avançada de interação de voz.

Como a mais recente conquista do laboratório de Kyutai, Moshi não apenas demonstra o enorme potencial da tecnologia de voz de IA, mas também fornece novas possibilidades para futuros métodos de interação humano-computador. Do entendimento emocional ao apoio multilíngue, da interação em tempo real à implantação leve, todas as características do Moshi refletem o espírito inovador e a força técnica inovadora de Kyutai no campo da pesquisa de IA.