El Laboratorio de Investigación de AI francés, Kyutai, lanzó recientemente un modelo multimodal llamado Moshi. El lanzamiento de Moshi demuestra el enorme potencial de la tecnología de IA en la interacción de voz y el razonamiento en tiempo real, aportando una nueva experiencia a los entusiastas de la IA en todo el mundo.
A la mañana del 4 de julio, Kyutai anunció oficialmente el nacimiento de Moshi a través de su sitio web oficial. Este modelo tiene la misma funcionalidad que el GPT-4O de Openai, y puede realizar preguntas y respuestas en tiempo real a través de la voz. Sin embargo, a diferencia del modo de voz de GPT-4O que necesita esperar hasta que el otoño se abra por completo, Moshi ha estado abierto al público, lo que lo convierte en un estreno en el mercado.
Las principales características de Moshi incluyen su capacidad multimodal, es decir, es capaz de escuchar las preguntas de voz del usuario y realizar respuestas de inferencia en tiempo real. Además, el modo de voz de Moshi se ha abierto completamente y comparado con el plan de lanzamiento de otoño de GPT-4O, Moshi proporciona a los usuarios una experiencia más rápida. Más importante aún, Moshi no tiene restricciones regionales y puede ser utilizado por usuarios de todo el mundo y admite teléfonos móviles.

Kyutai también planea abrir Moshi, y publicará código, pesas de modelos y documentos.
El lanzamiento de Moshi es, sin duda, un intento audaz para la tecnología de IA. No solo tiene la capacidad de escuchar y hablar, sino que también puede mostrar la capacidad de ver en el futuro, lo que nos hace esperar el futuro de la IA. El proceso de uso de Moshi es muy simple.
Vale la pena mencionar que el apoyo de Moshi al mandarín debe mejorarse, y hacer preguntas en inglés le dará una mejor experiencia. Además, Moshi no está bloqueado y se puede usar directamente sin importar dónde se encuentre, lo que sin duda proporciona una gran comodidad para los entusiastas de la IA en todo el mundo.
Este movimiento del laboratorio de Kyutai también muestra su persistencia en el espíritu de código abierto. Planean abrir Moshi pronto, publicar código, pesos de modelos y documentos, para que los desarrolladores e investigadores de todo el mundo puedan participar en el desarrollo y la optimización de Moshi.
En términos de experiencia en uso, la velocidad de respuesta de Moshi es extremadamente rápida, e incluso cuando se usa en las rutas nacionales, puede responder a preguntas casi sin demora. Actualmente, Moshi apoya principalmente inglés y francés, y el apoyo de mandarín chino debe mejorarse. El proceso de registro es simple, solo envíe su dirección de correo electrónico. Moshi demuestra la capacidad de escuchar y hablar, y también puede aumentar la capacidad de ver en el futuro. El tono antropomórfico de Moshi es una de sus principales características, con muy poco olor a máquina, lo que hace que la experiencia de conversación sea más natural y suave.
Por supuesto, las respuestas actuales de Moshi aún son relativamente limitadas y solo pueden proporcionar un esquema y un resumen general. Pero con la iteración y optimización continua de los productos, creemos que la respuesta de Moshi se volverá más detallada y precisa.
Además, el lanzamiento de Moshi tendrá un profundo impacto en la industria educativa. Por ejemplo, la IA puede proporcionar a los estudiantes explicaciones circulares, lo cual es enorme para la educación. Esperamos con ansias productos más similares en el futuro, apoyando más idiomas locales y acercar la tecnología de IA más cerca de la vida de las personas.