Le laboratoire de recherche sur l'IA français Kyutai a récemment lancé un modèle multimodal appelé Moshi. La sortie de Moshi démontre l'énorme potentiel de la technologie de l'IA dans l'interaction vocale et le raisonnement en temps réel, apportant une nouvelle expérience aux amateurs d'IA dans le monde.
Tôt le matin du 4 juillet, Kyutai a officiellement annoncé la naissance de Moshi sur son site officiel. Ce modèle a les mêmes fonctionnalités que le GPT-4O d'OpenAI et peut effectuer des questions et réponses en temps réel via la voix. Cependant, contrairement au mode vocal de GPT-4O qui doit attendre l'automne pour être complètement ouvert, Moshi a été ouvert au public, ce qui en fait une première sur le marché.
Les principales fonctionnalités de Moshi incluent sa capacité multimodale, c'est-à-dire qu'elle est en mesure d'écouter les questions vocales de l'utilisateur et d'effectuer des réponses à inférence en temps réel. De plus, le mode vocal de Moshi a été entièrement ouvert et par rapport au plan de lancement d'automne de GPT-4O, Moshi offre aux utilisateurs une expérience plus rapide. Plus important encore, Moshi n'a pas de restrictions régionales et peut être utilisée par les utilisateurs du monde entier, et prend en charge les téléphones mobiles.

Kyutai prévoit également d'open source Moshi et publiera du code, des poids de modèle et des articles.
La libération de Moshi est sans aucun doute une tentative audacieuse de technologie de l'IA. Il a non seulement la capacité d'écouter et de parler, mais peut également montrer la capacité de voir à l'avenir, ce qui nous fait attendre avec impatience l'avenir de l'IA. Le processus d'utilisation de Moshi est très simple.
Il convient de mentionner que le soutien de Moshi au mandarin doit être amélioré, et poser des questions en anglais vous offrira une meilleure expérience. De plus, Moshi n'est pas verrouillé et peut être utilisé directement, peu importe où vous êtes, ce qui offre sans aucun doute une grande commodité aux amateurs d'IA dans le monde.
Cette décision du laboratoire de Kyutai montre également leur persistance dans l'esprit open source. Ils prévoient bientôt Moshi à l'open source, publient du code, des poids de modèle et des articles, afin que les développeurs et les chercheurs du monde entier puissent participer au développement et à l'optimisation de Moshi.
En termes d'expérience en utilisation, la vitesse de réponse de Moshi est extrêmement rapide, et même lorsqu'elle est utilisée sur les itinéraires nationaux, il peut répondre aux questions sans retard. Actuellement, Moshi soutient principalement l'anglais et le français, et le support chinois du mandarin doit être amélioré. Le processus d'enregistrement est simple, soumettez simplement votre adresse e-mail. Moshi démontre la capacité d'écouter et de parler, et peut également augmenter la capacité de regarder à l'avenir. Le ton anthropomorphe de Moshi est l'une de ses principales caractéristiques, avec très peu d'odeur de machine, ce qui rend l'expérience de conversation plus naturelle et plus fluide.
Bien sûr, les réponses actuelles de Moshi sont encore relativement limitées et ne peuvent fournir qu'un aperçu général et un résumé. Mais avec l'itération continue et l'optimisation des produits, nous pensons que la réponse de Moshi deviendra plus détaillée et précise.
De plus, la libération de Moshi aura un impact profond sur l'industrie de l'éducation. Par exemple, l'IA peut fournir aux étudiants des explications circulaires, ce qui est énorme pour l'éducation. Nous attendons avec impatience des produits plus similaires à l'avenir, en soutenant plus de langues locales et en rapprochant la technologie de l'IA de la vie des gens.