フランスのオープンソースAI研究所Kyutaiは最近、Moshiと呼ばれるマルチモーダルモデルを立ち上げました。 Moshiのリリースは、音声相互作用とリアルタイムの推論におけるAIテクノロジーの大きな可能性を示しており、世界中のAI愛好家に新しい経験をもたらしています。
7月4日の早朝、九州は公式ウェブサイトを通じてモシの誕生を正式に発表しました。このモデルは、OpenaiのGPT-4Oと同じ機能を持ち、リアルタイムのQ&Aを通じて音声を実行できます。ただし、GPT-4oの音声モードとは異なり、秋が完全に開くまで待つ必要がありますが、Moshiは一般に公開されており、市場で初演されています。
Moshiの主な機能には、マルチモーダル能力が含まれます。つまり、ユーザーの音声質問に耳を傾け、リアルタイムの推論の回答を実施できます。さらに、Moshiの音声モードが完全に開かれており、GPT-4oの秋の打ち上げ計画と比較して、Moshiはユーザーにより速いエクスペリエンスを提供します。さらに重要なことに、Moshiには地域の制限がなく、世界中のユーザーが使用でき、携帯電話のサポートはまだ完璧ではありませんが、英語の質問は完全にアクセスできます。

また、キュタイはモシをオープンすることを計画しており、この動きはコード、モデルの重み、紙を公開します。
Moshiのリリースは間違いなくAIテクノロジーの大胆な試みです。それは耳を傾け、話す能力を持っているだけでなく、将来見る能力を示すかもしれません。 Moshiを使用するプロセスは非常に簡単です。公式Webサイトにログインし、電子メールアドレスを入力して、Moshiとの会話を開始します。
Moshiのマンダリンに対するサポートを改善する必要があることに言及する価値があり、英語で質問することでより良い体験が得られます。さらに、モシはロックされておらず、あなたがどこにいても直接使用できます。これは、間違いなく世界中のAI愛好家に大きな利便性を提供します。
Kyutai Laboratoryによるこの動きは、オープンソースの精神におけるそれらの持続性も示しています。彼らはすぐにMoshiをオープンし、コード、モデルの重みと論文を公開することを計画しているため、世界中の開発者や研究者がMoshiの開発と最適化に参加できるようにします。
使用経験の点では、Moshiの応答速度は非常に速く、国家ルートで使用された場合でも、ほとんど遅延なく質問に応答できます。現在、モシは主に英語とフランス語をサポートしており、中国のマンダリンのサポートを改善する必要があります。登録プロセスは簡単です。メールアドレスを送信するだけです。モシは、耳を傾け、話す能力を実証し、将来見る能力を高める可能性もあります。 Moshiの擬人化されたトーンは、その主要な機能の1つであり、機械の匂いがほとんどないため、会話の体験がより自然で滑らかになります。
もちろん、Moshiの現在の答えはまだ比較的限られており、一般的な概要と要約のみを提供することしかできません。しかし、製品の継続的な反復と最適化により、Moshiの答えはより詳細かつ正確になると信じています。
さらに、Moshiのリリースは、教育業界に大きな影響を与えるでしょう。たとえば、AIは学生に循環的な説明を提供できますが、これは教育にとって非常に大きな説明です。将来、より多くの同様の製品を楽しみにしており、より地元の言語をサポートし、AIテクノロジーを人々の生活に近づけています。