音声アシスタントは、徐々に私たちの日常生活の不可欠な部分になりつつあります。ただし、既存のデジタル音声アシスタントは、ユーザーとやり取りするときに鈍いように見え、感情的で人道的な要素を欠いていることがよくあります。これに対処するために、セサミチームは、デジタルアシスタントをより現実的で理解しやすく、コミュニケーションで評価することを目的とした、「音声存在」というまったく新しい概念を実装するために取り組んでいます。

Sesameの中心的な目標は、リクエストを処理するためのツールだけでなく、デジタルコンパニオンを作成することです。これらのデジタルパートナーは、ユーザーとのやり取りを通じて、ユーザーが日常生活でより豊かで深いコミュニケーションを体験できるようにすることで、徐々に信頼感と自信を構築することを望んでいます。これを達成するために、セサミチームは、感情的知性、会話のダイナミクス、文脈的認識、一貫した性格特性など、いくつかの重要なコンポーネントに焦点を当てました。
感情的な知性とは、音声アシスタントがユーザーの感情状態を理解し、対応できるようにする能力です。それは音声コマンドの理解に依存するだけでなく、音声の感情的な変化を知覚し、したがってより適切なフィードバックをすることができるようにすることです。第二に、ダイアログのダイナミクスは、タイムリーな一時停止、適切なトーンの強調、中断など、コミュニケーションプロセス中に音声アシスタントが持つべき自然なリズムを強調し、対話をよりスムーズで自然にします。
さらに、コンテキストの認識も重要です。音声アシスタントは、現在の状況に合わせて会話のコンテキストと履歴に基づいて、音声とスタイルを柔軟に調整する必要があります。この機能により、デジタルアシスタントがさまざまな場合に適切に見えるようになり、ユーザーの満足度が向上します。最後に、一貫した性格特性は、音声アシスタントがユーザーの信頼感を高めるために、さまざまな会話で比較的一貫した性格とスタイルを維持する必要があることを意味します。
ただし、「声の存在」の目標を達成することは容易ではありません。セサミチームは、人格、記憶、表現力、適切性のさまざまな側面で進歩しました。最近、チームは、特に親しみやすさと表現力の観点から、対話の音声生成におけるいくつかの実験的結果を実証し、その方法の可能性を完全に実証しています。
技術レベルでは、セサミチームは、従来のテキストツーチー(TTS)モデルの欠点に対処するために、「ダイアログフォネティックモデル」(CSM)と呼ばれる新しいアプローチを提案しました。このアプローチは、コンバーターアーキテクチャを利用し、より自然で一貫した音声生成を達成することを目指しています。 CSMは、テキストとオーディオのマルチモーダル学習を扱うだけでなく、会話の歴史に基づいて出力を調整し、それによってコンテキストの理解における従来のモデルの欠点を解決します。
モデルの効果を検証するために、セサミチームは、転写、セグメンテーションなどを通じてトレーニングとトレーニングサンプルの準備のために大量のパブリックオーディオデータを使用しました。さまざまなサイズのモデルをトレーニングし、客観的および主観的評価インジケーターで良い結果を達成しました。
公式のサンプルから判断すると、生成された作品は、非常に現実的なAIコンポーネントをほとんど聞くことができません。
セサミチームは、コミュニティが実験と改善に参加できるように、研究を開放することを計画しています。この動きは、対話AIの開発を加速するのに役立つだけでなく、モデルのスケールと言語サポートを拡大することにより、より多くのアプリケーションシナリオをカバーすることを望んでいます。さらに、チームは、事前に訓練された言語モデルを使用して、マルチモーダルモデルの構築の基礎を築く方法を探求する予定です。
プロジェクトデモ:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
キーポイント:
セサミチームは、デジタルアシスタントがコマンドを実行するだけでなく、実際の会話をすることができるように、「音声存在」を達成することに取り組んでいます。
対話の音声モデル(CSM)を通じて、チームはコンテキストの理解と音声生成において新しいブレークスルーを行いました。
チームは、オープンソースの研究結果を計画し、言語サポートを拡大して、会話型AIのさらなる開発を促進します。