Openaiは最近、リアルタイムAPIの重要な更新を発表し、5つの新しい音声オプションを起動し、キャッシュコストを削減し、開発者により手頃な価格の音声アプリケーションソリューションを提供することを目指しています。
本日、Openaiは、まだベータ版にあるリアルタイムAPIの更新を発表しました。このアップデートのハイライトは、音声から声へのアプリケーション向けに設計された5つの新しい音声オプションの発売です。また、関連するキャッシュ料金を削減し、開発者を使用するとより手頃な価格になります。

リリースされた5つの新しい声のうち、Openaiはこれらの新しいサウンドのうち3つをX、Ash、Verse、英国のサウンドバラードに関する記事で示しました。これらのサウンドはより鮮明で調整可能であるだけでなく、より自然なコミュニケーション体験を提供します。 OpenAIは、このネイティブの音声から声から声の特徴が中間テキストのフォーマット処理を排除し、低遅延とより繊細な出力を可能にすることをAPIドキュメントで述べました。
ただし、Openaiはまた、リアルタイムAPIはまだテストフェーズにあるため、クライアント認証を一時的に提供できないことをユーザーに思い出させます。さらに、リアルタイムのオーディオ処理は、ネットワーク条件の影響を受ける可能性があります。これは、大規模なオーディオ伝送にも課題をもたらします。 Openaiは、ネットワーク条件が不安定な場合、信頼できるオーディオ伝送を確保することは実際に困難なタスクであると指摘しています。
音声技術におけるOpenaiの開発史も議論の余地があります。 3月に、彼らは音声クローニングプラットフォームであるVoice Engineを発売しました。音声クローニングプラットフォームは、11の研究者と競争しようとしましたが、少数の研究者にしか開いていませんでした。 GPT-4Oモードと音声モードのデモンストレーションにより、Hollywoodの女優Scarlett Johnsonが彼女の声に似すぎていると信じて、Hollywoodの女優Scarlett Johnsonがそれに対して不満を表明したように、5月にOpenaiは「Sky」と呼ばれる音声使用を一時停止しました。
9月に、Openaiは、ChatGpt Plus、Enterprise、Teams、EDUなどのユーザーが使用できる有料加入者向けにChatGPT Advanced Voiceモードを立ち上げました。この音声から声へのテクノロジーを通じて、企業はリアルタイムの応答をより迅速に生成し、顧客サービスの効率を大幅に改善できます。
コストを50%以上削減するリアルタイムAPIの価格設定に関して、Openaiは、以前のリリースで0.06ドルの価格で、オーディオ入力分で0.06ドル、オーディオ出力0.24ドルで、開発者にとっては比較的高くなっています。ただし、この更新後、キャッシュテキスト入力の使用コストは50%削減されますが、キャッシュオーディオ入力のコストは最大80%になります。
Openaiは、開発者の日に「プロンプトキャッシュ」の新機能を発表しました。これにより、モデルの記憶に頻繁にリクエストのコンテキストプロンプトを節約できるため、応答を生成するために必要なトークンの数が減ります。入力価格を下げることにより、Openaiはより多くの開発者を引き付けてAPIを使用したいと考えています。
さらに、Anthropicなどの他の企業は、音声技術の魅力を高めるために同様のキャッシュ機能を開始しました。
キーポイント:
音声アプリケーションエクスペリエンスを改善するために、5つの新しい自然の声が追加されます
リアルタイムAPIはキャッシュを介して入力コストを削減し、開発者をより費用対効果の高いものにします
リアルタイムのオーディオ処理はネットワークの条件の影響を受け、信頼性に注意を払う必要があります
OpenAIのこの更新は、音声テクノロジーのアプリケーションエクスペリエンスを改善するだけでなく、コストを削減することでより多くの開発者を引き付け、音声技術の普及と開発をさらに促進します。