ElevenLabsは、人工知能の音声クローニングと世代の分野の先駆者として、最近、最新の音声からテキストへのモデルであるScribe V1をリリースしました。この革新的なモデルは、複数の言語で優れた精度を実証し、ユーザーが公式ウェブサイトを通じて経験することができます。

ElevenLabsのベンチマークによると、Scribeは、GoogleのGemini2.0Flash、OpenaiのWhisper V3、およびDeepgram Nova-3を表し、話された言語をテキストに変換し、前例のない低誤差率を達成します。このモデルは、セルビア語、広東語、マラヤーラム語など、以前に見落とされがちな言語を含む99の言語での高精度の転写をサポートしています。
ElevenLabsのチーフ研究者であるFlavio Schneiderは、ソーシャルプラットフォームXで、Scribeはこれまでリリースした「最も賢いオーディオ理解モデル」であると述べました。彼はさらに、Scribeは転写ツールであるだけでなく、オーディオコンテンツを理解し、非言語的イベント(笑い、効果音、音楽、バックグラウンドノイズなど)を検出し、複雑な環境で長期的なオーディオコンテンツを分析して、正確なスピーカーの区別を分析できると説明しました。 Scribeが同じオーディオファイルで最大32の異なるスピーカーを識別して隔離できることに特に言及する価値があります。

ElevenLabsは、Scribeは「リアルタイムの転写ではなく、高精度の転写が必要な場合に最適」であることをユーザーに思い出させます。同社はまた、リアルタイムアプリケーションでの使用を拡大するために、低遅延バージョンを立ち上げることを計画しています。
FleursとCommon Voiceのベンチマークの結果によると、Scribeは、特にイタリア語(98.7%の精度)と英語(96.7%の精度)の単語エラー率の観点から、実際のオーディオの課題に対処する上でうまく機能しています。
Scribeは、ElevenLabsの公式WebサイトおよびAPIから利用可能になりました。これは、オーディオ入力のために1時間あたり0.40ドルの価格で、今後6週間で50%の割引を享受します。さらに、リアルタイムアプリケーション用の低遅延バージョンも開発中です。
エンタープライズの意思決定者向けに、Scribeは、自動化されたドキュメント、会議の転写、コンテンツのアクセシビリティを必要とする産業向けの高精度転写のためのスケーラブルなツールを提供します。モデルの複数の言語の高精度処理は、多国籍企業、メディア企業、顧客サポートアプリケーションにも役立ちます。
Scribeのリリースは、競合他社であるHumeであるテキストからスピーチモデルのオクターブのリリースと同じ日に開催されたことに注意する価値があります。 Octaveは、オーディオブック、ポッドキャスト、ビデオゲームの吹き替えなどのコンテンツ作成用に設計された感情的なニーズに基づいて、ユーザーがAIで生成されたサウンドをカスタマイズできる大規模な言語モデルに基づいたテキストツーリングツールです。 ScribeとOctaveにはさまざまな機能がありますが、この2つのリリースは、AI駆動型のオーディオモデルにおけるますます激しい競争を反映しています。
製品ポータル:https://elevenlabs.io/blog/meet-scribe
キーポイント:
Scribe V1はElevenLabsの最新の音声からテキストモデルであり、多言語での記録的な精度率があります。
99の言語をサポートし、最大32の異なるスピーカーを区別し、複雑なオーディオ環境に適応できます。
現在、1時間あたり0.40ドルの価格で、今後6週間は50%の割引をお楽しみください。低遅延バージョンは開発中です。