ElevenLabs 發布Scribe 語音轉文本模型，準確率創新高、英語達96.7% - AI文章

作者：Eve Cole 更新時間：2025-05-17 02:50:01

ElevenLabs，作為人工智能語音克隆與生成領域的先鋒，近日發布了其最新的語音轉文本模型——Scribe v1。這一創新模型在多種語言中均展現了卓越的準確性，用戶可通過其官方網站進行體驗。

根據ElevenLabs的基準測試，Scribe在將口語轉換為文本的準確性上，超越了谷歌的Gemini2.0Flash、OpenAI的Whisper v3以及Deepgram Nova-3，實現了前所未有的低錯誤率。該模型支持99種語言的高精度轉錄，包括一些以往被忽視的語言，如塞爾維亞語、粵語和馬拉雅拉姆語。

ElevenLabs的首席研究員Flavio Schneider在社交平台X上表示，Scribe是公司迄今發布的“最聰明的音頻理解模型”。他進一步解釋，Scribe不僅是一個轉錄工具，它還能理解音頻內容，檢測非語言事件（如笑聲、音效、音樂和背景噪音），並在復雜環境下分析長時間的音頻內容進行準確的說話者區分。特別值得一提的是，Scribe能夠在同一個音頻文件中識別並隔離多達32位不同的說話者。

ElevenLabs提醒用戶，Scribe“最適合需要高精度轉錄的場合，而非實時轉錄”。該公司還計劃推出低延遲版本，以擴大其在實時應用中的使用。

根據FLEURS和Common Voice的基準結果，Scribe在處理現實世界音頻挑戰方面表現出色，尤其在意大利語（準確率98.7%）和英語(準確率96.7%)的單詞錯誤率方面達到了最低。

Scribe現已通過ElevenLabs官網和API提供使用，定價為每小時輸入音頻0.40美元，未來六週還將享受50%的折扣。此外，針對實時應用的低延遲版本也在開發中。

對於企業決策者而言，Scribe為高精度轉錄提供了一種可擴展的工具，適用於需要自動化文檔、會議轉錄和內容可及性的行業。該模型對多種語言的高精度處理也將惠及跨國公司、媒體公司和客戶支持應用。

值得注意的是，Scribe的發布與競爭對手Hume的文本轉語音模型Octave的發布同日進行。 Octave是一種基於大型語言模型的文本轉語音工具，用戶可以根據情感需求自定義AI生成的聲音，旨在用於內容創作，如有聲書、播客和視頻遊戲配音。儘管Scribe和Octave的功能不同，但二者的發布反映了AI驅動音頻模型日益激烈的競爭。

產品入口:https://elevenlabs.io/blog/meet-scribe

劃重點:

Scribe v1是ElevenLabs最新推出的語音轉文本模型，準確率在多語言中創下新高。

支持99種語言，能夠區分多達32位不同的說話者，適應複雜音頻環境。

當前定價為每小時0.40美元，未來六週享受50%折扣，低延遲版本正在開發中。

​ElevenLabs 發布Scribe 語音轉文本模型，準確率創新高、英語達96.7% - AI文章

ElevenLabs 發布Scribe 語音轉文本模型，準確率創新高、英語達96.7% - AI文章