ElevenLabs,作為人工智能語音克隆與生成領域的先鋒,近日發布了其最新的語音轉文本模型——Scribe v1。這一創新模型在多種語言中均展現了卓越的準確性,用戶可通過其官方網站進行體驗。

根據ElevenLabs的基準測試,Scribe在將口語轉換為文本的準確性上,超越了谷歌的Gemini2.0Flash、OpenAI的Whisper v3以及Deepgram Nova-3,實現了前所未有的低錯誤率。該模型支持99種語言的高精度轉錄,包括一些以往被忽視的語言,如塞爾維亞語、粵語和馬拉雅拉姆語。
ElevenLabs的首席研究員Flavio Schneider在社交平台X上表示,Scribe是公司迄今發布的“最聰明的音頻理解模型”。他進一步解釋,Scribe不僅是一個轉錄工具,它還能理解音頻內容,檢測非語言事件(如笑聲、音效、音樂和背景噪音),並在復雜環境下分析長時間的音頻內容進行準確的說話者區分。特別值得一提的是,Scribe能夠在同一個音頻文件中識別並隔離多達32位不同的說話者。

ElevenLabs提醒用戶,Scribe“最適合需要高精度轉錄的場合,而非實時轉錄”。該公司還計劃推出低延遲版本,以擴大其在實時應用中的使用。
根據FLEURS和Common Voice的基準結果,Scribe在處理現實世界音頻挑戰方面表現出色,尤其在意大利語(準確率98.7%)和英語(準確率96.7%)的單詞錯誤率方面達到了最低。
Scribe現已通過ElevenLabs官網和API提供使用,定價為每小時輸入音頻0.40美元,未來六週還將享受50%的折扣。此外,針對實時應用的低延遲版本也在開發中。
對於企業決策者而言,Scribe為高精度轉錄提供了一種可擴展的工具,適用於需要自動化文檔、會議轉錄和內容可及性的行業。該模型對多種語言的高精度處理也將惠及跨國公司、媒體公司和客戶支持應用。
值得注意的是,Scribe的發布與競爭對手Hume的文本轉語音模型Octave的發布同日進行。 Octave是一種基於大型語言模型的文本轉語音工具,用戶可以根據情感需求自定義AI生成的聲音,旨在用於內容創作,如有聲書、播客和視頻遊戲配音。儘管Scribe和Octave的功能不同,但二者的發布反映了AI驅動音頻模型日益激烈的競爭。
產品入口:https://elevenlabs.io/blog/meet-scribe
劃重點:
Scribe v1是ElevenLabs最新推出的語音轉文本模型,準確率在多語言中創下新高。
支持99種語言,能夠區分多達32位不同的說話者,適應複雜音頻環境。
當前定價為每小時0.40美元,未來六週享受50%折扣,低延遲版本正在開發中。