Oute AI 推出了名為OuteTTS-0.1-350M 的新型文本轉語音合成方法,這是一款基於LLaMa架構的簡化TTS模型。它無需外部適配器,直接利用WavTokenizer生成音頻標記,並具備零樣本語音克隆功能,只需幾秒鐘的參考音頻即可複制新的聲音。該模型參數規模相對較小,但卻能達到與更大更複雜系統相媲美的性能,並且與llama.cpp兼容,非常適合實時應用。其高效性和易用性使其在個性化助理、有聲讀物和內容本地化等領域具有廣泛的應用前景。
近日,Oute AI 發布了一種新穎的文本轉語音合成方法,稱為OuteTTS-0.1-350M。這種方法利用純語言建模,無需外部適配器或複雜架構,提供了一種簡化的TTS 方法。 OuteTTS-0.1-350M 基於LLaMa 架構,使用WavTokenizer 直接生成音頻標記,使得流程更加高效。
該模型具有零樣本語音克隆功能,僅需幾秒鐘的參考音頻即可複制新的聲音。 OuteTTS-0.1-350M 專為設備性能而設計,並與llama.cpp 兼容,使其成為實時應用的理想選擇。儘管該模型的參數規模相對較小(3.5億個),但其性能可與更大、更複雜的TTS 系統相媲美。
OuteTTS-0.1-350M 的可訪問性和效率使其適用於廣泛的應用,包括個性化助理、有聲讀物和內容本地化。 Oute AI 在CC-BY 許可下發布,鼓勵進一步實驗和集成到不同的項目中,使先進的TTS 技術民主化。

OuteTTS-0.1-350M 的發布標誌著文本轉語音技術向前邁出了關鍵一步,它利用簡化的架構以最少的計算要求提供高質量的語音合成。它集成了LLaMa 架構,使用了WavTokenizer,並且能夠執行零樣本語音克隆而無需複雜的適配器,這使它有別於傳統的TTS 模型。
地址:https://www.outeai.com/blog/OuteTTS-0.1-350M
OuteTTS-0.1-350M 的高效、簡化的架構以及零樣本語音克隆功能,為文本轉語音技術帶來了新的可能性,也為開發者提供了更多便捷易用的工具。 其開源的特性更是推動了該領域的技術發展和應用普及。