媲美GPT-SoVITS！低顯存開源TTS模型Fish Speech 完美支援中英日語言

作者：Eve Cole 更新時間：2025-03-01 14:00:03

Fish Speech是一款由fishaudio開發的革命性文字轉語音工具，其出色的語音處理能力幾乎達到了人類水準。它支援中英日三種語言，並擁有語音克隆功能，只需提供一段參考語音即可快速複製。該工具對硬體需求極低，僅需4GB顯存即可運行，並支援多種不同的語音生成模型，為用戶提供極大的便利性和靈活性。無論是個人使用還是創意項目，Fish Speech都能提供強大的語音支援。

要點：

完美支援中英日三種語言，語音處理接近人類水平

支援語音克隆，只需提供一段參考語音，即可迅速完成克隆

對顯存要求極低，僅需4GB，支援多種不同的語音產生模型

Fish Speech模型的厲害之處在於，它使用了大約十五萬小時的三語資料進行訓練，特別是在中文方面的表現，簡直是無可挑剔。作為一個億級參數的模型，它設計得既高效又輕量，這意味著你可以在自己的個人設備上輕鬆運行和微調，隨時隨地享受語音轉換的便利。

支援中文

目前，柯瑞的可供選擇的聲音多數是動漫人物的聲音，AIbase輸入一段文字測試，發現有的動漫人物語速偏慢，如果要用到影片裡，還需要刪除中間停頓太長的地方。真人的聲音有丁真，川普和孫笑川等，不過以防萬一還是不要用其他真人的聲音比較好。想用真人聲音的，可以考慮創造自己的聲音。

以下是AIbase的測試效果：

更令人興奮的是，Fish Speech採用了Flash-Attn演算法，這項演算法專為處理大規模資料而設計，以其高效性、準確性和穩定性著稱。這不僅顯著提升了TTS技術的效能，也讓你在使用過程中享受了前所未有的流暢體驗。

支援英文

而且，Fish Speech的語音克隆能力也是一大亮點。你只需提供一段參考語音，它就能迅速進行語音克隆，無需經過繁瑣的訓練過程。此外，它對顯存的需求極低，僅需4GB，推理速度快，這些都大大優化了使用者體驗。

支持日文

當然，Fish Speech的強大遠不止於此。 Fish Speech支援多種不同的語音產生模型，包括但不限於：

VITS2：基於變分推理的文本轉語音模型。

Bert-VITS2：結合BERT模型的變分推理文字到語音模型。

GPT VITS：結合GPT模型的文字轉語音模型。

MQTTS：基於量化技術的文字轉語音模型。

GPT Fast：快速產生語音的GPT模型。

GPT-SoVITS：結合GPT和SoVITS技術的文字轉語音模型。

每一種模型都有其獨特的優勢，滿足不同使用者的需求。

總的來說，Fish Speech是一款創新、高效、輕量的文字轉語音工具。它不僅能夠成為你的私人語音助手，還能為你的創意專案提供強大的語音支援。如果你對語音技術感興趣，或者正在尋找一個無需繁瑣訓練、快速克隆的TTS解決方案，那麼Fish Speech絕對值得一試。

官網網址：https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

專案網址：https://github.com/fishaudio/fish-speech

Fish Speech以其強大的功能和便利的操作體驗，必將成為文字轉語音領域的一匹黑馬。無論是專業人士或一般用戶，都能輕鬆上手並享受其帶來的高效與便利。來體驗這款令人驚豔的語音工具吧！