nix tts
1.0.0
這是我們論文的存儲庫嗎? nix-tts (被IEEE SLT 2022接受)。我們在下面發布了驗證的模型,交互式演示和音頻樣本。
[[?紙鏈接](即將推出!)] [?互動演示] [?音頻樣本]
摘要輕巧的TT的幾種解決方案顯示出令人鼓舞的結果。儘管如此,他們要么依賴於達到最小尺寸的手工設計的設計,要么使用神經建築搜索,但經常遭受培訓費用。我們提出了Nix-TTS,這是一種通過知識蒸餾到高質量但大型,非自動進取和端到端(不含Vocoder)TTS TTS教師模型的輕量級TT。具體而言,我們提供模塊蒸餾,使編碼器和解碼器模塊具有柔性和獨立的蒸餾。由此產生的Nix-TT遺傳了從教師端到端的非解放和端到端的優勢性能,但規模較小,只有523萬參數或最高為89.34%的教師模型;它還可以分別實現超過3.04 $ times $和8.36 $ times $ $ $ times $ $ times $推理,分別在英特爾I7 CPU和Raspberry Pi 3B上加速,與教師模型相比,它仍然保持公平的自然性和清晰度。
克隆nix-tts存儲庫,然後移至其目錄
git clone https://github.com/rendchevi/nix-tts.git
cd nix-tts安裝依賴項
python >= 3.8 pip install -r requirements.txt sudo apt-get install espeak或按照官方指示行動,以防萬一。
在此處下載您選擇的預訓練模型。
| 模型 | num。參數 | 比實時 *快* (CPU Intel-i7) | 比實時 *快* (RASPI 3B) |
|---|---|---|---|
| nix-tts(onnx) | 5.23 m | 11.9倍 | 0.50x |
| nix-tts帶隨機持續時間(ONNX) | 6.03 m | 10.8倍 | 0.50x |
*在這裡,我們計算該模型的運行速度比實時因子(RTF)的倒數更快。所有型號加速的完整表都在紙上詳細介紹。
並且運行nix-tts很容易:
from nix . models . TTS import NixTTSInference
from IPython . display import Audio
# Initiate Nix-TTS
nix = NixTTSInference ( model_dir = "<path_to_the_downloaded_model>" )
# Tokenize input text
c , c_length , phoneme = nix . tokenize ( "Born to multiply, born to gaze into night skies." )
# Convert text to raw speech
xw = nix . vocalize ( c , c_length )
# Listen to the generated speech
Audio ( xw [ 0 , 0 ], rate = 22050 )