nix tts下載nix tts源代碼下載

nix tts

Ai源碼

1.0.0

下載

？ Nix-tts

輕巧和端到端的文本到語音通過模塊蒸餾

Rendi Chevi，Radityo Eko Prasojo，Alham Fikri Aji，Andros Tjandra，Sakriani Sakti

這是我們論文的存儲庫嗎？ nix-tts （被IEEE SLT 2022接受）。我們在下面發布了驗證的模型，交互式演示和音頻樣本。

[[？紙鏈接]（即將推出！）] [？互動演示] [？音頻樣本]

摘要輕巧的TT的幾種解決方案顯示出令人鼓舞的結果。儘管如此，他們要么依賴於達到最小尺寸的手工設計的設計，要么使用神經建築搜索，但經常遭受培訓費用。我們提出了Nix-TTS，這是一種通過知識蒸餾到高質量但大型，非自動進取和端到端（不含Vocoder）TTS TTS教師模型的輕量級TT。具體而言，我們提供模塊蒸餾，使編碼器和解碼器模塊具有柔性和獨立的蒸餾。由此產生的Nix-TT遺傳了從教師端到端的非解放和端到端的優勢性能，但規模較小，只有523萬參數或最高為89.34％的教師模型；它還可以分別實現超過3.04 $ times $和8.36 $ times $ $ $ times $ $ times $推理，分別在英特爾I7 CPU和Raspberry Pi 3B上加速，與教師模型相比，它仍然保持公平的自然性和清晰度。

Nix-TTS入門

克隆nix-tts存儲庫，然後移至其目錄

git clone https://github.com/rendchevi/nix-tts.git
cd nix-tts

安裝依賴項

安裝python依賴性。我們建議python >= 3.8

pip install -r requirements.txt

在您的設備中安裝ESPAK（用於文本令牌化）。

sudo apt-get install espeak

或按照官方指示行動，以防萬一。

在此處下載您選擇的預訓練模型。

模型	num。參數	比實時快^ （CPU Intel-i7）	比實時快^ （RASPI 3B）
nix-tts（onnx）	5.23 m	11.9倍	0.50x
nix-tts帶隨機持續時間（ONNX）	6.03 m	10.8倍	0.50x

^*在這裡，我們計算該模型的運行速度比實時因子（RTF）的倒數更快。所有型號加速的完整表都在紙上詳細介紹。

並且運行nix-tts很容易：

 from nix . models . TTS import NixTTSInference
from IPython . display import Audio

# Initiate Nix-TTS
nix = NixTTSInference ( model_dir = "<path_to_the_downloaded_model>" )
# Tokenize input text
c , c_length , phoneme = nix . tokenize ( "Born to multiply, born to gaze into night skies." )
# Convert text to raw speech
xw = nix . vocalize ( c , c_length )

# Listen to the generated speech
Audio ( xw [ 0 , 0 ], rate = 22050 )