これは私たちの論文のリポジトリですか? nix-tts (IEEE SLT 2022に受け入れられます)。以下の前提条件のモデル、インタラクティブなデモ、オーディオサンプルをリリースしました。
[[?紙のリンク](もうすぐ来る!)] [?インタラクティブなデモ] [?オーディオサンプル]
抽象的な軽量TTのいくつかのソリューションは、有望な結果を示しています。それでも、彼らは最適ではないサイズに達する手作りのデザインに依存するか、ニューラルアーキテクチャ検索を使用しているが、多くの場合トレーニングコストに悩まされるかのどちらかです。 NIX-TTSは、知識の蒸留によって達成された軽量のTTSを提示します。具体的には、モジュールごとの蒸留を提供し、エンコーダーおよびデコーダーモジュールに柔軟で独立した蒸留を可能にします。結果として生じるNIX-TTは、教師からの非自動性およびエンドツーエンドであるという有利な特性を継承しましたが、サイズが大幅に小さく、5.23mパラメーターのみまたは教師モデルの最大89.34%の削減がありました。また、Intel-I7 CPUおよびRaspberry Pi 3Bでそれぞれ3.04 $ $ Times $ $ $ $ $ Times $ Inference Speepupをそれぞれ達成し、教師モデルと比較して公正な声の自然さと明白性を保持しています。
nix-ttsリポジトリをクローンし、そのディレクトリに移動します
git clone https://github.com/rendchevi/nix-tts.git
cd nix-tts依存関係をインストールします
python >= 3.8をお勧めしますpip install -r requirements.txt sudo apt-get install espeakまたは、それが機能しなかった場合に備えて、公式の指示に従ってください。
選択した事前に訓練されたモデルをこちらからダウンロードしてください。
| モデル | num。パラメージの | リアルタイムよりも速い* (CPU Intel-I7) | リアルタイムよりも速い* (Raspiモデル3b) |
|---|---|---|---|
| nix-tts(onnx) | 5.23 m | 11.9x | 0.50x |
| 確率的持続時間(onnx)w/ nix-tts | 6.03 m | 10.8x | 0.50x |
*ここでは、リアルタイム因子(RTF)の逆として、モデルがリアルタイムよりも速く実行される量を計算します。すべてのモデルのスピードアップの完全なテーブルについては、論文で詳しく説明しています。
そして、nix-ttsを実行するのは簡単です:
from nix . models . TTS import NixTTSInference
from IPython . display import Audio
# Initiate Nix-TTS
nix = NixTTSInference ( model_dir = "<path_to_the_downloaded_model>" )
# Tokenize input text
c , c_length , phoneme = nix . tokenize ( "Born to multiply, born to gaze into night skies." )
# Convert text to raw speech
xw = nix . vocalize ( c , c_length )
# Listen to the generated speech
Audio ( xw [ 0 , 0 ], rate = 22050 )