音声合成の最近の進歩により、Hifi-GanやBigvganなどのGanベースのネットワークが活用され、Melspectrogramsから高忠実度の波形が生成されました。ただし、これらのネットワークは計算的に高価で、パラメーターが多いです。 ISTFTNETは、逆時間フーリエ変換(ISTFT)をネットワークに統合し、速度とパラメーターの両方の効率を達成することにより、これらの制限に対処します。このホワイトペーパーでは、HiftNetと呼ばれるISTFTNETの拡張を導入します。これは、高速推定速度のために事前トレーニングされたF0推定ネットワークを介して推定される基本周波数(F0)から正弦波ソース(F0)を使用する時間周波数ドメインにハーモニックプラスノイズソースフィルターを組み込んでいます。 LJSpeechの主観的評価は、私たちのモデルがISTFTNETとHIFI-GANの両方を大幅に上回っており、グラウンドレベルのパフォーマンスを達成することを示しています。 Hiftnetは、目に見えないスピーカーのLibrittsのBigvgan-Baseを上回り、Bigvganに匹敵するパフォーマンスを達成し、パラメーターの1/6だけで4倍高速になります。私たちの作品は、効率的で高品質のニューラルボコードのための新しいベンチマークを設定し、高品質の音声合成を要求するリアルタイムアプリケーションへの道を開いています。
論文:https://arxiv.org/abs/2309.09493
オーディオサンプル:https://hiftnet.github.io/
Hiftnetを音声デコーダーとして使用するTTS作業を人間レベルの音声合成に確認してください:https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]F0モデルトレーニングについては、YL4579/Pitchextractorを参照してください。このレポは、Librittsに事前に訓練されたF0モデルが含まれています。それでも、特にノイズの多いまたは非スピーチデータでは、F0の推定精度がボコーダーのパフォーマンスに不可欠であることがわかったため、最高のパフォーマンスのために独自のF0モデルをトレーニングすることをお勧めします。
詳細については、Notebook Inference.ipynbを参照してください。
事前に訓練されたLJSpeechモデルをこちらからダウンロードし、事前に訓練されたLibrittsモデルをこちらからダウンロードできます。事前に訓練されたモデルには、微調整に使用できるオプティマイザーと判別器のパラメーターが含まれています。