TTSおよび関連アプリケーションの音声分析/合成システム。
このソフトウェアは、論文で説明されている方法に基づいています。
F. Espic、C。valentini-Botinhao、およびS. King、「統計パラメトリック音声合成のマグニチュードと位相スペクトルの直接モデリング」、Proc。 Speech interspeech、ストックホルム、スウェーデン、2017年8月。
@著者:Felipe Espic
詳細については、http://www.felipeespic.com/magphase/
これは、統計パラメトリック音声合成(SPSS)で使用される音声波形分析/合成システムです。
分析モジュールは、マグニチュードスペクトル、位相スペクトル、およびF0を記述する4つの特徴ストリームを抽出します。これらの機能を使用して、回帰モデル(DNN、LSTM、HMMなど)をトレーニングできるため、予測値を生成できます。合成モジュールは、これらの機能を入力で取り、最終的な合成波形を生成します。
キーポイント:
詳細については、ライセンスファイルを参照してください。
pip install numpy scipy soundfile matplotlib
MAGPHASE: git clone https://github.com/CSTR-Edinburgh/magphase.gitをダウンロードしてください
SPTKとReaperをダウンロードしてコンパイルします。
cd magphase/tools
./download_and_compile_tools.sh
これにより、SPTKとReaperが自動的にコンパイルして構成されます...それだけです!
/demosに移動するだけで、デモスクリプト内の指示を読んでください。 python <demo_script>を実行して、箱を使い果たす必要があります。
最初にdemo_copy_synthesis_lossless.pyでプレイすることをお勧めします。その後、 demo_copy_synthesis_low_dim.py両方とも分析/合成ルーチンを実行します。
次に、ニーズに合わせてデモスクリプトを変更できます。
注:場所からスクリプトを実行することを忘れないでください。
Merlinの公式配布で配布された2つのデモを提供します。これらは、マグファーズ統合を伴うマーリンの例を示しています:
テキストツースピーチ:MerlinのSLT_ARCTICデモ(小規模およびフルサブセットバージョン)
音声変換:マーリンの音声変換デモ(大まかにテストされた)
このソフトウェアを改善するためにサポートが必要です。あなたは次のことでコラボレーションすることができます:
MerlinとMagphaseを使用してTTSの声を構築し、他のボコーダー、例えば世界と比較します。次に、結果を教えてください。 Magphaseをいくつかの声でのみテストしましたが、より広い範囲をカバーする必要があります。最近、新しいデータを使用して結果を報告している人々のおかげで出てきたいくつかのバグを修正しました。
マーリンにネイティブ変数フレームレートサポートを実装します。 MAGPHASEは、可変フレームレートの方法で動作します(ピッチ同期)。