Learn2Sing2.0
1.0.0
Learn2Sing 2.0の公式実装。すべての詳細については、このリンクを介してSpeech 2022で受け入れられている論文をご覧ください。
著者:Heyang Xue、Xinsheng Wang、Yongmao Zhang、Lei Xie、Pengcheng Zhu、Mengxiao bi。
デモページ:リンク。
歌うのが得意ではない人のために高品質の歌手コーパスを構築することは、自明ではないため、この人のために歌う声のシンセサイザーを作るのが難しいです。 Learn2Singは、他の人が記録したデータ、すなわち歌の先生から学習することにより、スピーカーの歌声の歌声を合成することに専念しています。ピッチが歌を話す声を区別するための重要なスタイルの要因であるという事実に触発されて、提案されたLearn2Sing 2.0は、最初に電話レベルで平均ピッチ値を備えた予備的な音響機能を生成します。次に、特定のスタイルに条件付けられた拡散デコーダーは、推論段階で高速サンプリングアルゴリズムによって加速され、最終的な音響機能を徐々に復元するために採用されます。トレーニング中、スピーカーの埋め込みとスタイルの埋め込みの情報の混乱を避けるために、スピーカーの埋め込みとスタイルの埋め込みの学習を抑制するために相互情報が採用されています。実験は、提案されたアプローチが、10のデコードステップでデータを歌うことなく、ターゲットスピーカーの高品質の歌声を合成できることを示しています。
テキスト/symbols.pyの電話セットとピッチェットを独自のセットに置き換えます
config.jsonのデータへのパスを提供すると、testDataフォルダーには例ファイルが含まれています。
トレーニング
bash run.sh
推論
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True