edittsダウンロードedittsソースコードのダウンロード

editts

AI ソースコード

1.0.0

ダウンロード

編集：制御可能なテキストからスピーチのスコアベースの編集

編集の公式実装：制御可能なテキストからスピーチのためのスコアベースの編集。オーディオサンプルはデモページで入手できます。

抽象的な

テキスト間合成のためのスコアベースの生成モデリングに基づいて、既製の音声編集方法論であるEdittsを紹介します。 Edittsは、追加のトレーニング、タスク固有の最適化、またはスコアベースのモデルバックボーンへのアーキテクチャの変更を必要とせずに、コンテンツとピッチの両方で、オーディオのターゲットを絞った粒状編集を可能にします。具体的には、ガウスの事前空間に粗いが意図的な摂動を適用して、拡散モデルから望ましい動作を誘導しながら、マスクと柔らかいカーネルを適用して、ターゲット領域にのみ繰り返し編集が適用されるようにします。リスニングテストは、編集者がユーザーが課した要件を満たす自然なサウンドのオーディオを確実に生成できることを示しています。

引用

この作業を次のように引用してください。

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

設定

python仮想環境（ venvまたはconda ）を作成し、 requirements.txtで指定されているようにパッケージ要件をインストールします。txt。
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

単調アライメントモジュールを構築します。

 cd model/monotonic_align
python setup.py build_ext --inplace

詳細については、GradTTSの公式リポジトリを参照してください。

チェックポイント

次のチェックポイントは、このリポジトリの一部として、 checkptsの下ですでに含まれています。

卒業生（古いver。）
hifi-gan（lj_ft_t2_v1ver。）

ピッチシフト

音声生成のためにサンプルを含む入力ファイルを準備します。垂直バーセパレーターを介して編集されるセグメントをマークします| 。たとえば、単一のサンプルがどのように見えるかもしれません
で|障害の顔は、告白して落胆する|
resources/filelists/edit_pitch_example.txtでサンプル入力ファイルを提供します。

推論を実行するには、タイプ

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

必要に応じて、 CUDA_VISIBLE_DEVICESを調整します。

コンテンツの交換

文のペアを含む入力ファイルを準備します。各ペアを#と連結し、垂直バーセパレーターに置き換えるパーツをマークします。たとえば、単一のペアがどのように見えるかもしれません
その後、他の3人は|識別|写真からオズワルド。＃その後3つの他の人|認識|写真からオズワルド。
resources/filelists/edit_content_example.txtでサンプル入力ファイルを提供します。

推論を実行するには、タイプ

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs