編集の公式実装:制御可能なテキストからスピーチのためのスコアベースの編集。オーディオサンプルはデモページで入手できます。
テキスト間合成のためのスコアベースの生成モデリングに基づいて、既製の音声編集方法論であるEdittsを紹介します。 Edittsは、追加のトレーニング、タスク固有の最適化、またはスコアベースのモデルバックボーンへのアーキテクチャの変更を必要とせずに、コンテンツとピッチの両方で、オーディオのターゲットを絞った粒状編集を可能にします。具体的には、ガウスの事前空間に粗いが意図的な摂動を適用して、拡散モデルから望ましい動作を誘導しながら、マスクと柔らかいカーネルを適用して、ターゲット領域にのみ繰り返し編集が適用されるようにします。リスニングテストは、編集者がユーザーが課した要件を満たす自然なサウンドのオーディオを確実に生成できることを示しています。
この作業を次のように引用してください。
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
}python仮想環境( venvまたはconda )を作成し、 requirements.txtで指定されているようにパッケージ要件をインストールします。txt。
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt単調アライメントモジュールを構築します。
cd model/monotonic_align
python setup.py build_ext --inplace詳細については、GradTTSの公式リポジトリを参照してください。
次のチェックポイントは、このリポジトリの一部として、 checkptsの下ですでに含まれています。
音声生成のためにサンプルを含む入力ファイルを準備します。垂直バーセパレーターを介して編集されるセグメントをマークします| 。たとえば、単一のサンプルがどのように見えるかもしれません
で|障害の顔は、告白して落胆する|
resources/filelists/edit_pitch_example.txtでサンプル入力ファイルを提供します。
推論を実行するには、タイプ
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs必要に応じて、 CUDA_VISIBLE_DEVICESを調整します。
文のペアを含む入力ファイルを準備します。各ペアを#と連結し、垂直バーセパレーターに置き換えるパーツをマークします。たとえば、単一のペアがどのように見えるかもしれません
その後、他の3人は|識別|写真からオズワルド。 #その後3つの他の人|認識|写真からオズワルド。
resources/filelists/edit_content_example.txtでサンプル入力ファイルを提供します。
推論を実行するには、タイプ
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavs修正されたGNU一般公開ライセンスの下でリリースされました。