editts下載 - editts源代碼下載

editts

Ai源碼

1.0.0

下載

Editts：可控文本到語音的基於得分的編輯

EDITTS的官方實施：可控文本到語音的基於得分的編輯。音頻樣本可在我們的演示頁面上找到。

抽象的

我們提出Editts，這是一種基於基於分數的生成模型的現成的語音編輯方法，用於文本到語音綜合。 Editts允許在內容和音調方面進行有針對性的粒狀音頻編輯，而無需對基於分數的模型骨幹進行任何其他培訓，特定於任務的優化或架構修改。具體而言，我們在高斯先前的空間中應用粗糙但故意的擾動來誘導擴散模型的所需行為，同時施加掩模和軟內核，以確保僅將迭代編輯應用於目標區域。聽力測試表明，Editts能夠可靠地產生滿足用戶要求的自然音頻。

引用

請引用這項工作如下。

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

設定

創建一個Python虛擬環境（ venv或conda ），並按照requirements.txt中的指定安裝包裝要求。
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

構建單調對齊模塊。

 cd model/monotonic_align
python setup.py build_ext --inplace

有關更多信息，請參閱Grad-TT的官方存儲庫。

檢查點

在checkpts下，已經包含以下檢查點作為此存儲庫的一部分。

Grad-TTS（舊版本）
hifi-gan（lj_ft_t2_v1 ver。）

俯仰轉移

準備一個輸入文件，其中包含示例以進行語音生成。標記要通過垂直桿分離器編輯的段， | 。例如，一個樣本看起來像
在|障礙的面孔坦白地灰心|
我們在resources/filelists/edit_pitch_example.txt中提供示例輸入文件。

要運行推理，請輸入

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

適當調整CUDA_VISIBLE_DEVICES 。

內容更換

準備一個包含成對句子的輸入文件。將每對與#連接在一起，並標記要用垂直桿分離器替換的零件。例如，一對看起來像
另外三個隨後|確定|來自照片的奧斯瓦爾德。 #Three其他人隨後|認可|來自照片的奧斯瓦爾德。
我們在resources/filelists/edit_content_example.txt中提供示例輸入文件。

要運行推理，請輸入

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs