editts
1.0.0
EDITTS的官方實施:可控文本到語音的基於得分的編輯。音頻樣本可在我們的演示頁面上找到。
我們提出Editts,這是一種基於基於分數的生成模型的現成的語音編輯方法,用於文本到語音綜合。 Editts允許在內容和音調方面進行有針對性的粒狀音頻編輯,而無需對基於分數的模型骨幹進行任何其他培訓,特定於任務的優化或架構修改。具體而言,我們在高斯先前的空間中應用粗糙但故意的擾動來誘導擴散模型的所需行為,同時施加掩模和軟內核,以確保僅將迭代編輯應用於目標區域。聽力測試表明,Editts能夠可靠地產生滿足用戶要求的自然音頻。
請引用這項工作如下。
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
}創建一個Python虛擬環境( venv或conda ),並按照requirements.txt中的指定安裝包裝要求。
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt構建單調對齊模塊。
cd model/monotonic_align
python setup.py build_ext --inplace有關更多信息,請參閱Grad-TT的官方存儲庫。
在checkpts下,已經包含以下檢查點作為此存儲庫的一部分。
準備一個輸入文件,其中包含示例以進行語音生成。標記要通過垂直桿分離器編輯的段, | 。例如,一個樣本看起來像
在|障礙的面孔坦白地灰心|
我們在resources/filelists/edit_pitch_example.txt中提供示例輸入文件。
要運行推理,請輸入
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs適當調整CUDA_VISIBLE_DEVICES 。
準備一個包含成對句子的輸入文件。將每對與#連接在一起,並標記要用垂直桿分離器替換的零件。例如,一對看起來像
另外三個隨後|確定|來自照片的奧斯瓦爾德。 #Three其他人隨後|認可|來自照片的奧斯瓦爾德。
我們在resources/filelists/edit_content_example.txt中提供示例輸入文件。
要運行推理,請輸入
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavs根據修改後的GNU通用公共許可證發布。