DailyTalk下載 - DailyTalk源代碼下載

DailyTalk

Ai源碼

v0.1.0

下載

DailyTalk：用於對話文本到語音的對話數據集

Keon Lee ^* ，Kyumin Park ^* ，Daeyoung Kim

在我們的論文中，我們介紹了DailyTalk，這是一種專為文本到語音設計的高質量對話演講數據集。

摘要：當前文本到語音（TTS）數據集的大多數是單個話語的集合，幾乎沒有對話方面。在本文中，我們介紹了DailyTalk，這是一個專為對話tts設計的高質量對話語音數據集。我們從開放域對話數據集Dabordialog中取樣，修改並記錄了2,541個對話，以繼承其註釋的屬性。在我們的數據集之外，我們將先前的工作擴展為我們的基準，在該基線中，非自動回憶TTS的對話中的歷史信息為條件。從一般和我們的新型指標的基線實驗中，我們表明每日talk可以用作一般的TTS數據集，而且我們的基線還可以代表來自DailyTalk的上下文信息。 DailyTalk數據集和基線代碼可自由使用CC-BY-SA 4.0許可證。

數據集

您可以下載我們的數據集。有關詳細信息，請參閱統計詳細信息。

預驗證的模型

您可以下載我們驗證的型號。有兩個不同的目錄：“ history_none”和“ history_guo”。前者沒有歷史編碼，因此它不是對話性上下文感知的模型。後者俱有在語音代理的端到端TTS之後的歷史編碼（Guo等，2020）。

通過

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

Quickstart

依賴性

您可以使用

 pip3 install -r requirements.txt

此外，還為Docker用戶提供Dockerfile 。

推理

您必須下載我們的兩個數據集。下載驗證的型號，並將其放入output/ckpt/DailyTalk/ 。也在hifigan文件夾中的unzip generator_LJSpeech.pth.tar或generator_universal.pth.tar 。在變壓器構建塊和歷史編碼類型下，對模型進行了無監督的持續時間建模培訓。

僅支持批次推理，因為轉彎的產生可能需要對話的上下文歷史。嘗試

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

綜合preprocessed_data/DailyTalk/val_*.txt中的所有話語。

訓練

預處理

對於帶有外部揚聲器嵌入式的多揚聲器TT ，下載cacknn softmax+三胞胎預算的Philipperemy DeepSpeaker的揚聲器嵌入模型，並將其定位在./deepspeaker/pretrained_models/中。請注意，我們驗證的模型未接受此培訓（他們接受了使用speaker_embedder: "none" ）。
跑步
```
 python3 prepare_align.py --dataset DailyTalk
```
用於一些準備工作。
對於強制對準，蒙特利爾強制對準器（MFA）用於獲得發音和音素序列之間的比對。此處提供了數據集的預提取對齊。您必須在preprocessed_data/DailyTalk/TextGrid/中解壓縮文件。或者，您可以自己運行對準器。請注意，我們驗證的模型未接受有監督的持續時間建模培訓（他們接受了learn_alignment: True培訓）。
之後，通過
```
 python3 preprocess.py --dataset DailyTalk
```

訓練

培訓您的模型

 python3 train.py --dataset DailyTalk

有用的選項：

要使用自動混合精度，請將--use_amp參數附加到上述命令。
培訓師假定單節點多GPU培訓。要使用特定的GPU，請在上述命令的開頭指定CUDA_VISIBLE_DEVICES=<GPU_IDs> 。

張板

使用

 tensorboard --logdir output/log

在您的本地主機上提供張板。顯示了損耗曲線，合成的MEL光譜圖和音頻。

筆記

在無監督的持續時間建模中，卷積嵌入用作音素級別差異的樣式語言。否則，基於桶的嵌入將用作FastSpeech2。
音素級別的無監督持續時間建模將比幀級要花費更長的時間，因為在運行時激活音素級別差異的其他計算。
嵌入多演講者TTS設置的兩個選項：從頭開始培訓揚聲器嵌入器或使用預先訓練的Philipperemy的DeepSpeaker模型（如Styler所做的那樣）。您可以通過設置配置（在'none'和'DeepSpeaker'之間）進行切換。
對於Vocoder， HIFI-GAN用於我們論文中的所有實驗。

引用

如果您想使用我們的數據集和代碼或參考我們的論文，請如下引用。

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}