DailyTalkのダウンロードDailyTalkソースコードのダウンロード

DailyTalk

AI ソースコード

v0.1.0

ダウンロード

DailyTalk：会話のテキストからスピーチのための音声ダイアログデータセット

Keon Lee ^* 、Kyumin Park ^* 、Daeyoung Kim

私たちの論文では、テキストからスピーチ用に設計された高品質の会話の音声データセットであるDailyTalkを紹介します。

要約：個々の発話のコレクションである現在のテキストからスピーチ（TTS）データセットの大部分には、会話の側面はほとんど含まれていません。この論文では、会話TTS向けに設計された高品質の会話の音声データセットであるDailyTalkを紹介します。オープンドメインダイアログデータセットのDailyDialogからの2,541のダイアログをサンプリング、修正、記録しました。データセットに加えて、以前の作業をベースラインとして拡張します。ここでは、非自動性TTSが対話の履歴情報を条件付けしています。一般的なメトリックと私たちの新しいメトリックの両方を使用したベースライン実験から、DailyTalkを一般的なTTSデータセットとして使用できることを示し、それ以上に、私たちのベースラインはDailyTalkからのコンテキスト情報を表すことができます。 DailyTalkデータセットとベースラインコードは、CC-SA 4.0ライセンスを使用して自由に利用できます。

データセット

データセットをダウンロードできます。詳細については、統計の詳細を参照してください。

前処理されたモデル

当初のモデルをダウンロードできます。「history_none」と「history_guo」という2つの異なるディレクトリがあります。前者には歴史的なエンコーディングがないため、会話のコンテキスト対応モデルではありません。後者には、音声エージェント向けの会話型エンドツーエンドTTSに続く歴史的エンコーディングがあります（Guo et al。、2020）。

履歴エンコーディングのタイプを切り替えます

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

クイックスタート

依存関係

Python依存関係をインストールできます

 pip3 install -r requirements.txt

また、 DockerfileはDockerユーザーに提供されています。

推論

両方のデータセットをダウンロードする必要があります。事前に保護されたモデルをダウンロードして、それらをoutput/ckpt/DailyTalk/に入れます。また、hifiganフォルダーのgenerator_LJSpeech.pth.tarまたはgenerator_universal.pth.tarもunzip。モデルは、変圧器ビルディングブロックと履歴エンコーディングタイプの下で、監視されていない持続時間モデリングでトレーニングされています。

ターンの生成には会話の文脈的履歴が必要になる可能性があるため、バッチ推論のみがサポートされています。試す

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

preprocessed_data/DailyTalk/val_*.txtのすべての発話を合成するには。

トレーニング

前処理

外部スピーカーの封入器を備えたマルチスピーカーTTSについては、スピーカーの埋め込み用のPhilipperemyのディープスピーカーのRescnn SoftMax+Triplet Tretrained Modelをダウンロードし、それを./deepspeaker/pretrained_models/に見つけます。私たちの前提条件のモデルはこれで訓練されていないことに注意してください（ speaker_embedder: "none"で訓練されています）。
走る
```
 python3 prepare_align.py --dataset DailyTalk
```
いくつかの準備のために。
強制アライメントのために、モントリオールの強制アライナー（MFA）を使用して、発話と音素シーケンスの間のアライメントを取得します。データセットの事前に抽出されたアライメントはここに記載されています。 preprocessed_data/DailyTalk/TextGrid/でファイルを解凍する必要があります。または、自分でアライナーを実行できます。私たちの冒険モデルは、監視された持続時間モデリングでトレーニングされていないことに注意してください（ learn_alignment: Trueでトレーニングされています）。
その後、前処理スクリプトを実行します
```
 python3 preprocess.py --dataset DailyTalk
```

トレーニング

モデルを訓練します

 python3 train.py --dataset DailyTalk

有用なオプション：

自動混合精度を使用するには、上記のコマンドに--use_amp引数を追加します。
トレーナーは、シングルノードマルチGPUトレーニングを想定しています。特定のGPUを使用するには、上記のコマンドの先頭にCUDA_VISIBLE_DEVICES=<GPU_IDs>を指定します。

テンソルボード

使用

 tensorboard --logdir output/log

LocalHostでTensorboardを提供します。損失曲線、合成されたメルスペクトルグラム、およびオーディオが表示されます。

メモ

畳み込みの埋め込みは、監視されていない持続時間モデリングの音素レベルの分散のためのスタイルスピーチとして使用されます。それ以外の場合、バケットベースの埋め込みはfastspeech2として使用されます。
音素レベルの監視されていない持続時間モデリングには、音素レベルの分散の追加計算が実行時にアクティブ化されるため、フレームレベルよりも時間がかかります。
マルチスピーカーTTS設定の埋め込みの2つのオプション：ゼロからスピーカーの埋め込みをトレーニングするか、事前に訓練されたPhilipperemyのDeepspeakerモデルを使用しています（Stylerが行ったように）。構成（ 'none'と'DeepSpeaker'の間）を設定して切り替えることができます。
Vocoderの場合、 Hifi-Ganは私たちの論文のすべての実験に使用されます。

引用

データセットとコードを使用する場合、または私たちの論文を参照する場合は、次のように引用してください。

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}

ライセンス

この作業は、Creative Commons Attribution-Sharealike 4.0 Internationalライセンスの下でライセンスされています。

参照

Keonlee9420のスタイラー
Keonlee9420の表現力豊かな速度2
Keonlee9420の包括的なトランスフォーマー-TTS

拡大する

追加情報

バージョン v0.1.0
タイプ AI ソースコード
更新時間 2025-08-20
サイズ 104.71MB
から Github

DailyTalk

DailyTalk：会話のテキストからスピーチのための音声ダイアログデータセット

Keon Lee ^* 、Kyumin Park ^* 、Daeyoung Kim

データセット

前処理されたモデル

クイックスタート

依存関係

推論

トレーニング

前処理

トレーニング

テンソルボード

メモ

引用

ライセンス

参照

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

DailyTalk

DailyTalk：会話のテキストからスピーチのための音声ダイアログデータセット

Keon Lee * 、Kyumin Park * 、Daeyoung Kim

データセット

前処理されたモデル

クイックスタート

依存関係

推論

トレーニング

前処理

トレーニング

テンソルボード

メモ

引用

ライセンス

参照

Keon Lee ^* 、Kyumin Park ^* 、Daeyoung Kim