voice dataset creationダウンロード - voice dataset creationソースコードのダウンロード

voice dataset creation

AI ソースコード

1.0.0

ダウンロード

音声データセットの作成

このレポは、音声モデルをトレーニングするための独自のテキストからスピーチデータセットを作成するために必要な手順とスクリプトの概要を説明します。最終出力はljspeech形式です。

フローチャート

独自の音声録音を作成します

要件

音声録音ソフトウェア
オムニ方向ヘッドマウントマイク
高品質のオーディオカード

文のテキストコーパスを作成します

話されたときに約3〜10秒になる文を作成する
ljspeech形式を使用します
- "|"分離された値、WAVファイルIDからテキストを文
- 100|this is an example sentence

文章を話し、記録します

書かれたように各文を話します
サンプルレートは22050以上でなければなりません

文の長さ

Scripts/Wavdurations2csv.shを実行して、文の長さを作成し、WAVファイルの長さの適切な分布があることを確認します。

合成音声データセットを作成します

要件

Google Cloud Platform Compute Engineインスタンス
- Cloud API access scopes選択Allow full access to all Cloud APIs
コマンド

インストール

GCPインスタンスでコンドラ環境を作成します

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

文のテキストコーパスを作成します

話されたときに約3〜10秒になる文を作成する
ljspeech形式を使用します
- "|"分離された値、WAVファイルIDからテキストを文
- 100|this is an example sentence

合成音声データセットを生成します

python text_to_wav.py tts_generate

文の長さ

Scripts/Wavdurations2csv.shを実行して、文の長さを作成し、WAVファイルの長さの適切な分布があることを確認します。

既存の音声録音の転写を作成します

要件

アドビのオーディションまたは大胆さ
Google Cloud Platform Compute Engineインスタンス
- Cloud API access scopes選択Allow full access to all Cloud APIs
コマンド

インストール

GCPインスタンスでコンドラ環境を作成します

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

音声データセットのデータシートに記入します

Gebru et al。：https://arxiv.org/pdf/1803.09010.pdfによるデータセットのデータシートを確認してください
Markdown Datasheet：https：//github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/datasheet.md

スピーチをマークします

Adobe Auditionでは、オーディオファイルを開く：

Diagnostics - > Mark Audioを選択します
Mark the Speechを選択します
Scanをクリックします
Find Levelsをクリックします
もう一度Scanをクリックします
Mark Allをクリックします
クリップが3〜10秒になるまで、オーディオとサイレンスの信号DBと長さを調整します

または、 Audacityでは、オーディオファイルを開きます。

Analyze - > Sound Finderを選択します
クリップが3〜10秒になるまで、オーディオとサイレンスの信号DBと長さを調整します

マーカーまたはラベルの境界を調整します

オーディションで：

Markersタブ
マーカーを調整し、沈黙とノイズを削除して、3〜10秒のクリップの長さを作成します

オーディションで：

ラベルの境界を調整し、沈黙とノイズを削除して、3〜10秒のクリップの長さを作成します

エクスポートマーカー/ラベルと波

オーディションで：

リスト内のすべてのマーカーを選択します
Export Selected Markers to CSV 、Markers.csvとして保存します
Preferencesを選択 - > Media & Disk CacheとアンティックのSave Peak Files
Export Audio of Selected Range Markersを選択して、次のオプションを選択します。
- Use marker names in filenamesください
- WAV PCMに更新します
- サンプルタイプ22050 Hz Mono, 16-bit更新します
- フォルダーwavs_exportを使用します

または、 Audacityで：

Export multiple...
- フォーマット：WAV
- オプション：署名された16ビットPCM
- ラベルに基づいてファイルを分割します
- ラベル/トラック名を使用した名前ファイル
- フォルダーwavs_exportを使用します
Export labelsを選択しますLabel Track.txt

シグナルとノイズ比コラブで波を分析します

colabs/voice_dataset_snr.ipynbを実行します
ノイズの多いファイルをクリーニングまたは削除します

STTで初期転写を作成します

オーディションの場合、エクスポートされたMarkers.csvおよびWAVSフォルダーを使用して実行します。

 cd scripts
python wav_to_text.py audition

スクリプトは、新しいファイルMarkers_STT.csvを生成します。

Audacityの場合、エクスポートされたLabel Track.txtとWavsフォルダーの実行を使用してください。

 cd scripts
python wav_to_text.py audacity

スクリプトは、新しいファイル、 Label Track STT.csvを生成します。

微調整転写

オーディションの場合：

すべてのマーカーを削除します
Import Markers from Fileを選択し、STT転写を使用してファイルを選択します：markers_stt.csv
マーカーの説明フィールドを微調整して、話された単語と正確に一致させる

Audacityのために：

テキストエディターにLabel Track STT.txtを開きます。
テキストファイルのラベルフィールドを微調整して、話された単語と正確に一致するように

エクスポートマーカー（オーディションのみ）およびWAV

オーディションの場合：

リスト内のすべてのマーカーを選択します
Export Selected Markers to CSV 、Markers.csvとして保存します
Export Audio of Selected Range Markersを選択して、次のオプションを選択します。
- Use marker names in filenamesください
- WAV PCMに更新します
- サンプルタイプ22050 Hz Mono, 16-bit更新します
- フォルダーwavs_exportを使用します

Audacityのために：

Export multiple...
- フォーマット：WAV
- オプション：署名された16ビットPCM
- ラベルに基づいてファイルを分割します
- ラベル/トラック名を使用した名前ファイル
- フォルダーwavs_exportを使用します

マーカー（オーディション）またはラベル（Audacity）をljspeech形式に変換します

exported Markers.csv （audition）またはLabel Track STT.txt （audacity）とwavs_exportのwavsを使用して、scripts/markersfile_to_metadata.pyは、ttsモデルをトレーニングするために波状のメタデータとフォルダーを作成します。

オーディションの場合：

python markersfile_to_metadata.py audition

Audacityのために：

python markersfile_to_metadata.py audacity

文の長さ

Scripts/Wavdurations2csv.shを実行して、文の長さを作成し、WAVファイルの長さの適切な分布があることを確認します。

他のユーティリティ

WAVファイルをアップサンプリングします

ffmpeg： ffmpeg 再sampy： WAVファイルを16,000から22,050 Hzにアップサンプリングするための3つの方法をテストしました。スペクトログラムを確認した後、Resampyと比較した場合、さらに2 kHzのハイエンド情報が含まれているため、FFMPEGをアップサンプリング用に選択しました。スクリプト/resamplewav.sh

 scripts/resamplewav.sh

参照

Mozilla TTS：https：//github.com/mozilla/tts
アラインメントの自動化には、Silence、Google Speech API、および認識アライメントに関するセグメントオーディオが含まれています：https：//github.com/carpedm20/multi-peaker-tacotron-tensorflow#2-2-generate-korean-datasets
大規模な合成コーパスでの事前脱出と特定のものの微調整https://twitter.com/garygarywang
データセットのデータシートhttps://arxiv.org/abs/1803.09010

拡大する

追加情報