TTS dataset toolsダウンロードTTS dataset toolsソースコードダウンロード

TTS dataset tools

AI ソースコード

1.0.0

ダウンロード

TTS-DATASET-TOOLS

スピーカー分離（ダイアリゼーション）を使用して、Googleスピーチを介してテキストAPIにオーディオを転写します。オーディオと関連するテキストを使用して、TTSデータセットを自動的に生成します。 Google APIを使用して、最大の沈黙の切断によって分割されたカットを転写します（推奨）。または、Aeneasを使用して、テキストをオーディオにアライメントします。カットをすばやく校正および編集します。

Google Speech to Text APIには、Google Cloudプラットフォームアカウントが必要になります。 $ google_application_credentials env変数は、資格情報を指す必要があります。 Googleは300ドル相当のサービスを提供し、3か月間新しいアカウントで無料で提供しています。

GUIツール用にtools.pyを実行します。

現在の制限は、校正セクションの列幅を調整する必要があることと、エントリをナビゲートするときは、現在および次の入力テキストボックスからフォーカスを取り除く必要があるか、テキストボックスが更新されません。 Dearpy GUIの次のバージョンでは、これらの問題を解決します。

VPNを使用すると、Googleの長いスピーチが干渉してAPIリクエストをテキストメッセージで送信します。

データセットGUI

MomementでDearpyguiの古いバージョンを使用して、最終的に移行します。

Windowsセットアップ

ピップインストールnumpy-ユーザー

ピップインストールpydub -user

PIPインストールDEARYPYGUI == 0.6.415 -USER

PIPインストールGoogle-Cloud-Speech - ユーザー

PIPインストールGoogle-Cloud-Storage -User

PIPインストールSimpleAudio -User

*simpleaudioを構築できない場合は、GCCがインストールされていることを確認してください：sudo apt-get update、sudo apt-get install build-essentions

PIPインストールSOX -USER

Linuxセットアップ

Linux環境は、Aeneasオプションに推奨されます。WindowsAeneasでは、メモリの問題のためにAeneasが長くカットすることはできません。

wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh

bash install_dependencies.sh

ピップインストールnumpy-ユーザー

ピップインストールaeneas -user

テストのインストール：python -m aeneas.diagnostics

ピップインストールpydub -user

PIPインストールDEARYPYGUI == 0.6.415 -USER

PIPインストールGoogle-Cloud-Speech - ユーザー

PIPインストールGoogle-Cloud-Storage -User

PIPインストールSimpleAudio -User

PIPインストールSOX -USER

Libpythonエラーが発生した場合：

sudo apt install libasound2-dev

sudo nano〜/.bashrcを入力して、bashrcファイルを編集します

次に、パッケージがインストールされている場所に応じて、情報で最後に行を追加します。

export ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"

または

export ld_library_path = "/[yourhomepath]/。conda/envs/[yourenv]/lib/"

または基本環境の場合

export ld_library_path = "/[yourhomepath]/anaconda3/lib/"

Ctrl+Oを押して、更新されたファイルをエクスポートします。次に、ctrl+xを終了します。

ソース〜/.bashrcを入力して、新しいパスを有効にします。

使用法

ビデオチュートリアル：https：//www.youtube.com/watch?v=te7pui2xeje

推奨事項

いくつかのことは、カットの品質を改善しますが、トレーニング前に常にそれらを校正する必要があります。英語以外の言語の場合、Aeneasコマンドラインとキャラクターの交換をあなたのニーズに簡単に編集し、Google En-US言語コードを言語コード（https://cloud.google.com/speech-to-text/docs/languages）に置き換えることができます。チャプタータイトルのようなものが含まれているかどうかを調べます。ゆっくりとペースのスピーチを備えたスピーカーは最もきれいなカットになりますが、ペースの速いスピーカーは単語を一緒に実行する傾向があり、いくつかの単語、単語の断片を引き起こす可能性があります。可能であればすべての音楽を削除します。

拡大する

追加情報