スピーカー分離(ダイアリゼーション)を使用して、Googleスピーチを介してテキストAPIにオーディオを転写します。オーディオと関連するテキストを使用して、TTSデータセットを自動的に生成します。 Google APIを使用して、最大の沈黙の切断によって分割されたカットを転写します(推奨)。または、Aeneasを使用して、テキストをオーディオにアライメントします。カットをすばやく校正および編集します。
Google Speech to Text APIには、Google Cloudプラットフォームアカウントが必要になります。 $ google_application_credentials env変数は、資格情報を指す必要があります。 Googleは300ドル相当のサービスを提供し、3か月間新しいアカウントで無料で提供しています。
GUIツール用にtools.pyを実行します。
現在の制限は、校正セクションの列幅を調整する必要があることと、エントリをナビゲートするときは、現在および次の入力テキストボックスからフォーカスを取り除く必要があるか、テキストボックスが更新されません。 Dearpy GUIの次のバージョンでは、これらの問題を解決します。
VPNを使用すると、Googleの長いスピーチが干渉してAPIリクエストをテキストメッセージで送信します。


MomementでDearpyguiの古いバージョンを使用して、最終的に移行します。
ピップインストールnumpy-ユーザー
ピップインストールpydub -user
PIPインストールDEARYPYGUI == 0.6.415 -USER
PIPインストールGoogle-Cloud-Speech - ユーザー
PIPインストールGoogle-Cloud-Storage -User
PIPインストールSimpleAudio -User
*simpleaudioを構築できない場合は、GCCがインストールされていることを確認してください:sudo apt-get update、sudo apt-get install build-essentions
PIPインストールSOX -USER
Linux環境は、Aeneasオプションに推奨されます。WindowsAeneasでは、メモリの問題のためにAeneasが長くカットすることはできません。
wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh
bash install_dependencies.sh
ピップインストールnumpy-ユーザー
ピップインストールaeneas -user
テストのインストール:python -m aeneas.diagnostics
ピップインストールpydub -user
PIPインストールDEARYPYGUI == 0.6.415 -USER
PIPインストールGoogle-Cloud-Speech - ユーザー
PIPインストールGoogle-Cloud-Storage -User
PIPインストールSimpleAudio -User
PIPインストールSOX -USER
Libpythonエラーが発生した場合:
sudo apt install libasound2-dev
sudo nano〜/.bashrcを入力して、bashrcファイルを編集します
次に、パッケージがインストールされている場所に応じて、情報で最後に行を追加します。
export ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"
または
export ld_library_path = "/[yourhomepath]/。conda/envs/[yourenv]/lib/"
または基本環境の場合
export ld_library_path = "/[yourhomepath]/anaconda3/lib/"
Ctrl+Oを押して、更新されたファイルをエクスポートします。次に、ctrl+xを終了します。
ソース〜/.bashrcを入力して、新しいパスを有効にします。
ビデオチュートリアル:https://www.youtube.com/watch?v=te7pui2xeje
いくつかのことは、カットの品質を改善しますが、トレーニング前に常にそれらを校正する必要があります。英語以外の言語の場合、Aeneasコマンドラインとキャラクターの交換をあなたのニーズに簡単に編集し、Google En-US言語コードを言語コード(https://cloud.google.com/speech-to-text/docs/languages)に置き換えることができます。チャプタータイトルのようなものが含まれているかどうかを調べます。ゆっくりとペースのスピーチを備えたスピーカーは最もきれいなカットになりますが、ペースの速いスピーカーは単語を一緒に実行する傾向があり、いくつかの単語、単語の断片を引き起こす可能性があります。可能であればすべての音楽を削除します。