TTSDatasetRecorder
1.0.0
これは、Kivyを使用してPythonで実装されたHomebrew TTSデータセットを録画するための簡単なアプリです。設計されたユースケースは、行ごとにテキストを表示し、表示されたテキストの長さに基づいてデフォルトマイクからの固定されたオーディオ時間を記録することです。読み取り速度は調整可能であり、ノイズ、スピーカーエラーなどのために文を再録音する必要がある場合に、単純なコントロールによってテキストをナビゲートできます。
これをMac OSとUbuntuでのみテストしましたが、小さな変更でWindowsで実行できると思います。また、GUIをうまくテストせず、ウィジェットのサイズとパディングをハードコーディングしたため、アプリはさまざまなウィンドウサイズとデスクトップ解像度でファンキーに見える可能性があります。
Python 3が必要です。
pip install -r requirements.txt
python prompter.py
アプリは、同じフォルダーのtext.txtのテキストを読み取り、行ごとに表示します。 Recordボタンを押して、 Recording...テキストが表示されている間に文を言います。しばらくして録音は自動的に停止します。割り当てられた時間が少なすぎるか多すぎる場合は、スライダーを使用して読み取り速度を調整できます。録音は~/Desktop/TTS_dataset_recordingsの48000 khzの.wavファイルとして保存され、ファイル名はtext.txtの行番号に対応します