silero tts enhanced
0.0.5
readmeは次の言語で入手できます。
Silero TTSは、さまざまなシレロTTSモデル、言語、スピーカーを使用してテキストからの音声を簡単に合成する簡単な方法を提供するPythonライブラリです。スタンドアロンスクリプトとして使用したり、独自のPythonプロジェクトに統合したりできます。
pip install silero-tts
リポジトリをクローンします:
git clone https://github.com/daswer123/silero-tts-enhanced
必要な依存関係をインストールします。
pip install -r requirements.txt
Silero TTSをスタンドアロンスクリプトとして使用して、テキストファイルを含むテキストファイルまたはディレクトリからの音声を合成できます。
python -m silero_tts [options]
--list-models :利用可能なモデルをリストします--list-speakers :モデルの利用可能なスピーカーをリストします--language LANGUAGE :言語コードを指定する(必須)--model MODEL :モデルIDを指定します(デフォルト:言語の最新バージョン)--speaker SPEAKER :スピーカー名を指定します(デフォルト:モデルの最初の利用可能なスピーカー)--sample-rate SAMPLE_RATE :サンプルレートを指定します(デフォルト:48000)--device DEVICE :使用するデバイスを指定する(デフォルト:CPU)--text TEXT :合成するテキストを指定します--input-file INPUT_FILE :sintesizeする入力テキストファイルを指定します--input-dir INPUT_DIR :合成するテキストファイルを含む入力ディレクトリを指定します--output-file OUTPUT_FILE :出力オーディオファイルを指定する(デフォルト:output.wav)--output-dir OUTPUT_DIR :合成されたオーディオファイルの出力ディレクトリを指定します(デフォルト:出力)--log-level INFO :ログレベルを指定する、オフにすることができます。 テキストからのスピーチを統合します:
python silero_tts.py --language ru --text "Привет, мир!"
テキストファイルからのスピーチを合成します:
python silero_tts.py --language en --input-file input.txt --output-file output.wav
ディレクトリ内の複数のテキストファイルからのスピーチを合成します。
python silero_tts.py --language es --input-dir texts --output-dir audio
また、 SileroTTSクラスをインポートし、その方法を使用することにより、SileroTTSを独自のPythonプロジェクトに統合することもできます。
from silero_tts . silero_tts import SileroTTS
# Get available models
models = SileroTTS . get_available_models ()
print ( "Available models:" , models )
# Get available languages
languages = SileroTTS . get_available_languages ()
print ( "Available languages:" , languages )
# Get the latest model for a specific language
latest_model = SileroTTS . get_latest_model ( 'ru' )
print ( "Latest model for Russian:" , latest_model )
# Get available sample rates for a specific model and language
sample_rates = SileroTTS . get_available_sample_rates_static ( 'ru' , latest_model )
print ( "Available sample rates for the latest Russian model:" , sample_rates )
# Initialize the TTS object
tts = SileroTTS ( model_id = 'v3_en' , language = 'en' , speaker = 'en_2' , sample_rate = 48000 , device = 'cpu' )
# Synthesize speech from text
text = "Hello world!"
tts . tts ( text , 'output.wav' )
# Synthesize speech from a text file
# tts.from_file('input.txt', 'output.wav')
# Get available speakers for the current model
speakers = tts . get_available_speakers ()
print ( "Available speakers for the current model:" , speakers )
# Change the language
tts . change_language ( 'en' )
print ( "Language changed to:" , tts . language )
print ( "New model ID:" , tts . model_id )
print ( "New available speakers:" , tts . get_available_speakers ())
# Change the model
tts . change_model ( 'v3_en' )
print ( "Model changed to:" , tts . model_id )
print ( "New available speakers:" , tts . get_available_speakers ())
# Change the speaker
tts . change_speaker ( 'en_0' )
print ( "Speaker changed to:" , tts . speaker )
# Change the sample rate
tts . change_sample_rate ( 24000 )
print ( "Sample rate changed to:" , tts . sample_rate )Silero TTS CLIは、次の機能を提供します。
--languageフラグを使用して言語コードを指定して、目的の言語で音声を統合します。--modelフラグを使用して特定のモデルを選択するか、CLIが指定された言語の最新モデルを自動的に選択します。--speakerフラグを使用してスピーカーを選択するか、選択したモデルのデフォルトスピーカーを使用します。--sample-rateフラグを使用して、合成された音声のサンプルレートをカスタマイズします。--deviceフラグを使用して合成に使用するデバイス(CPUまたはGPU)を指定します。--textフラグを使用して直接合成するテキストを提供するか、 --input-fileフラグを使用して入力テキストファイルを指定します。--input-dirフラグを使用してディレクトリ内の複数のテキストファイルを処理します。--output-fileフラグまたは、 --output-dirフラグを使用してバッチ処理用の出力ディレクトリを使用して出力オーディオファイルを指定します。--list-modelsフラグを使用して、利用可能なすべてのモデルをリストします。--list-speakersフラグを使用して、特定のモデルの利用可能なすべてのスピーカーをリストします。 このプロジェクトは、MITライセンスの下でライセンスされています。