silero tts enhancedダウンロードsilero tts enhancedソースコードダウンロード

silero tts enhanced

AI ソースコード

0.0.5

ダウンロード

シレロTTS

readmeは次の言語で入手できます。

Silero TTSは、さまざまなシレロTTSモデル、言語、スピーカーを使用してテキストからの音声を簡単に合成する簡単な方法を提供するPythonライブラリです。スタンドアロンスクリプトとして使用したり、独自のPythonプロジェクトに統合したりできます。

特徴

複数の言語とモデルのサポート
最新のモデル構成ファイルの自動ダウンロード
テキストの前処理と音訳
テキストファイルのバッチ処理
Loguruを使用した詳細なロギング
TQDMを使用した進捗追跡
サンプルレート、デバイスなどのカスタマイズ可能なオプション
スタンドアロンスクリプトとして使用したり、Pythonコードに統合したりできます

インストール

自動（推奨）

 pip install silero-tts

マニュアル

リポジトリをクローンします：

 git clone https://github.com/daswer123/silero-tts-enhanced

必要な依存関係をインストールします。
```
 pip install -r requirements.txt
```

使用法

スタンドアロンスクリプトとして

Silero TTSをスタンドアロンスクリプトとして使用して、テキストファイルを含むテキストファイルまたはディレクトリからの音声を合成できます。

 python -m silero_tts [options]

オプション

--list-models ：利用可能なモデルをリストします
--list-speakers ：モデルの利用可能なスピーカーをリストします
--language LANGUAGE ：言語コードを指定する（必須）
--model MODEL ：モデルIDを指定します（デフォルト：言語の最新バージョン）
--speaker SPEAKER ：スピーカー名を指定します（デフォルト：モデルの最初の利用可能なスピーカー）
--sample-rate SAMPLE_RATE ：サンプルレートを指定します（デフォルト：48000）
--device DEVICE ：使用するデバイスを指定する（デフォルト：CPU）
--text TEXT ：合成するテキストを指定します
--input-file INPUT_FILE ：sintesizeする入力テキストファイルを指定します
--input-dir INPUT_DIR ：合成するテキストファイルを含む入力ディレクトリを指定します
--output-file OUTPUT_FILE ：出力オーディオファイルを指定する（デフォルト：output.wav）
--output-dir OUTPUT_DIR ：合成されたオーディオファイルの出力ディレクトリを指定します（デフォルト：出力）
--log-level INFO ：ログレベルを指定する、オフにすることができます。

例

テキストからのスピーチを統合します：

 python silero_tts.py --language ru --text "Привет, мир!"

テキストファイルからのスピーチを合成します：

 python silero_tts.py --language en --input-file input.txt --output-file output.wav

ディレクトリ内の複数のテキストファイルからのスピーチを合成します。
```
 python silero_tts.py --language es --input-dir texts --output-dir audio
```

Pythonライブラリとして

また、 SileroTTSクラスをインポートし、その方法を使用することにより、SileroTTSを独自のPythonプロジェクトに統合することもできます。

 from silero_tts . silero_tts import SileroTTS

# Get available models
models = SileroTTS . get_available_models ()
print ( "Available models:" , models )

# Get available languages
languages = SileroTTS . get_available_languages ()
print ( "Available languages:" , languages )

# Get the latest model for a specific language
latest_model = SileroTTS . get_latest_model ( 'ru' )
print ( "Latest model for Russian:" , latest_model )

# Get available sample rates for a specific model and language
sample_rates = SileroTTS . get_available_sample_rates_static ( 'ru' , latest_model )
print ( "Available sample rates for the latest Russian model:" , sample_rates )

# Initialize the TTS object
tts = SileroTTS ( model_id = 'v3_en' , language = 'en' , speaker = 'en_2' , sample_rate = 48000 , device = 'cpu' )

# Synthesize speech from text
text = "Hello world!"
tts . tts ( text , 'output.wav' )

# Synthesize speech from a text file
# tts.from_file('input.txt', 'output.wav')

# Get available speakers for the current model
speakers = tts . get_available_speakers ()
print ( "Available speakers for the current model:" , speakers )

# Change the language
tts . change_language ( 'en' )
print ( "Language changed to:" , tts . language )
print ( "New model ID:" , tts . model_id )
print ( "New available speakers:" , tts . get_available_speakers ())

# Change the model
tts . change_model ( 'v3_en' )
print ( "Model changed to:" , tts . model_id )
print ( "New available speakers:" , tts . get_available_speakers ())

# Change the speaker
tts . change_speaker ( 'en_0' )
print ( "Speaker changed to:" , tts . speaker )

# Change the sample rate
tts . change_sample_rate ( 24000 )
print ( "Sample rate changed to:" , tts . sample_rate )

CLI機能

Silero TTS CLIは、次の機能を提供します。

言語サポート： --languageフラグを使用して言語コードを指定して、目的の言語で音声を統合します。
モデルの選択： --modelフラグを使用して特定のモデルを選択するか、CLIが指定された言語の最新モデルを自動的に選択します。
スピーカーの選択： --speakerフラグを使用してスピーカーを選択するか、選択したモデルのデフォルトスピーカーを使用します。
サンプルレート： --sample-rateフラグを使用して、合成された音声のサンプルレートをカスタマイズします。
デバイス： --deviceフラグを使用して合成に使用するデバイス（CPUまたはGPU）を指定します。
テキスト入力： --textフラグを使用して直接合成するテキストを提供するか、 --input-fileフラグを使用して入力テキストファイルを指定します。
バッチ処理： --input-dirフラグを使用してディレクトリ内の複数のテキストファイルを処理します。
出力： --output-fileフラグまたは、 --output-dirフラグを使用してバッチ処理用の出力ディレクトリを使用して出力オーディオファイルを指定します。
モデルリスト： --list-modelsフラグを使用して、利用可能なすべてのモデルをリストします。
スピーカーリスト： --list-speakersフラグを使用して、特定のモデルの利用可能なすべてのスピーカーをリストします。