音声クローニングツール
1。TTS音声クローニングドキュメント
説明
このスクリプトは、XTTS V2.0.2とTortoiseの2つの異なるモデルを備えたTTS(テキストからスピーチ)ライブラリを使用して、テキストからスピーチの合成を実行します。スクリプトには、mp3ファイルをセグメント化されたWAVファイルに変換するためのユーティリティ関数も含まれています。
前提条件
スクリプトを実行する前に、次のコマンドを使用してTTSライブラリがインストールされていることを確認してください。
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
実行
python tortoise_TTS_local_best.py
タスク
XTTS V2.0.2合成:
- Coqui TTSライブラリのXTTS V2.0.2モデルを利用します。
- 指定された入力テキストを使用して、テキストからスピーチの合成を実行します。
- センテンスの分割の有無にかかわらず、合成されたオーディオをWAVファイルに保存します。
Mp3からWAV変換
- Pydubライブラリを使用せずに、入力mp3ファイルをセグメント化されたWAVファイルに変換します。
- オーディオを10秒間隔にセグメント化し、個々のWAVファイル(カメに必要な)として保存します。
カメモデルの合成説明:
- 高品質の合成のために、Coqui TTSライブラリのカメモデルを利用します。
- 事前に訓練されたカメモデルをロードし、入力テキストに基づいて音声を合成します。
- 合成されたオーディオをWAVファイルとして保存します。
追加情報
XTTS V2.0.2は、その速度と妥当な品質について提案されています。カメは最高の品質を提供しますが、推論時間が長くなります。
メモ
- 依存関係がインストールされ、それに応じてファイルパスが調整されていることを確認してください。
- コメントのURLは、モデルと構成に関するより多くの情報を提供します。
- 特定の要件に基づいてスクリプトを自由に変更し、実行を成功させるためにパスと依存関係を提出するために必要な調整が行われるようにしてください。
2。TTSモデルアナライザードキュメント
説明
このスクリプトは、TTSライブラリで利用可能なテキストからスピーチ(TTS)モデルを分析し、特に言語サポートとボコーダー機能に焦点を当てています。次のことに基づいてモデルを分類します
- 多言語対英語のみ:モデルが複数の言語をサポートするのか、英語のみをサポートしているのか。
- カスタム対デフォルトの英語ボコーダー:モデルに、音声クローニングを可能にするカスタム英語ボコーダーまたはないデフォルトのボコーダーがあるかどうか。
また、スクリプトは、エラーのあるモデルの数と、特定の理由(例:既知のエラーコーティングモデル)のために無視されるモデルの数を追跡します。
コードの内訳
前提条件
スクリプトを実行する前に、次のコマンドを使用してTTSライブラリがインストールされていることを確認してください。
実行
python TTS_download_and_test_all_models.py
出力
スクリプトは、英語のボコーダーを備えた多言語モデル、カスタムボコーダー付きの英語モデル、デフォルトの英語ボコーダーを備えたマルチ言語モデル、およびデフォルトの英語ボコーダーを備えた英語モデルに関する情報を生成します。さらに、英語以外の言語、エラーを備えたモデル、および無視すべきモデルをサポートするモデルを識別します。
スクリプトの説明
スクリプトは次のタスクを実行します。
必要なライブラリ(TTS、時間、OS)を輸入します。
スクリプト実行時間を測定するためのタイマーを設定します。
音声合成のサンプルテキストを定義します。
さまざまなモデルカテゴリのカウンターとリストを初期化します。
利用可能なすべてのTTSモデルを繰り返します。
各モデルをダウンロードしてロードして、異なるテキストからスピーチタスクを実行し、言語サポートとボコーダータイプに基づいてそれらを分類します。
各カテゴリのモデルの数と名前を含む結果と、プロセス中に遭遇したエラーを印刷します。
チェックされたモデルの総数とスクリプト実行時間を表示します。
モデルの正しいカウントを確保するために、アサーションチェックを実行します。
マルチスピーカーと多言語モデルを使用して、テキスト対スピーチにTTSを使用する例を提供します。
メモ
エラーやその他の理由(コードで指定)により、一部のモデルは無視される場合があります。このスクリプトには、特定のモデルを使用して、Colabのギリシャ語のテキストからスピーチの例も含まれています。
追加情報
- TTSライブラリ:https://github.com/mozilla/tts
- TTSドキュメント:https://tts.readthedocs.io/
特定のユースケースに必要に応じて、スクリプトを自由に変更するか、TTSモデル分析のためにプロジェクトに統合してください。
3。公式カメリポジトリを使用した音声クローン
概要
このスクリプトは、入力テキストから音声を生成するためのカメTTS(テキストからスピーチ)システムの使用法を示しています。スクリプトは、カメTTSライブラリを利用し、インストールの指示を提供します。生成された音声は、WAVファイルとして保存されます。
インストール
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
使用法
- 音声変数のパスを、目的のスピーカーの音声サンプルに置き換えます。
- オプションで、テキスト変数を変更して、目的の入力テキストを指定します。
-
python tortoise_API.pyでスクリプトを実行して、カメTTSを実行し、生成された音声をWAVファイルとして保存します。
タスクデクリットピオン
必要なライブラリをインポートします:
- Torchaudio、Tortoise.api、Tortoise.utils、OSなどの輸入が必要です。
カメTTSを初期化します:
- Tortoise.api.TextTospeechを使用して、TTTSを初期化します。
- オプションでは、ディープスピードがより速いパフォーマンスを実現します(実際には遅くなる可能性があるため、コメントアウトされます)。
入力テキストを指定します:
プリセットと音声を選択してください:
- 出力の品質を決定するためのプリセットモードを選択します( "ultra_fast"、 "fast"、 "standard"、または "high_quality")。
- スピーカーの音声サンプルへのパスを提供することにより、特定の音声を選択します。
ロードリファレンスクリップ:
- 選択した音声パスから参照オーディオクリップをロードします。
カメでTTを実行する:
- カメTTSを利用して、入力テキストから音声を生成します。
- 生成された音声をWAV形式で保存します。
追加情報
- スクリプトは、ハギングフェイス(HF)モデルハブから必要なモデルをダウンロードします。
- 好みに応じて、プリセットや音声などのパラメーターを調整します。
- 生成されたオーディオは、指定されたディレクトリに「generated_hq_faceswap.wav」として保存されます。
4。OPUSからMP3変換(WhatsApp録音からのクローニング用)
概要
このスクリプトは、OPUSオーディオファイルのMP3形式への変換を容易にします。 OPUSファイルを読み取り、MP3に変換し、複数のMP3ファイルを単一のファイルに結合する関数が含まれています。スクリプトは、ユーザーが入力フォルダーと出力フォルダーを指定できるようにすることにより、柔軟性を提供します。
パラメーター
opus_folder: OPUSファイルを含むフォルダーへのパス。
mp3_output_folder:個々のmp3ファイルを保存するパス。
combined_output_folder:結合されたmp3ファイルを保存するパス。
スクリプトは、存在しない場合は出力フォルダーを作成します。
前提条件
タスク
- Opusファイルを読む:
- SoundFileライブラリを使用してOpusファイルを読み取ります。
- Numpy配列とサンプルレートを返します。
- Opusをmp3に変換します
- read_opus関数を使用して、Opusファイルを読み取ります。
- 同じサンプルレートを使用して、OPUSをMP3に変換します。
- MP3ファイルを指定された出力フォルダーに保存します。
- Opusファイルを変換します
- フォルダー内のOPUSファイルを繰り返し、各MP3に変換します。
- 保存されたmp3ファイル名のリストを返します。
- MP3ファイルを結合します
- 個々のMP3ファイルを1つに組み合わせます。
- 結合されたmp3ファイルを指定された出力フォルダーに保存します。
5.樹皮Googleコラブ(あまり良くない)
概要
このJupyterノートブックは、Bark Voiceクローンシステムを使用して音声をクローニングするプロセスを示しています。グーグルドライブの取り付けには、クローニング用のオーディオサンプルにアクセスし、必要なライブラリのインストール、モデルの読み込み、セマンティックトークンの生成、最後にこれらのトークンを使用して音声クローンを使用します。
タスク
マウントグーグルドライブ:
- Googleドライブをマウントして、音声サンプルを含むフォルダーにアクセスしてクローンにアクセスします。
パラメーターの設定:
- オーディオファイルへのパス、音声の名前、クローン化された音声プロンプトを保存するための出力パスなどのパラメーターを定義します。
ライブラリのインストールとインポート:
- 必要なライブラリ、Pytorch、Numpyなどをインストールして輸入します。
音声クローンで樹皮を取り付けます:
- 提供されたGitHubリポジトリからの音声クローンライブラリ付きの樹皮を取り付けます。
モデルをロードしてヒューバートを初期化します:
- 必要なモデルをロードし、セマンティックトークン抽出のためにヒューバートマネージャーを初期化します。
オーディオの読み込みと処理:
- オーディオファイルを読み込み、さらに処理するために変換します。
- Hubertモデルを使用して、セマンティックベクターとトークンを抽出します。
エンコードと保存プロンプト:
- Encodecを使用してオーディオフレームをエンコードします。
- numpyアレイとして、細かく、粗い、セマンティックプロンプトを保存します。
樹皮を使用してオーディオを生成します:
- テキスト、粗い、細かい世代、コーデックの樹皮モデルをプリロードします。
- テキストプロンプト、セマンティックプロンプト、履歴プロンプトを使用してオーディオを生成します。
生成されたオーディオを再生して保存します:
- IPythonのオーディオを使用して、生成されたオーディオを再生します。
- オプションで、生成されたオーディオをWAVファイルとして保存します。
合計ランタイム:
- スクリプトを実行するのにかかった合計時間を表示します。
スクリプトの使用
- 目的の音声サンプルフォルダーにアクセスしてGoogleドライブが取り付けられていることを確認してください。
- セットアップに応じて、
audio_filepath 、 voice_name 、 output_pathなどのパラメーターを変更します。 - スクリプトを実行して、音声をクローンし、オーディオを生成し、オプションで出力を保存します。
追加情報
- スクリプトは、提供されたGitHubリポジトリの音声クローンライブラリを備えた樹皮をインストールして使用します。
- 音声クローンプロジェクトに必要に応じて、パス、パラメーター、およびプロンプトを調整します。
- 生成されたオーディオは、直接再生することも、WAVファイルとして保存することもできます。
- 必要な依存関係がインストールされ、適切に構成されていることを確認してください。
6。APIを呼び出すCoqui TTS(もう存在しません - 使用できません)
概要
このスクリプトは、Coqui TTS APIを使用して音声をクローニングするプロセスを紹介します。必要なライブラリをインポートし、API呼び出しを行い、オーディオファイルから音声をクローン化し、クローン音声を使用してテキストからスピーチを生成します。
タスク
インポートライブラリ:
- API呼び出しを行うための
requestsを含む、輸入が必要です。
パラメーターの設定:
- 入力オーディオファイルへのパス、新しいオーディオファイルを保存するパス、読み取るテキストなどのパラメーターを設定します。
音声クローニングのためにコキTTS APIに電話してください:
- Coqui TTS APIを呼び出して、提供されたオーディオファイルから音声をクローンします。
- クローン音の音声IDを抽出して、後続のテキストからスピーチに向けて抽出します。
テキストからスピーチのためにCoquiTTS APIに電話してください:
- Coqui TTS APIを呼び出して、指定されたテキストをクローン音声を使用して音声に変換します。
- 生成された音声のオーディオURLを取得します。
オーディオをダウンロードして保存します:
- 提供されたURLから生成されたオーディオファイルをダウンロードします。
- オーディオファイルを指定されたパスに保存します。
スクリプトの使用
- 入力オーディオファイル(
path_audio )へのパス、新しいオーディオファイル( save_path )を保存するパス、および読み取るテキスト( text_to_read )を提供します。 - Coqui TTS Webサイトから必要なAPIキーを取得し、
headersのプレースホルダーを実際のキーに置き換えます。 - スクリプトを実行して、音声をクローンし、テキストからスピーチを生成します。
追加情報
- スクリプトは、音声クローンとテキストからスピーチにコキTTS APIを使用しています。
- パラメーターを調整し、特定のユースケースに合わせてAPIキーを置き換えます。
- Coqui TTS API使用ポリシーに準拠していることを確認してください。
- ダウンロードされたオーディオファイルは、
save_pathで指定されているようにローカルに保存されます。