元の音声で別の言語で音声と出力スピーチをクローンします。
Python 3.7をお勧めします。 Tensorflowのバージョンがこのプロジェクトで使用されているため、Python 3.7が必要です。
python3 -m venv pyvenv
仮想環境のアクティブ化: ./pyvenv/Scripts/activate /activate macos/linux: source pyvenv/bin/activate
仮想環境の非アクティブ: deactivate
注:Python仮想環境は、UIを実行するときに問題を引き起こす可能性があります。
インストールしたら、フォルダーを抽出し、 <ffmpeg folder path>/binパスに追加します。
pip3 install -r requirements.txt
ダウンロードしたら、モデル(*.pt)をCogNative/CogNative/models/RTVC/saved_models/defaultに追加します
TACO_PRETREANEDEDフォルダー(フォルダー自体を含む)をダウンロードして、 CogNative/CogNative/models/RTVCSwedish/synthesizer/saved_models/swedishに追加する必要があります
credentials.jsonにGoogle資格情報を追加します。現在、 credentials.json.templateという名前のファイルがあります。JSON.TEMPLATE、あなたのcredentials.json 、そこに示されているキー/値のペアと一致する必要があります。 認知ルートディレクトリから始めます。
GUIを起動するには、 python -m CogNative.testUI.UIを実行します
指定されていない必要なフラグは、継続する前に回答する必要があるプロンプトを生成します。例が続きます。
python -m CogNative.main -help CogNative CLI FLags:
-sampleAudio <PATH>: audio file of voice to clone
-synType <text, audio>: synthesis mode either given input text or by transcribing audio file
[-dialogueAudio] <PATH>: for audio synType, audio file of dialogue to speak
[-dialogueText] <PATH>: for text synType, text string of dialogue to speak
-out <PATH>: output audio file path
-useExistingEmbed <y/yes/n/no>: Uses saved embedding of previously used voice samples if enabled and present.
python -m CogNative.main -sampleAudio CogNative/examples/MatthewM66.wav -synType text -dialogueText "The turbo-encabulator has now reached a high level of development, and it's being successfully used in the operation of novertrunnions." -out cmdExampleText.wav -useExistingEmbed y Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Synthesizing...
Clone output to cmdExampleText.wav
python -m CogNative.main -sampleAudio CogNativeexamplesMatthewM66.wav -synType audio -dialogueAudio CogNativeexamplesBillMaher22.wav -out cmdExampleAudio.wav -useExistingEmbed n Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Loading requested file...
Synthesizing...
Clone output to cmdExampleAudio.wav
このスクリプトは、サポートされている言語から英語にオーディオを翻訳します。 WindowsでAutoTranslateスクリプトを使用するには、オーディオファイルをスクリプトにドラッグしてドロップするか、 %AppData%MicrosoftWindowsSendToのスクリプトにショートカットを配置し、翻訳するオーディオファイルの「コンテキストに送信」メニュー関数を使用します。どちらの場合も、Orginal Filenameを備えた新しい.WAVファイルに続いて「_ +宛先言語」が同じフォルダーに配置されます。他のプラットフォームの場合、同じCLIフラグを使用する必要がありますが、コンテキストメニューの統合の詳細は、どのパッケージがインストールされているかによって異なります。
git branch yourname-feature-nameを作成しますこのスタイルガイドは、プロジェクト全体ですべてのスタイルが一致するようにするために重要です。コードをスタイリングするには、黒いPython Stylerを使用してください。
単一ファイル: black <python-file-name>すべてのファイル: black .
このGitHubリポジトリは、音声クローニングモジュールの基礎として機能します。
リアルタイムボイスクローニング
こちらのライセンスを参照してください。
このGitHubリポジトリは、スウェーデンのシンセサイザーを訓練しました。
リアルタイムボイスクローニングスウェーデン語