Pollyduble
1.0.0
音声クローニングと音声認識による自動吹き替え
OpenVoice、Melotts、Faster Whisper、VoiceFixer、Python-Audio-Separator、FFMPEGのおかげで可能になりました。

PRは大歓迎です。これは主に概念の証明です。改善のためのいくつかの良いアイデアは次のとおりです。
システムにFFMPEG、FFProbe、FFPlayをインストールし、パスにあることを確認してください。ここからダウンロードできます。
新しいディレクトリを作成し、このリポジトリをクローンします。
git clone https://github.com/igerman00/Pollyduble
cd Pollydubleconda create -n dubbing python=3.9conda activate dubbinggit clone https://github.com/myshell-ai/OpenVoiceOpenVoiceリポジトリがこのリポジトリと同じディレクトリにあることを確認してください。「OpenVoice」と呼ばれる必要があります。
cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic downloadtorchをインストールします(GPUサポートなしでインデックス-URLパラメーターはオプションである必要があります): pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txtdemo.pyスクリプトと同じディレクトリにあると仮定し、 video.mp4という名前です。python demo.py -i video.mp4 -s -m出力は、デフォルトでPollyduble/outputディレクトリに保存されます。吹き替えビデオ、分離されたオーディオ、吹き替えのオーディオ、音声サンプルなど、さまざまなファイルが含まれます。主に、ワンクリックする必要があります。
オプションは次のとおりです。
-iまたは--input入力入力ビデオファイルを指定します-oまたは--output出力ディレクトリを指定する(デフォルトはPollyduble/output)-vまたは--voice音声クローンのカスタムサンプルを指定します。指定されていない場合、ビデオの最初の15秒から作成されます-sまたは--separateオーディオ分離、つまり、ビデオからのバックグラウンドミュージックとスピーチを個別に抽出すること-mまたは--mux、吹き替えのスピーチで分離されたオーディオをビデオに戻すことを有効にする-fまたは--fix音声修正を有効にするため、つまり吹き替えのスピーチの品質を向上させます。
^実験的で、実際にはほとんどの場合それほど良く聞こえません。--helpヘルプメッセージを表示するためにヘルプ
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。