PollydubleダウンロードPollydubleソースコードのダウンロード

Pollyduble

AI ソースコード

1.0.0

ダウンロード

Pollyduble

音声クローニングと音声認識による自動吹き替え
OpenVoice、Melotts、Faster Whisper、VoiceFixer、Python-Audio-Separator、FFMPEGのおかげで可能になりました。

オタドポールのポリー

これは、当初のあらゆる言語のささやきサポートに記録されていたビデオファイルを自動的に吹き飛ばすことを目的とするスクリプトの非常に実験的なプロトタイプです。理論的には、いくつかの変更と異なるOpenVoiceモデルにより、OpenVoiceによってサポートされている言語をサポートする必要がありますが、翻訳はささやき以外のものによって処理する必要があります

特徴

音声クローニングとローカルテキストからスピーチの合成
自動音声認識
オーディオ分離
元の音声に対する吹き替え線の自動同期
オプションの音声修正音声クローンプロセス中に失われたいくつかの高周波数を取り戻す
吹き替えのオーディオと抽出されたインストルメンタルトラックをビデオに戻す

PRは大歓迎です。これは主に概念の証明です。改善のためのいくつかの良いアイデアは次のとおりです。

スピーカーダイアリゼーション異なる文字のスピーチを分離し、正しい吹き替えの行を正しい文字に自動的に割り当てる
自動音声認識に頼る代わりにカスタム字幕をロードする機能
翻訳ニューラルネットワーク（ローカルが非常に好まれています）またはAPIは、ささやきの見掛け倒し翻訳に依存しないため

前提条件

Python 3.9
ffmpeg、ffprobe、ffplayはシステムとパスにインストールされています
Windows（Windowsでのみテスト）
CUDAサポートを備えた最新のNvidiaGPUがおそらく必要です
ミニコンダまたはアナコンダ（オプションですが、推奨）

インストール

システムにFFMPEG、FFProbe、FFPlayをインストールし、パスにあることを確認してください。ここからダウンロードできます。
新しいディレクトリを作成し、このリポジトリをクローンします。

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

新しいコンドラ環境を作成します：

conda create -n dubbing python=3.9

コンドラ環境をアクティブにします：

conda activate dubbing

OpenVoiceリポジトリをクローンします

git clone https://github.com/myshell-ai/OpenVoice

OpenVoiceリポジトリがこのリポジトリと同じディレクトリにあることを確認してください。「OpenVoice」と呼ばれる必要があります。

OpenVoiceをインストール：

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

GPUサポートを使用してtorchをインストールします（GPUサポートなしでインデックス-URLパラメーターはオプションである必要があります）：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

他の依存関係をインストールします：

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

使用法

ビデオファイルを取得してコンピューターのどこにでも配置します。この例では、 demo.pyスクリプトと同じディレクトリにあると仮定し、 video.mp4という名前です。
スクリプトを実行します：

python demo.py -i video.mp4 -s -m

出力は、デフォルトでPollyduble/outputディレクトリに保存されます。吹き替えビデオ、分離されたオーディオ、吹き替えのオーディオ、音声サンプルなど、さまざまなファイルが含まれます。主に、ワンクリックする必要があります。

オプションは次のとおりです。
-iまたは--input入力入力ビデオファイルを指定します
-oまたは--output出力ディレクトリを指定する（デフォルトはPollyduble/output ）
-vまたは--voice音声クローンのカスタムサンプルを指定します。指定されていない場合、ビデオの最初の15秒から作成されます
-sまたは--separateオーディオ分離、つまり、ビデオからのバックグラウンドミュージックとスピーチを個別に抽出すること
-mまたは--mux 、吹き替えのスピーチで分離されたオーディオをビデオに戻すことを有効にする
-fまたは--fix音声修正を有効にするため、つまり吹き替えのスピーチの品質を向上させます。
^実験的で、実際にはほとんどの場合それほど良く聞こえません。
--helpヘルプメッセージを表示するためにヘルプ