最新のAI音声合成、ダイアリゼーション、言語識別、音声クローニングを使用した多言語メディアとアニメをダブするプログラム。

WindowsおよびLinux用の非AAベースのライブラリを使用して、基本的な吹き替え機能にアクセスできる最初のバイナリバージョンを試すことができます。これはプログラムを試すのに良い方法であり、システムの声で基本的な吹き替えを行うことができます。高度な機能を使用する場合は、セットアップチュートリアルで説明されているように、高度な機能を試す必要があります。
私はこのビデオを作成して、ソフトウェアが現在できるすべての機能とすべてを使用する方法を披露しました

多くのショー、映画、ニュースセグメント、インタビュー、ビデオは、他の言語に適切なダブを受け取ることはありません。これは、失明、ディスレクシア、学習障害、または単に字幕を読むことを楽しんでいない人々に共通のアクセシビリティハードルを提示します。このプログラムは、これらの闘争に直面している人々のために快適な代替品を作成することを目的としています。
このソフトウェアは戦争の産物です。私の妹は私の今ではお気に入りのコメディのアニメ「Saiki Kの悲惨な生活」に私を振り返りました。しかし、Netflixは第2シーズンのダブを注文することはありませんでした。私は盲目で、字幕を読むことはできませんし、決して読むことができませんが、ストーリーがどのように進行するかを知っている必要があります! Netflixは私の手を強要し、AI-Dubbed Animeを視覚障害者に連れて行きます!
このプロジェクトは、一部の最先端のテクノロジーのいくつかの初歩的な平手打ちに依存しています。多数のオーディオ処理ライブラリとテクニックを使用して、ソースビデオファイルとのインラインを維持しようとする音声を分析および統合します。主に、オーディオおよびビデオ編集のためにFFMPEGとPydub、音声合成のためのコキTT、言語識別のための音声脳、およびスピーカーダイアリゼーションのためのpyannote.audioに依存しています。
ビデオのすべてのサブタイトルをダビングし、Sタルトとエンドタイムの設定、外国語のコンテンツのみを吹き飛ばす、またはスピーキングレートとボリュームマッチングを備えた本格的なマルチスピーカーダビングをオプションがあります。
このプロジェクトは現在、一部のプロジェクトがアルファで呼ぶかもしれないものです。主要なコア機能が整っており、リポジトリをクローニングすることで使用することが可能ですが、最初のリリースの準備ができているだけです。私がそれを完了する前に行う必要がある多くの最適化、UX、およびリファクタリングがあります。定期的な更新にご期待ください。これが興味のあるものである場合は、貢献、テスト、または提案で自由に手を伸ばしてください。
私は、ソフトウェアWeeablindをWeeabooのportmanteaux(Animeに夢中になっている人)と盲目のものと呼ぶという考えを持っていました。ソフトウェアは単なるアニメよりもはるかに多く使用できるため、Blinctaku、Dubhub、または似たようなキャッチーなもののような将来、私はそれを将来何か他のものに変更するかもしれません。
現在、ダウンロードする事前に作成されたバイナリはありません。これは私が検討しているものですが、これらの依存関係の多くはpyinstallerのようなもので簡単に束ねることはできません
このプログラムはLinuxで最適ですが、Windowsでも実行されます。
システムにFFMPEGをインストールし、ターミナルまたはシステムパスから呼び出すことができることを確認する必要があります
Coqui TTSを使用するには、LinuxまたはWindowsでパッケージマネージャーから入手できるESPEAK-NGも必要です。
Windowsでは、PIPではMSVCビルドツールがコキを構築する必要があります。 https://visualstudio.microsoft.com/visual-cpp-build-tools/
GPUを使用するようにシステムにCUDAを設定している場合、コキTTとPyannoteダイアリゼーションもより良いパフォーマンスを発揮します。これはLinux上の箱から出して動作するはずですが、Windowsでセットアップするには、ある程度のやりたいことがあります。このブログ投稿では、プロセスを説明する必要があります。動作させることができない場合は、心配しないでください。CPUで使用できます。
Pythonの最新バージョンはLinuxで動作しますが、Spleeterは3.10でのみ動作し、Pyannoteもそれで微妙になります。 3.10は、Windowsで最適に機能しているようです。 Microsoftストアから入手できます。
プロジェクトを使用するには、リポジトリをクローンし、仮想環境に依存関係をインストールする必要があります。
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
このプロジェクトには多くの依存関係があり、PIPは競合に苦労する可能性があるため、このようなロックファイルからインストールすることをお勧めします。
pip install -r requirements-win-310.txt --no-deps
通常の要件ファイルから試すことはできますが、長い時間をかけることができ、時々再調整が必要です。
依存関係をインストールすると、ホット分がかかり、多くのスペース(〜8 GB)を使用できます。
たとえば、言語フィルタリングなどの特定の機能が必要ない場合は、READMEからSpeechBrainを省略できます。
これが完了したら、プログラムを実行できます
python weeablind.py
まず、コンピューターからビデオを選択するか、YTビデオへのリンクを貼り付けてEnterを押すことから始めます。ビデオをダウンロードし、潜水艦と音声をロットする必要があります。
ビデオがロードされたら、吹き替えの字幕をプレビューできます。間違った言語がロードされている場合、または間違った音声ストリームが[ストリーム]タブに切り替えて、正しいものを選択します。
たとえば、ショーのオープニングテーマとクレジットをスキップするなど、ビデオのセクションをダビングする必要がある場合は、開始時間と終了時間を指定できます。 2:17などのタイムコード構文を使用して、Enterを押します。
デフォルトでは、「サンプル」音声を初期化する必要があります。 「configure voices」タブで「サンプル音声」ボタンで吹き替える前に、さまざまな構成で遊んで音声をテストできます。満足しているパラメーターがある場合、「更新声」をクリックすると、そのスロットに再装備されます。システムTTSエンジンを選択すると、プログラムはデフォルトでWindowsのSAPI5ナレーターまたはLinux Espeak Voicesを使用します。これは非常に高速ですが、非常にロボットに聞こえます。 Coquiを選択すると、プレイするオプションがたくさんありますが、非常に重いTTSモデルをダウンロードするように求められます。 VCTK/VITSは、CPUでも非常に迅速であるため、私のお気に入りのモデルでダブするモデルであり、何百ものスピーカーから選択できます。デフォルトでロードされます。ダイアリゼーションを実行した場合は、ListBoxから異なる声を選択して、プロパティを変更することもできます。
[字幕]タブで、字幕をフィルタリングして、選択した言語で話された行を除外して、外国語のみが吹き替えられるようにします。これは多言語ビデオに役立ちますが、すべての言語ではビデオではありません。
ダイアリゼーションを実行すると、正しいスピーカーをすべての字幕に割り当て、検出されたスピーカーの総数に対してランダムな声を生成しようとします。 Futreでは、事前に知っていれば、ダイアリゼーションパイプラインとスピーカーの数を指定できます。ダイアリゼーションは、複数のスピーカーを備えたビデオにのみ役立ち、精度は非常に非常に重要です。
[Streams]タブでは、ソースビデオトラックからボーカルを削除しようとするが、背景を保持しようとするボーカルアイソレーションを実行できます。多言語のビデオと実行中の言語フィルタリングも使用している場合は、最初に英語(またはソース言語のボーカル)を維持するために実行する必要があります。
気に入った方法を構成したら、大きくてジューシーな実行ダビングボタンを押すことができます。これには実行に時間がかかる場合があります。完了したら、 outputディレクトリに「myvideo-dubbed.mkv」のようなものが必要です。これはあなたの完成したビデオです!