WeeaBlindダウンロードWeeaBlindソースコードのダウンロード

WeeaBlind

AI ソースコード

WeeaBlind 1.0 -

ダウンロード

weeablind

最新のAI音声合成、ダイアリゼーション、言語識別、音声クローニングを使用した多言語メディアとアニメをダブするプログラム。

目のためのオーディオ波形を持つ盲目のアニメの女の子。彼女は緑と紫の髪と居心地の良い緑のセーターと紫色のブレットを持っています。これは、weea-blindという言葉の上にあります。画像はDall-E AIによって生成されました

リリース1.0をダウンロードします

WindowsおよびLinux用の非AAベースのライブラリを使用して、基本的な吹き替え機能にアクセスできる最初のバイナリバージョンを試すことができます。これはプログラムを試すのに良い方法であり、システムの声で基本的な吹き替えを行うことができます。高度な機能を使用する場合は、セットアップチュートリアルで説明されているように、高度な機能を試す必要があります。

ライブデモとチュートリアル

私はこのビデオを作成して、ソフトウェアが現在できるすべての機能とすべてを使用する方法を披露しました

YouTubeソフトウェアに関するビデオへのリンク

なぜ

多くのショー、映画、ニュースセグメント、インタビュー、ビデオは、他の言語に適切なダブを受け取ることはありません。これは、失明、ディスレクシア、学習障害、または単に字幕を読むことを楽しんでいない人々に共通のアクセシビリティハードルを提示します。このプログラムは、これらの闘争に直面している人々のために快適な代替品を作成することを目的としています。

このソフトウェアは戦争の産物です。私の妹は私の今ではお気に入りのコメディのアニメ「Saiki Kの悲惨な生活」に私を振り返りました。しかし、Netflixは第2シーズンのダブを注文することはありませんでした。私は盲目で、字幕を読むことはできませんし、決して読むことができませんが、ストーリーがどのように進行するかを知っている必要があります！ Netflixは私の手を強要し、AI-Dubbed Animeを視覚障害者に連れて行きます！

どうやって

このプロジェクトは、一部の最先端のテクノロジーのいくつかの初歩的な平手打ちに依存しています。多数のオーディオ処理ライブラリとテクニックを使用して、ソースビデオファイルとのインラインを維持しようとする音声を分析および統合します。主に、オーディオおよびビデオ編集のためにFFMPEGとPydub、音声合成のためのコキTT、言語識別のための音声脳、およびスピーカーダイアリゼーションのためのpyannote.audioに依存しています。

ビデオのすべてのサブタイトルをダビングし、Sタルトとエンドタイムの設定、外国語のコンテンツのみを吹き飛ばす、またはスピーキングレートとボリュームマッチングを備えた本格的なマルチスピーカーダビングをオプションがあります。

いつ？

このプロジェクトは現在、一部のプロジェクトがアルファで呼ぶかもしれないものです。主要なコア機能が整っており、リポジトリをクローニングすることで使用することが可能ですが、最初のリリースの準備ができているだけです。私がそれを完了する前に行う必要がある多くの最適化、UX、およびリファクタリングがあります。定期的な更新にご期待ください。これが興味のあるものである場合は、貢献、テスト、または提案で自由に手を伸ばしてください。

名前

私は、ソフトウェアWeeablindをWeeabooのportmanteaux（Animeに夢中になっている人）と盲目のものと呼ぶという考えを持っていました。ソフトウェアは単なるアニメよりもはるかに多く使用できるため、Blinctaku、Dubhub、または似たようなキャッチーなもののような将来、私はそれを将来何か他のものに変更するかもしれません。

設定

現在、ダウンロードする事前に作成されたバイナリはありません。これは私が検討しているものですが、これらの依存関係の多くはpyinstallerのようなもので簡単に束ねることはできません

このプログラムはLinuxで最適ですが、Windowsでも実行されます。

システムの前提条件

システムにFFMPEGをインストールし、ターミナルまたはシステムパスから呼び出すことができることを確認する必要があります

Coqui TTSを使用するには、LinuxまたはWindowsでパッケージマネージャーから入手できるESPEAK-NGも必要です。

Windowsでは、PIPではMSVCビルドツールがコキを構築する必要があります。 https：//visualstudio.microsoft.com/visual-cpp-build-tools/

GPUを使用するようにシステムにCUDAを設定している場合、コキTTとPyannoteダイアリゼーションもより良いパフォーマンスを発揮します。これはLinux上の箱から出して動作するはずですが、Windowsでセットアップするには、ある程度のやりたいことがあります。このブログ投稿では、プロセスを説明する必要があります。動作させることができない場合は、心配しないでください。CPUで使用できます。

Pythonの最新バージョンはLinuxで動作しますが、Spleeterは3.10でのみ動作し、Pyannoteもそれで微妙になります。 3.10は、Windowsで最適に機能しているようです。 Microsoftストアから入手できます。

ソースからのセットアップ

プロジェクトを使用するには、リポジトリをクローンし、仮想環境に依存関係をインストールする必要があります。

 git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate

このプロジェクトには多くの依存関係があり、PIPは競合に苦労する可能性があるため、このようなロックファイルからインストールすることをお勧めします。

 pip install -r requirements-win-310.txt --no-deps

通常の要件ファイルから試すことはできますが、長い時間をかけることができ、時々再調整が必要です。

依存関係をインストールすると、ホット分がかかり、多くのスペース（〜8 GB）を使用できます。

たとえば、言語フィルタリングなどの特定の機能が必要ない場合は、READMEからSpeechBrainを省略できます。

これが完了したら、プログラムを実行できます

 python weeablind.py

使用法

まず、コンピューターからビデオを選択するか、YTビデオへのリンクを貼り付けてEnterを押すことから始めます。ビデオをダウンロードし、潜水艦と音声をロットする必要があります。

ビデオのロード

ビデオがロードされたら、吹き替えの字幕をプレビューできます。間違った言語がロードされている場合、または間違った音声ストリームが[ストリーム]タブに切り替えて、正しいものを選択します。

トリミング

たとえば、ショーのオープニングテーマとクレジットをスキップするなど、ビデオのセクションをダビングする必要がある場合は、開始時間と終了時間を指定できます。 2:17などのタイムコード構文を使用して、Enterを押します。

声の構成

デフォルトでは、「サンプル」音声を初期化する必要があります。「configure voices」タブで「サンプル音声」ボタンで吹き替える前に、さまざまな構成で遊んで音声をテストできます。満足しているパラメーターがある場合、「更新声」をクリックすると、そのスロットに再装備されます。システムTTSエンジンを選択すると、プログラムはデフォルトでWindowsのSAPI5ナレーターまたはLinux Espeak Voicesを使用します。これは非常に高速ですが、非常にロボットに聞こえます。 Coquiを選択すると、プレイするオプションがたくさんありますが、非常に重いTTSモデルをダウンロードするように求められます。 VCTK/VITSは、CPUでも非常に迅速であるため、私のお気に入りのモデルでダブするモデルであり、何百ものスピーカーから選択できます。デフォルトでロードされます。ダイアリゼーションを実行した場合は、ListBoxから異なる声を選択して、プロパティを変更することもできます。

言語フィルタリング

[字幕]タブで、字幕をフィルタリングして、選択した言語で話された行を除外して、外国語のみが吹き替えられるようにします。これは多言語ビデオに役立ちますが、すべての言語ではビデオではありません。

ダイアリゼーション

ダイアリゼーションを実行すると、正しいスピーカーをすべての字幕に割り当て、検出されたスピーカーの総数に対してランダムな声を生成しようとします。 Futreでは、事前に知っていれば、ダイアリゼーションパイプラインとスピーカーの数を指定できます。ダイアリゼーションは、複数のスピーカーを備えたビデオにのみ役立ち、精度は非常に非常に重要です。

背景分離

[Streams]タブでは、ソースビデオトラックからボーカルを削除しようとするが、背景を保持しようとするボーカルアイソレーションを実行できます。多言語のビデオと実行中の言語フィルタリングも使用している場合は、最初に英語（またはソース言語のボーカル）を維持するために実行する必要があります。

ダビング

気に入った方法を構成したら、大きくてジューシーな実行ダビングボタンを押すことができます。これには実行に時間がかかる場合があります。完了したら、 outputディレクトリに「myvideo-dubbed.mkv」のようなものが必要です。これはあなたの完成したビデオです！

やること

~~言語検出のためのより良いフィルタリングシステム。たぶん包括的で排他的または自信のしきい値~~
デモを公に表示するために、著作権で保護されていない多言語 /非英語のコンテンツを見つける
~~アングリカン化は、ユーザーが英語だけでなくターゲット言語を選択できるようにそれを~~
Pydubの愚かな配列の歪みを修正して、ダブごとに5つのIO操作を実行する必要はありません!!!
~~ソースオーディオでボーカルアイソレーション /リムーバーを実行して、元のスピーカーを削除 /軽減しますか？~~
~~すべてのプラットフォーム向けの適切なセットアップガイド~~
~~壊れたESPEAK実装を削除または修正して、クロスプラットフォームにします~~
~~スタートアップ時の重いモデル用の無知のシングルトン（例：必要に応じてPyannote/Speechnote/Speechbrainパイプラインのみ）~~
同じモデルを使用してメモリフットプリントを削減するコキの声のシングルトンの抽象化
~~GUIタブを使用してオーディオ /サブタイトルストリームをリストして選択しますw / ffmpeg~~
~~タブを自分のクラスに移動します~~
~~すべてのコントロールにラベルとスクリーンリーダーのランドマークを追加する~~
~~単一スピーカーまたはマルチスピーカーコントロールスイッチ~~
~~閉じたキャプション付きのYouTubeビデオをダウンロードしてください~~
~~dubbingの開始時間と終了時間を選択するGUI~~
私のウェブサイトにフラスコサーバーを投げて、最小限の機能で試すことができます。
~~OCRを使用して、サブストリームがないビデオの字幕を生成します~~
~~非テキストベースの字幕にはOCRを使用します~~
~~クールなロゴを作りますか？~~
~~リリースを行うためにPythonプログラムをバイナリとしてパッケージ化する方法を学ぶ~~
~~このリポジトリから著作権で保護されたコンテンツを削除します（申し訳ありませんがテレビ東京をごめんなさい）~~
~~すべてのサブタイトル形式のサポート~~
たぶん、字幕のないビデオのASRライブラリで平手打ちしますか？
たぶん、マグネットURLまたは海賊メディアへのarrlibのサポート（誰が知っていますか???）

ダイアリゼーション

リストボックスから選択した音声で字幕をフィルターします
複数のダイアリゼーションモデル /パイプラインから選択します
字幕タイミングに基づいて行の音声を分離することにより、DiarizaitonのオーディオTRAKCを最適化する
ディアートを調査しますか？

TTS

~~Speed Controlを作り直してPydubを使用してオーディオを高速化します。~~
~~スピーカーのボリュームをTTSに一致させます~~
小さなサブタイトルエントリと小さいエントリを削除するチェックボックス、例えば「nom」 "nom" "nom" "nom" ~~
~~音声変換を調査しますか？~~
実行する操作の非同期キューを構築します
~~コキモデルのダウンロード用の非同期GUI~~
Mycroft Mimic 3のサポートを追加します
Piperttsのサポートを追加します

クローニング

~~クローンモードを作成して字幕を選択し、それらをCOQUI XTTSのデータセットまたはWAVコンパイルにエクスポートします~~
日記と字幕を使用して、トレーニングデータセットを分離および構築する
データセットの手動作成を合理化するツールを構築する

（ああ、それは文字通り非常に多くのことです、これの範囲は非常に大きくなりました。

拡大する

追加情報

バージョン WeeaBlind 1.0 -
タイプ AI ソースコード
更新時間 2025-08-23
サイズ 997.61KB
から Github

WeeaBlind

weeablind

リリース1.0をダウンロードします

ライブデモとチュートリアル

なぜ

どうやって

いつ？

名前

設定

システムの前提条件

ソースからのセットアップ

使用法

ビデオのロード

トリミング

声の構成

言語フィルタリング

ダイアリゼーション

背景分離

ダビング

やること

ダイアリゼーション

TTS

クローニング

（ああ、それは文字通り非常に多くのことです、これの範囲は非常に大きくなりました。

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express