Bryan Agentsは、歌詞に基づいてミュージックビデオを生成するために設計された高度なマルチエージェントシステムです。このプロジェクトは歌詞を分析し、分析結果に基づいて詳細なプロンプトを作成してストーリーのような画像を生成し、最終的に画像からイメージのミュージックビデオを作成します。このシステムは、特にテキスト処理のGPT-4Oモデルと画像生成用のDALL-E 3モデルをレバレッジして、ビデオコンテンツの作成にエンドツーエンドのソリューションを提供します。
開始する前に、次の要件を満たしていることを確認してください。
ffmpegがインストールされ、システムのパスで利用可能ですffmpegのインストールffmpegをダウンロードしてください。binフォルダを追加します。Path変数を見つけて選択します。 「編集」をクリックします。ffmpegアーカイブのbinフォルダーへのパスを追加します。 [OK]をクリックして変更を適用します。 インストールしていない場合は、 Homebrewをインストールしてください。ターミナルを開いて実行します。
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) " Homebrewを使用してffmpegをインストールします。
brew install ffmpegDebianベースの分布(例えば、ubuntu)の場合、端末を開いて実行します。
sudo apt update
sudo apt install ffmpegRed Hatベースの分布(例:Fedora)の場合、ターミナルを開いて実行します。
sudo dnf install ffmpegリポジトリをクローンします:
git clone https://github.com/tanbryan/ai-mv-generator
cd bryan-agent仮想環境を作成してアクティブ化します(オプション):
python -m venv venv
source venv/bin/activate # On Windows use `venvScriptsactivate`必要な依存関係をインストールします。
pip install -r requirements.txtOpenai APIキーを設定します:
プロジェクトルートに.envファイルを作成し、OpenAI APIキーを追加します。
OPENAI_API_KEY = " your_openai_api_key_here " メインスクリプトを実行します:
歌詞ファイル(.lrc)と音楽ファイル(.mp3)が専用のディレクトリ内にあることを確認してください。 overy showsy両方のファイルが「songname-artistname.lrcまたは.mp3」の形式で名前が付けられていることを確認してください。メインスクリプトrunner.pyに移動し、両方のファイルに完全なパスを追加します。
python runner.pyエージェントの実行と結果保存:
各エージェントは、提供された歌詞ファイルで順次作業します:
実行中、 agent_status.jsonファイルがbase_agentディレクトリに作成されます。このファイルは、各エージェントのステータスを追跡します。いずれかのエージェントが完了した場合、そのステータスはtrueに設定されます。必要に応じて、特定のエージェントを再実行するために、常にステータスをfalseに設定できます。
生成されたプロンプトを確認してください:
プロンプトを生成した後、スクリプトは一時停止します。歌詞ディレクトリ内の生成されたJSONファイルでそれらを確認します。レビューしたら、Enterを押して続行します。
画像とビデオ生成を完了します:
プロンプトに従って、画像とビデオ生成プロセスを完了します。
testディレクトリには、実行後、Taylor Swiftの歌詞ファイルによる「ラブストーリー」に基づいてサンプル出力があります。
LoveStory-TaylorSwift.mp4 :最終生成されたビデオのプレビュー。background.mp4 :事前に生成されたバックグラウンドビデオをきれいにします。generated_prompts.json :画像用に生成された詳細なプロンプトを含むJSONファイル。logo.png :ミュージックビデオ用の生成されたロゴ。results.json :各エージェントの結果を含むJSONファイル。background_images/ :プロンプトに基づいて生成された背景画像を含むフォルダー。これらのサンプルは、システムに期待できる出力の例を提供します。
このプロジェクトは、MITライセンスの下でライセンスされています。詳細については、ライセンスファイルを参照してください。