Bryan Agents es un sistema avanzado de múltiples agentes diseñado para generar videos musicales basados en letras. Este proyecto analiza las letras y crea indicaciones detalladas basadas en los resultados del análisis para generar imágenes similares a una historia, produciendo en última instancia un video musical de imagen a imagen. El sistema aprovecha la API de OpenAI, específicamente el modelo GPT-4O para el procesamiento de texto y el modelo Dall-E 3 para la generación de imágenes, para proporcionar una solución de extremo a extremo para la creación de contenido de video.
Antes de comenzar, asegúrese de haber cumplido los siguientes requisitos:
ffmpeg instalado y disponible en la ruta de su sistemaffmpeg ffmpeg desde el sitio web oficial.bin a la ruta de su sistema:Path en la sección "Variables del sistema" y seleccione. Haga clic en "Editar".bin del archivo ffmpeg extraído. Haga clic en "Aceptar" para aplicar los cambios. Instale Homebrew si no lo tiene instalado. Abra la terminal y ejecute:
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) " Use Homebrew para instalar ffmpeg :
brew install ffmpegPara las distribuciones basadas en Debian (por ejemplo, Ubuntu), abra el terminal y ejecute:
sudo apt update
sudo apt install ffmpegPara las distribuciones basadas en Red Hat (por ejemplo, Fedora), abra el terminal y ejecute:
sudo dnf install ffmpegClon el repositorio:
git clone https://github.com/tanbryan/ai-mv-generator
cd bryan-agentCrear y activar un entorno virtual (opcional):
python -m venv venv
source venv/bin/activate # On Windows use `venvScriptsactivate`Instale las dependencias requeridas:
pip install -r requirements.txtConfigure su tecla API de OpenAI:
Cree un archivo .env en la raíz del proyecto y agregue su tecla API de OpenAI:
OPENAI_API_KEY = " your_openai_api_key_here " Ejecute el guión principal:
Asegúrese de que el archivo de letras (.lrc) y el archivo de música (.mp3) se encuentren dentro de un directorio dedicado. ❗️ por favor asegúrese de que ambos archivos se nombren en el formato de 'Songname-ArtistName.lrc o .mp3' Van al script principal runner.py y agregue sus rutas completas a ambos archivos: luego ejecute:
python runner.pyEjecución del agente y ahorro de resultados:
Cada agente funcionará secuencialmente en el archivo de letras proporcionado:
Durante la ejecución, se creará un archivo agent_status.json en el directorio base_agent. Este archivo realiza un seguimiento del estado de cada agente. Si algún agente se completa, su estado se establecerá en true . Siempre puede establecer el estado en false para volver a ejecutar un agente específico si es necesario.
Revise las indicaciones generadas:
El script se detendrá después de generar las indicaciones. Revisarlos en el archivo JSON generado dentro del directorio de letras. Una vez revisado, presione Entrar para continuar.
Complete la generación de la imagen y el video:
Siga las indicaciones para completar el proceso de generación de imágenes y videos.
En el directorio test , después de ejecutarse, encontrará salidas de muestra basadas en la "historia de amor" de Taylor Swift Letrics File:
LoveStory-TaylorSwift.mp4 : La vista previa del video final generado.background.mp4 : video de fondo precenerado limpio.generated_prompts.json : el archivo JSON que contiene las indicaciones detalladas generadas para las imágenes.logo.png : el logotipo generado para el video musical.results.json : el archivo JSON que contiene los resultados de cada agente.background_images/ : una carpeta que contiene las imágenes de fondo generadas en función de las indicaciones.Estas muestras proporcionan un ejemplo de la salida que puede esperar del sistema.
Este proyecto tiene licencia bajo la licencia MIT. Consulte el archivo de licencia para obtener más detalles.