Descargar ai_trailer - Descargar el código fuente ai

ai_trailer

Otro código fuente

1.0.0

Descargar

Generación automática de remolques utilizando AI

He escrito un par de publicaciones de blog relacionadas con este proyecto, asegúrese de consultarlas.

La creación de trailers de películas con IA describe el proyecto en más detalles
El uso de Gemini 1.5 Pro para crear trailers de video explora el uso de capacidades de video Gemini 1.5 Pro en este mismo proyecto

También adapté este proyecto para la competencia "Google - Gemini Long Context" Kaggle, si quieres echar un vistazo al contenido, consulte los enlaces a continuación

Video de tutorial resumido
Video de tutorial completo
Cuaderno de kaggle
Cuaderno de Google Colab

La idea de este repositorio es generar automáticamente una serie de candidatos para un video determinado, el usuario solo necesita proporcionar el archivo de video y un par de parámetros de texto, y todo lo demás se cuida.

¿Cómo funciona?

Primero, opcionalmente tomamos la trama del video en IMDB y la dividimos en subtramas, en lugar de tomar desde IMDB, también podría proporcionar su propia trama o modificarla, esas subtramas describirán aproximadamente las partes principales del video, y luego generamos una voz para cada subtrama. Ahora que tenemos la parte hablada del trailer, solo necesitamos tomar clips cortos correspondientes a cada trama secundario y aplicar la voz sobre ellos, lo hacemos muestreando muchos cuadros del video y tomando algunos de los marcos más similares a cada subtrama, con esto tenemos las imágenes que mejor representan cada subplotación, el siguiente paso sería tomar un clip de unos pocos segundos que comienzan de cada marco. Después de generar la parte de audio y visual del trailer, solo necesitamos combinar cada audio con el clip correspondiente y finalmente unir todos los clips juntos en el avance final.

Todos esos pasos generarán archivos intermedios que puede inspeccionar y eliminar manualmente lo que no le gusta para mejorar los resultados.

Nota: Con los parámetros predeterminados, para cada trama subplotta, solo se generará un audio y un clip, creando así solo un candidato de remolque. Si desea crear más candidatos para remolques o tiene más opciones de audios y clips para elegir, puede aumentar n_audios y n_retrieved_images , solo tenga en cuenta que los candidatos del remolque aumentan geométricamente con esto, para n_audios = 3 y n_retrieved_images = 3 tendrá 9 (3 ** 3) candidatos en el avance al final.

Ejemplos

Noche de The Living Dead (1968)

Nosferatu (1922)

La paradoja de Fermi - ¿Dónde están todos los extraterrestres?

Museo de Historia Natural (nueva exposición de dinosaurios) Tour a pie en 4K - Washington, DC

Colegio de cambios

2024/03/03 - Se agregó soporte para crear trailers para cualquier video no solo películas.
2024/03/07 - Se agregó soporte para descargar videos de YouTube.

Uso

El enfoque recomendado para usar este repositorio es con Docker, pero también puede usar un VenV personalizado, solo asegúrese de instalar todas las dependencias.

El usuario solo necesita proporcionar dos entradas , el archivo de video y la ID IMDB de ese video. Después de eso, puede ir al archivo configs.yaml y ajustar los valores en consecuencia, video_id será la ID IMDB, y video_path debe apuntar al archivo del video, también puede actualizar project_name al nombre de su video y proporcionar una voz de referencia con reference_voice_path .

¿Cómo obtener la identificación IMDB para un video?

La URL de cualquier película en IMDB se verá así "https://www.imdb.com/title/tt0063350", la identificación será la parte entera después title/ , en este caso para "Night of the Living Dead" serían 0063350 , IMDB principalmente tiene la información de películas, pero también puede encontrar episodios de la serie y otros videos.

Flujo de trabajo de la aplicación

Recuperación de video (opcional): descargue el video de YouTube
Recuperación de la trama (opcional): obtenga la trama del video de IMDB
Splot Splot Splot: divide la gráfica en subtramas
Generación de voz: generar una voz para cada subtrama
Muestreo de marco: muestra múltiples marcos del video
Ranking de cuadros: seleccione los marcos más similares a cada trama secundaria
Clip: cree un video clip para cada uno de los cuadros seleccionados
Audio Clip: Agregue la voz generada en el paso 2 a cada clip correspondiente
Unir clip: únete a todos los clips de audio para construir el trailer

Configuraciones

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir : carpeta que alojará todos sus proyectos
Project_name : nombre del proyecto y carpeta principal, puede ser cualquier nombre que desee
video_path : ruta al archivo de video
trrat_filename : nombre de archivo que mantendrá la trama de video
Video_retrieval :
- video_url : URL opcional desde un video de YouTube
Plot_retrieval :
- Video_ID : ID IMDB opcional para el video
subtrama :
- split_char : carácter opcional utilizado para dividir el texto de la trama
voz :
- model_id : ID de modo TTS, aquí estoy usando Coqui AI
- Dispositivo : dispositivos utilizados por los modelos TTS y de similitud, generalmente uno de (CPU, CUDA, MPS)
- reference_voice_path : ruta al archivo de audio de referencia (voz que se clonará)
- TTS_Language : entrada de idioma para el modelo TTS
- n_audios : número de audios para generar por subtrama
Frame_sampling :
- n_frames : número de cuadros a probar desde el video
Frame_Ranking :
- model_id : modelo de similitud utilizado para clasificar los marcos
- Dispositivo : dispositivos utilizados por los modelos TTS y de similitud, generalmente uno de (CPU, CUDA, MPS)
- n_retrieved_images : número de marcos recuperados por trama secundaria
- simility_batch_size : tamaño por lotes utilizado por el modelo de similitud para incrustar los marcos
Clip :
- min_clip_len : longitud mínima de un clip
audio_clip :
- clip_volume : porcentaje del volumen de clip original que se mantendrá para el clip final
- Voice_Volume : porcentaje del volumen de voz generado que se mantendrá para el clip final

Comandos

Construye la imagen Docker

make build

Ejecute toda la tubería para crear el trailer a partir de un video y una trama

make trailer

Ejecute toda la tubería para crear el trailer a partir de un video y recuperar la trama de IMDB

make trailer_imdb

Ejecute toda la tubería para crear el trailer a partir de una trama y descargar el video de YouTube

make trailer_youtube

Ejecute toda la tubería para crear el trailer descargando el video de YouTube y recuperando la trama de IMDB

make trailer_imdb_youtube

Ejecute el paso de recuperación de video

make video_retrieval

Ejecute el paso de recuperación de la trama

make plot_retrieval

Ejecute el paso de la subplot

make subplot

Ejecutar el paso de voz

make voice

Ejecute el paso de cuadro (muestreo de marco)

make frame

Ejecute el paso de imagen_retrieval (clasificación de cuadros)

make image_retrieval

Ejecute el paso de clip

make clip

Ejecute el paso audio_clip

make audio_clip

Ejecute el paso Join_clip

make join_clip

Aplicar la pelusa y el formato al código (solo necesario para el desarrollo)

make lint

Desarrollo

Para el desarrollo, asegúrese de instalar requirements-dev.txt y ejecute make lint para mantener el estilo de codificación.

Renuncias

De manera predeterminada, estoy usando XTTS de Coqui AI, el modelo está bajo la licencia del modelo público de Coqui, asegúrese de echar un vistazo allí si planea usar las salidas aquí.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-08
tamaño 555.18KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
IA de un vistazo

2023-10-24
chica IA

2023-10-24
dibujo de IA

2023-10-24

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo