Descargar ai_beats - Descargar el código fuente ai

ai_beats

Otro código fuente

1.0.0

Descargar

AI Beats

He escrito una publicación de blog que describe este proyecto con más detalle, ¡asegúrese de verificar "Cómo generar clips de música con IA" para obtener más información!

Con este proyecto, puede usar IA para generar pistas de música y videoclips. Proporcione información sobre cómo le gustaría la música y los videos, el código hará el resto.

Flujo de trabajo de generación musical

Primero, usamos un modelo generativo para crear muestras de música, el modelo predeterminado utilizado aquí solo puede generar un máximo de 30 segundos de música, por esta razón, damos otro paso para extender la música. Después de terminar con la parte de audio, podemos generar el video, primero comenzamos con un modelo de difusión estable para generar imágenes y luego usamos otro modelo generativo para darle un poco de movimiento y animación. Para componer el video clip final, tomamos cada música generada y nos unimos con tantas imágenes animadas como sea necesario para que coincida con la longitud de la música.

Todos esos pasos generarán archivos intermedios que puede inspeccionar y eliminar manualmente lo que no le gusta para mejorar los resultados.

Ejemplos

Ai Beats Vol. 1

Ai Beats Vol. 2

Uso

El enfoque recomendado para usar este repositorio es con Docker, pero también puede usar un VenV personalizado, solo asegúrese de instalar todas las dependencias.

Nota: Asegúrese de actualizar el parámetro del dispositivo para maximizar el rendimiento, pero observe que algunos modelos podrían no funcionar para todas las opciones del dispositivo (CPU, CUDA, MPS).

Flujo de trabajo de la aplicación

Generación de música: generar las pistas de música iniciales
Continuación de la música: extienda las pistas de música iniciales a una duración más larga
Generación de imágenes: cree las imágenes que se utilizarán para llenar el video clip
Generación de videos: genere animaciones de las imágenes para componer videoclips
Creación de videos clip: une múltiples videoclips juntos para acompañar las pistas de música

Configuraciones

 project_dir: beats
project_name: lofi
seed: 42
music:
  prompt: "lo-fi music with a relaxing slow melody"
  model_id: facebook/musicgen-small
  device: cpu
  n_music: 5
  music_duration: 60
  initial_music_tokens: 1050
  max_continuation_duration: 20
  prompt_music_duration: 10
image:
  prompt: "Mystical Landscape"
  prompt_modifiers: 
    - "concept art, HQ, 4k"
    - "epic scene, cinematic, sci fi cinematic look, intense dramatic scene"
    - "digital art, hyperrealistic, fantasy, dark art"
    - "digital art, hyperrealistic, sense of comsmic wonder"
    - "mystical and ethereal atmosphere, photo taken with a wide-angle lens"
  model_id: stabilityai/sdxl-turbo
  device: mps
  n_images: 5
  inference_steps: 3
  height: 576
  width: 1024
video:
  model_id: stabilityai/stable-video-diffusion-img2vid
  device: cpu
  n_continuations: 2
  loop_video: true
  video_fps: 6
  decode_chunk_size: 8
  motion_bucket_id: 127
  noise_aug_strength: 0.1
audio_clip:
  n_music_loops: 1

Project_dir : carpeta que alojará todos sus proyectos
Project_Name : nombre del proyecto y carpeta principal
Semilla : semilla utilizada para controlar la aleatoriedad de los modelos
música
- Aviso: mensaje de texto utilizado para generar la música
- model_id: modelo utilizado para generar y extender las pistas de música
- Dispositivo : dispositivo utilizado por el modelo, generalmente uno de (CPU, CUDA, MPS)
- n_music: número de pistas de música que se crearán
- Music_duration: duración de la música final
- inicial_music_tokens: longitud de duración de la música inicial (en tokens)
- max_continuation_duration: longitud máxima de cada segmento de música extendida
- apt_music_duration: longitud de la música base utilizada para crear la extensión
imagen
- Aviso: Texto Solicitud utilizada para generar las imágenes
- ARD_MODIFIERS: Modificadores de inmediato utilizados para cambiar el estilo de imagen
- model_id: modelo utilizado para crear las imágenes
- Dispositivo : dispositivo utilizado por el modelo, generalmente uno de (CPU, CUDA, MPS)
- n_images: número de imágenes que se crearán
- Inferencia_steps: número de pasos de inferencia para el modelo de difusión
- Altura: Altura de la imagen generada
- Ancho: ancho de la imagen generada
video
- model_id: modelo utilizado para animar las imágenes
- Dispositivo : dispositivo utilizado por el modelo, generalmente uno de (CPU, CUDA, MPS)
- n_continuations: número de segmentos de animación que se crearán
- Loop_video: si cada video musical se va a bucle
- video_fps: marcos por segundo de cada video clip
- Decode_chunk_size: parámetro de tamaño de trozo de Decode Diffusion de video
- Motion_bucket_id: parámetro de ID de porcentaje de movimiento de Diffusion de video
- ruido_aug_strength: parámetro de resistencia de ruido de la difusión de video de video
audio_clip
- n_music_loops: número de veces para recorrer cada pista de música

Comandos

Construye la imagen Docker

make build

Aplicar la pelusa y el formato al código (solo necesario para el desarrollo)

make lint

Ejecute toda la tubería para crear el video musical

make ai_beats

Ejecute el paso de generación de música

make music

Ejecute el paso de continuación de la música

make music_continuation

Ejecute el paso de generación de imágenes

make image

Ejecute el paso de generación de videos

make video

Ejecute el paso de creación de clip de audio

make audio_clip

Desarrollo

Para el desarrollo, asegúrese de instalar requirements-dev.txt y ejecute make lint para mantener el estilo de codificación.

Requisitos

Desarrollé y probé la mayor parte de este proyecto en mi MacBook Pro M2, el único paso que no pude ejecutar fue el paso de creación de video, ya que utilicé Google Colab (con V100 o A100 GPU). Algunos de los modelos no eran ejecutables en MPS , pero de todos modos se ejecutan en un momento razonable.

Renuncias

Los modelos utilizados por defecto aquí tienen licencias específicas que pueden no ser adecuadas para todos los casos de uso, si desea usar los mismos modelos, asegúrese de verificar sus licencias. Para la generación de música MusicGen y su licencia CC-by-NC 4.0, para la generación de imágenes SDXL-TURBO y su licencia de licencia-SDXL1.0, y difusión de video estable y su licencia de licencia de la comunidad de difusión de video NC estable para la generación de videos.

Referencias

MusicGen
Sdxl-turbo
Difusión de video estable
Difusión de video estable - Consejos de uso

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-06
tamaño 91.2KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
IA de un vistazo

2023-10-24
chica IA

2023-10-24
dibujo de IA

2023-10-24
Super ritmos de balón prisionero

2022-08-26

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo