Download de ai_beats - ai_beats Download de código -fonte

ai_beats

Outro código-fonte

1.0.0

Baixar

Ai bate

Escrevi uma postagem no blog descrevendo este projeto com mais detalhes, verifique "como gerar clipes de música com a IA" para saber mais!

Com este projeto, você pode usar a IA para gerar faixas de música e videoclipes. Forneça algumas informações sobre como você gostaria da música e dos vídeos, o código fará o resto.

Fluxo de trabalho da geração de música

Primeiro, usamos um modelo generativo para criar amostras de música, o modelo padrão usado aqui só pode gerar um máximo de 30 segundos de música; por esse motivo, damos mais um passo para estender a música. Depois de terminar com a parte do áudio, podemos gerar o vídeo, primeiro, começamos com um modelo de difusão estável para gerar imagens e depois usamos outro modelo generativo para dar um pouco de movimento e animação. Para compor o videoclipe final, tomamos cada música gerada e juntamos o máximo de imagens animadas necessárias para combinar com a duração da música.

Todas essas etapas geram arquivos intermediários que você pode inspecionar e remover manualmente o que não gosta de melhorar os resultados.

Exemplos

Ai vence vol. 1

Ai vence vol. 2

Uso

A abordagem recomendada para usar este repositório é com o Docker, mas você também pode usar um VENV personalizado, apenas instale todas as dependências.

NOTA: Certifique -se de atualizar o parâmetro do dispositivo para maximizar o desempenho, mas observe que alguns modelos podem não funcionar para todas as opções de dispositivo (CPU, CUDA, MPS).

Fluxo de trabalho do aplicativo

Geração de música: gerar as faixas de música iniciais
Continuação musical: estenda as faixas de música inicial a uma duração mais longa
Geração de imagens: Crie as imagens que serão usadas para preencher o videoclipe
Geração de vídeo: gerar animações das imagens para compor videoclipes
Criação de videoclipe: junte vários videoclipes para acompanhar as faixas de música

Configurações

 project_dir: beats
project_name: lofi
seed: 42
music:
  prompt: "lo-fi music with a relaxing slow melody"
  model_id: facebook/musicgen-small
  device: cpu
  n_music: 5
  music_duration: 60
  initial_music_tokens: 1050
  max_continuation_duration: 20
  prompt_music_duration: 10
image:
  prompt: "Mystical Landscape"
  prompt_modifiers: 
    - "concept art, HQ, 4k"
    - "epic scene, cinematic, sci fi cinematic look, intense dramatic scene"
    - "digital art, hyperrealistic, fantasy, dark art"
    - "digital art, hyperrealistic, sense of comsmic wonder"
    - "mystical and ethereal atmosphere, photo taken with a wide-angle lens"
  model_id: stabilityai/sdxl-turbo
  device: mps
  n_images: 5
  inference_steps: 3
  height: 576
  width: 1024
video:
  model_id: stabilityai/stable-video-diffusion-img2vid
  device: cpu
  n_continuations: 2
  loop_video: true
  video_fps: 6
  decode_chunk_size: 8
  motion_bucket_id: 127
  noise_aug_strength: 0.1
audio_clip:
  n_music_loops: 1

Project_dir : pasta que hospedará todos os seus projetos
Project_name : nome do projeto e pasta principal
Semente : semente usada para controlar a aleatoriedade dos modelos
música
- Prompt: Prompt de texto usado para gerar a música
- Model_id: Modelo usado para gerar e estender as faixas de música
- Dispositivo : Dispositivo usado pelo modelo, geralmente um dos (CPU, CUDA, MPS)
- n_music: número de faixas musicais que serão criadas
- Music_Duration: duração do comprimento da música final
- Initial_music_tokens: duração do comprimento da música inicial (em tokens)
- max_continuation_duration: comprimento máximo de cada segmento de música estendida
- Prompt_music_duration: Comprimento da música base usada para criar a extensão
imagem
- Prompt: Prompt de texto usado para gerar as imagens
- Prompt_modifiers: modificadores de prompt usados para alterar o estilo de imagem
- Model_id: Modelo usado para criar as imagens
- Dispositivo : Dispositivo usado pelo modelo, geralmente um dos (CPU, CUDA, MPS)
- n_images: número de imagens que serão criadas
- inference_steps: número de etapas de inferência para o modelo de difusão
- Altura: altura da imagem gerada
- Largura: Largura da imagem gerada
vídeo
- Model_id: modelo usado para animar as imagens
- Dispositivo : Dispositivo usado pelo modelo, geralmente um dos (CPU, CUDA, MPS)
- N_CONTINUAÇÕES: Número de segmentos de animação que serão criados
- loop_video: se o videoclipe for um loop
- video_fps: quadros por segundo de cada videoclipe
- decode_chunk_size: parâmetro de tamanho decodificador da difusão em vídeo
- Motion_bucket_id: parâmetro de identificação de movimento da difusão em vídeo
- ruído_aug_strength: Difusão de vídeo Parâmetro de força de ruído da difusão
AUDIO_CLIP
- N_MUSIC_LOOPS: Número de vezes para loop cada faixa de música

Comandos

Construa a imagem do Docker

make build

Aplique fiapos e formatação ao código (necessário apenas para o desenvolvimento)

make lint

Execute o pipeline inteiro para criar o videoclipe

make ai_beats

Execute a etapa da geração musical

make music

Execute a etapa de continuação musical

make music_continuation

Execute a etapa de geração de imagem

make image

Execute a etapa de geração de vídeo

make video

Execute a etapa de criação do clipe de áudio

make audio_clip

Desenvolvimento

Para o desenvolvimento, instale requirements-dev.txt e a execução make lint para manter o estilo de codificação.

Requisitos

Desenvolvi e testei a maior parte desse projeto no meu MacBook Pro M2, a única etapa que não consegui executar foi a etapa de criação de vídeo, pois usei o Google Colab (com V100 ou A100 GPU). Alguns dos modelos não eram executados nos MPS , mas eles funcionam em um tempo razoável de qualquer maneira.

Isenções de responsabilidade

Os modelos usados por padrão aqui têm licenças específicas que podem não ser adequadas para todos os casos de uso, se você deseja usar os mesmos modelos, verifique suas licenças. Para a geração de música, o MusicGen e sua licença CC-BY-NC 4.0, para geração de imagens SDXL-Turbo e sua licença de licença-sdxl1.0, e difusão de vídeo estável e sua licença estável em difusão de vídeo NC Community License para geração de vídeo.

Referências

MusicGen
Sdxl-turbo
Difusão de vídeo estável
Difusão de vídeo estável - dicas de uso

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-06
tamanho 91.2KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
Um olhar IA

2023-10-24
Garota IA

2023-10-24
Desenho de IA

2023-10-24
Super batidas de queimada

2022-08-26

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos