Download de ai_trailer - ai_trailer Download do código -fonte

ai_trailer

Outro código-fonte

1.0.0

Baixar

Geração automática de reboques usando ai

Eu escrevi uma postagem de blog relacionada a este projeto, verifique -os

Criar trailers de filmes com AI descreve o projeto em mais detalhes
Usando o Gemini 1.5 Pro para criar trailers de vídeo explora o uso de recursos de vídeo Gemini 1.5 Pro neste mesmo projeto

Eu também adaptei este projeto para a competição "Google - Gemini Long Context" Kaggle, se você quiser dar uma olhada no conteúdo, consulte os links abaixo

Vídeo resumido de passo a passo
Vídeo completo de passo a passo
Notebook Kaggle
Notebook do Google Colab

A idéia deste repositório é gerar automaticamente vários candidatos a reboques para um determinado vídeo, o usuário precisa fornecer apenas o arquivo de vídeo e alguns parâmetros de texto, e todo o resto é resolvido.

Como funciona?

Primeiro, opcionalmente, pegamos o enredo do vídeo no IMDB e o dividimos em subparcelas, em vez de retirar do IMDB Você também pode fornecer seu próprio enredo ou modificá -lo, essas subparcelas descrevem aproximadamente as partes principais do vídeo e, em seguida, geimos uma voz para cada subparcela. Agora que temos a parte falada do trailer, só precisamos pegar clipes curtos correspondentes a cada subtrama e aplicar a voz sobre eles, fazemos isso amostrando muitos quadros do vídeo e pegando alguns dos quadros mais semelhantes a cada subparcela, com isso, temos as imagens que melhor representam cada sub -trama, a próxima etapa seria dar um pouco de alguns segundos a partir de cada um dos segundos. Depois de gerar a parte de áudio e visual do trailer, precisamos apenas combinar cada áudio com o clipe correspondente e finalmente juntar todos os clipes no trailer final.

Todas essas etapas geram arquivos intermediários que você pode inspecionar e remover manualmente o que não gosta de melhorar os resultados.

NOTA: Com os parâmetros padrão, para cada subparcela, apenas um áudio e um clipe serão gerados, criando apenas um candidato ao trailer. Se você deseja criar mais candidatos ao trailer ou ter mais opções de áudios e clipes para escolher, pode aumentar n_audios e n_retrieved_images , lembre -se de que os candidatos ao trailer aumentam geometricamente com isso, para n_audios = 3 e n_retrieved_images = 3 você terá 9 (3 ** 3)

Exemplos

Night of the Living Dead (1968)

Nosferatu (1922)

O Paradoxo de Fermi - Onde estão todos os alienígenas?

Museu de História Natural (Exposição de Novo Dinossauro) Tour em 4K - Washington, DC

Changelog

2024/03/03 - Adicionado suporte para criar reboques para qualquer vídeo não apenas filmes.
2024/03/07 - Adicionado suporte para baixar vídeos do YouTube.

Uso

A abordagem recomendada para usar este repositório é com o Docker, mas você também pode usar um VENV personalizado, apenas instale todas as dependências.

O usuário precisa fornecer apenas duas entradas , o arquivo de vídeo e o ID do IMDB desse vídeo. Depois disso, você pode acessar o arquivo configs.yaml e ajustar os valores de acordo, o video_id será o ID do IMDB e video_path deve apontar para o arquivo do vídeo, você também pode atualizar project_name para o nome do seu vídeo e fornecer uma voz de referência com reference_voice_path .

Como obter o ID do IMDB para um vídeo?

Qualquer URL de filme no IMDB se parecerá com este "https://www.imdb.com/title/tt0063350", o ID será a parte inteira após title/ , neste caso para "Night of the Living Dead", seria 0063350 , outras informações do filme.

Fluxo de trabalho do aplicativo

Recuperação em vídeo (opcional): Baixe o vídeo do YouTube
Recuperação de plotagem (opcional): Obtenha o enredo do vídeo do IMDB
Subparcela divisão: divida o enredo em subparcelas
Geração de voz: gerar uma voz para cada subtrama
Amostragem de quadros: amostra vários quadros do vídeo
Classificação de quadros: selecione os quadros mais semelhantes a cada subtrama
Clipe: Crie um videoclipe para cada um dos quadros selecionados
Clipe de áudio: adicione a voz gerada na etapa 2 a cada clipe correspondente
Junte -se ao clipe: junte -se a todos os clipes de áudio para construir o trailer

Configurações

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir : pasta que hospedará todos os seus projetos
Project_name : nome do projeto e pasta principal, pode ser qualquer nome que você quiser
video_path : caminho para o arquivo de vídeo
plot_filename : nome do arquivo que manterá o gráfico de vídeo
video_retrieval :
- video_url : URL opcional de um vídeo do YouTube
plot_retrieval :
- video_id : ID IMDB opcional para o vídeo
Subparcela :
- Split_char : caractere opcional usado para dividir o texto da plotagem
voz :
- Model_id : TTS Mode ID, aqui estou usando Coqui ai
- Dispositivo : Dispositivos usados pelos modelos TTS e similaridade, geralmente um dos (CPU, CUDA, MPS)
- Reference_voice_path : caminho para o arquivo de áudio de referência (voz que será clonada)
- tts_language : entrada da linguagem para o modelo TTS
- N_AUDIOS : Número de áudios para gerar por subparcela
frame_sampling :
- n_frames : número de quadros para amostrar do vídeo
frame_ranking :
- Model_id : Modelo de similaridade usado para classificar os quadros
- Dispositivo : Dispositivos usados pelos modelos TTS e similaridade, geralmente um dos (CPU, CUDA, MPS)
- n_retrieved_images : número de quadros recuperados por subparcela
- similarity_batch_size : tamanho do lote usado pelo modelo de similaridade para incorporar os quadros
Clipe :
- min_clip_len : comprimento mínimo de um clipe
AUDIO_CLIP :
- clip_volume : porcentagem do volume de clipe original a ser mantido para o clipe final
- Voice_volume : porcentagem do volume de voz gerado a ser mantido para o clipe final