ai_trailer DOWNLOAD - ai_trailer Quellcode Download

ai_trailer

Anderer Quellcode

1.0.0

Herunterladen

Automatische Anhängergenerierung mit KI

Ich habe ein paar Blog -Beitrag zu diesem Projekt geschrieben

Das Erstellen von Film -Trailern mit KI beschreibt das Projekt genauer
Mithilfe von Gemini 1.5 Pro zum Erstellen von Video -Trailern untersucht die Verwendung von Gemini 1.5 Pro -Videofunktionen für das gleiche Projekt

Ich habe dieses Projekt auch für den Kaggle -Wettbewerb "Google - Gemini Long Context" angepasst, wenn Sie sich den Inhalt ansehen möchten, sehen Sie sich die Links unten an

Zusammenfassend wachsende Videos
Komplette Walkthrough -Video
Kaggle Notebook
Google Colab Notebook

Die Idee dieses Repositorys besteht darin, automatisch eine Reihe von Trailer -Kandidaten für ein bestimmtes Video zu generieren, der Benutzer muss nur die Videodatei und einige Textparameter bereitstellen, und alles andere wird vorsichtig.

Wie funktioniert es?

Zunächst nehmen wir optional die Handlung des Videos bei IMDB und teilen es in Nebenhandlungen auf, anstatt von IMDB zu übernehmen, können Sie auch Ihr eigenes Handlung angeben oder es ändern. Diese Nebenhandlungen beschreiben die Hauptteile des Videos grob. Als nächstes erstellen wir eine Stimme für jede Nebenhandlung. Jetzt, da wir den gesprochenen Teil des Trailers haben, müssen wir nur kurze Clips nehmen, die jeder Nebenhandlung entsprechen und die Stimme über sie anwenden, dies tun dies, indem wir viele Frames aus dem Video probieren und einige der ähnlichsten Frames für jede Nebenhandlung aufnehmen. Wir haben die Bilder, die jeden Subplot für jeden Schritt ausführen, der nächste Schritt, um ein paar Sekunden ab jedem Rahmen ab dem Rahmen zu entgehen. Nachdem wir den Audio- und visuellen Teil des Trailers generiert haben, müssen wir nur jeden Audio mit dem entsprechenden Clip kombinieren und schließlich alle Clips zusammen in den endgültigen Trailer verbinden.

Alle diese Schritte generieren Zwischendateien, die Sie inspizieren und manuell entfernen können, was Sie nicht gerne verbessern möchten.

Hinweis: Mit den Standardparametern wird für jede Nebenhandlung nur ein Audio und ein Clip generiert, wodurch nur ein Trailerkandidat erstellt wird. n_retrieved_images = 3 Sie mehr Trailer -Kandidaten erstellen oder mehr Optionen für Audios und Clips zur Auswahl haben, können Sie n_audios und n_retrieved_images erhöhen. Beachten Sie einfach n_audios = 3 dass die Anhängerkandidaten geometrisch geometrisch erhöhen.

Beispiele

Nacht der lebenden Toten (1968)

Nosferatu (1922)

Das Fermi -Paradox - wo sind alle Außerirdischen?

Natural History Museum (neue Dinosaurierausstellung) Wanderung in 4K - Washington, DC

Changelog

2024/03/03 - Unterstützung hinzugefügt, um Trailer für ein Video zu erstellen, nicht nur Filme.
2024/03/07 - Support zum Herunterladen von Videos von YouTube hinzugefügt.

Verwendung

Der empfohlene Ansatz zur Verwendung dieses Repositorys ist bei Docker. Sie können jedoch auch ein benutzerdefiniertes Gebiet verwenden. Stellen Sie einfach sicher, dass Sie alle Abhängigkeiten installieren.

Der Benutzer muss nur zwei Eingänge bereitstellen , die Videodatei und die IMDB -ID aus diesem Video. Danach können Sie zu der Datei configs.yaml wechseln und die Werte entsprechend anpassen, video_id ist die IMDB -ID, und video_path sollte auf die Datei des Videos verweisen. Möglicherweise möchten Sie auch project_name auf den Namen Ihres Videos aktualisieren und mit reference_voice_path eine Referenzstimme angeben.

Wie bekomme ich die IMDB -ID für ein Video?

Die URL eines Films bei IMDB wird so aussehen wie diese "https://www.imdb.com/title/tt0063350". Der Ausweis wird nach dem 0063350 title/ in diesem Fall für "Night of the Living Dead" die IMDB -IMDB -IMDB -Information, aber Sie können auch Serien -Episoden finden.

Anwendungsworkflow

Video -Abruf (optional): Laden Sie das Video von YouTube herunter
Plot -Abruf (optional): Holen Sie sich die Handlung des Videos von IMDB
Nebenhandlungsplit: Teilen Sie das Diagramm in Nebenhandlungen auf
Sprachgenerierung: Erzeugen Sie eine Stimme für jede Nebenhandlung
Frame -Probenahme: Proben Sie mehrere Frames aus dem Video
Frame -Ranking: Wählen Sie die Frames, die jeder Nebenhandlung am ähnlichsten sind
Clip: Erstellen Sie einen Videoclip für jeden der ausgewählten Frames
Audioclip: Fügen Sie die in Schritt 2 erzeugte Stimme zu jedem entsprechenden Clip hinzu
Schließen Sie sich dem Clip an: Schließen Sie sich allen Audioclips an, um den Anhänger zu bauen

Konfigurationen

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir : Ordner, in dem alle Ihre Projekte gehostet werden
PROJEKT_NAME : Projektname und Hauptordner, kann es jeden Namen sein, den Sie möchten
Video_Path : Pfad zur Videodatei
Plot_FileName : Dateiname, der das Video -Diagramm beibehält
Video_retrieval :
- Video_url : Optionale URL aus einem YouTube -Video
Plot_retrieval :
- Video_ID : Optionale IMDB -ID für das Video
Nebenhandlung :
- Split_char : Optionales Zeichen, das verwendet wird, um den Handlungstext zu teilen
Stimme :
- model_id : TTS -Modus -ID, hier verwende ich Coqui AI
- Gerät : Geräte, die von den TTS- und Ähnlichkeitsmodellen verwendet werden, normalerweise eines von (CPU, CUDA, MPS)
- Reference_Voice_Path : Pfad zur Referenz -Audio -Datei (Sprache, die kloniert wird)
- TTS_Language : Spracheingabe für das TTS -Modell
- N_AUDIOS : Anzahl der Audios, die pro Nebenhandlung generieren sollen
Frame_Samping :
- N_Frames : Anzahl der Frames, die aus dem Video probiert werden sollen
Frame_Ranking :
- Modell_ID : Ähnlichkeitsmodell, mit dem die Frames eingestuft werden
- Gerät : Geräte, die von den TTS- und Ähnlichkeitsmodellen verwendet werden, normalerweise eines von (CPU, CUDA, MPS)
- N_RETRIVED_IMAGES : Anzahl der abgerufenen Frames pro Nebenhandlung
- Ähnlichkeit_Batch_Size : Stapelgröße, die vom Ähnlichkeitsmodell verwendet wird, um die Rahmen einzubetten
Clip :
- min_clip_len : Mindestlänge eines Clips
audio_clip :
- clip_volume : Prozentsatz der ursprünglichen Clip -Lautstärke, die für den letzten Clip aufbewahrt werden soll
- Voice_Volume : Prozentsatz der generierten Sprachvolumen, die für den endgültigen Clip aufbewahrt werden soll

Befehle

Erstellen Sie das Docker -Bild

make build

Führen Sie die gesamte Pipeline aus, um den Trailer aus einem Video und einer Handlung abzurufen

make trailer

Führen Sie die gesamte Pipeline aus, um den Trailer aus einem Video zu erstellen und die Handlung von IMDB abzurufen

make trailer_imdb

Führen Sie die gesamte Pipeline aus, um den Trailer aus einer Handlung aus zu erstellen und das Video von YouTube herunterzuladen

make trailer_youtube

Führen Sie die gesamte Pipeline aus, um das Trailer zu erstellen, das das Video von YouTube herunterlädt und die Handlung von IMDB abholt

make trailer_imdb_youtube

Führen Sie den Video -Abrufschritt aus

make video_retrieval

Führen Sie den Plot -Abrufschritt aus

make plot_retrieval

Führen Sie den Nebenhandelsschritt aus

make subplot

Führen Sie den Sprachschritt aus

make voice

Führen Sie den Rahmenschritt aus (Frame -Probenahme)

make frame

Führen Sie den Image_Retrieval -Schritt aus (Frame -Ranking)

make image_retrieval

Führen Sie den Clip -Schritt aus

make clip

Führen Sie den Schritt audio_clip aus

make audio_clip

Führen Sie den Schritt joins_clip aus

make join_clip

Wenden Sie Lint und Formatierung auf den Code an (nur für die Entwicklung benötigt)

make lint

Entwicklung

Für die Entwicklung stellen Sie sicher, dass requirements-dev.txt und make lint installieren, um den Codierungsstil aufrechtzuerhalten.

Haftungsausschlüsse

Standardmäßig verwende ich XTTs von Coqui AI. Das Modell befindet sich unter der Coqui Public Model Lizenz. Schauen Sie sich dort an, wenn Sie die Ausgänge hier verwenden möchten.

Expandieren

Zusätzliche Informationen