ai_trailer下載ai_trailer源代碼下載

ai_trailer

其他源碼

1.0.0

下載

使用AI的自動拖車生成

我寫了幾篇與此項目有關的博客文章，請務必檢查它們

用AI創建電影預告片，以更多詳細信息描述該項目
使用Gemini 1.5 Pro創建視頻預告片，探討了Gemini 1.5 Pro視頻功能的使用

我還為“ Google -gemini長上下文” Kaggle競爭進行了調整，如果您想看內容，請查看以下鏈接

總結了演練視頻
完整的演練視頻
Kaggle筆記本
Google Colab筆記本

該存儲庫的想法是自動為給定視頻生成許多預告片候選，用戶只需要提供視頻文件和幾個文本參數，並且所有其他內容都受到關注。

它如何工作？

首先，我們可以選擇將視頻的圖在IMDB中分為子圖，而不是從IMDB中取出，您還可以提供自己的繪圖或修改它，而是這些子圖將大致描述視頻的主要部分，接下來，我們為每個子圖生成語音。現在，我們只需要使用與每個子圖相對應的簡短剪輯並將聲音應用在它們上，我們可以通過對視頻中的許多幀進行採樣，並將一些最相似的框架與每個子圖一起使用，我們擁有最能代表每個子圖的圖像是，下一步將是從每個框架開始的幾秒鐘，我們的圖像是最好的。在產生了預告片的音頻和視覺部分之後，我們只需要將每個音頻與相應的剪輯結合在一起，最後將所有夾子一起連接到最終的預告片中。

所有這些步驟都將生成中間文件，您可以檢查並手動刪除您不喜歡改善結果的內容。

注意：對於默認參數，對於每個子圖，將僅生成一個音頻和一個剪輯，從而僅創建一個預告片候選者。如果您希望創建更多的預告片候選者或有更多的音頻和剪輯可供選擇，則可以增加n_audios和n_retrieved_images ，只需記住，預告片候選人隨著幾何而隨著n_audios = 3和n_retrieved_images = 3您將擁有9（3 ** 3 ** 3）Trailer Candidates。

例子

《活死之夜》（1968年）

Nosferatu（1922）

費米悖論 - 所有外星人在哪裡？

自然歷史博物館（新恐龍展覽會）4K徒步旅行 - 華盛頓特區

ChangElog

2024/03/03-添加了支持，為任何視頻創建預告片不僅是電影。
2024/03/07-添加了支持從YouTube下載視頻的支持。

用法

使用此存儲庫的建議方法是與Docker一起使用，但是您也可以使用自定義VENV，只需確保安裝所有依賴項即可。

用戶只需要提供兩個輸入，即視頻文件和IMDB ID。之後，您可以轉到configs.yaml文件並相應地調整值， video_id將是IMDB ID， video_path應該指向視頻文件，您可能還需要將project_name更新為視頻名稱，並使用reference_voice_path提供參考語音。

如何獲取視頻IMDB ID？

IMDB上任何電影的URL看起來都將看起來像“ https://www.imdb.com/title/tt0063350”，ID將是title/之後的整數部分，在這種情況下，“活死之夜”的情況下，它將是0063350 ，IMDB主要可以找到電影的信息，但您還可以找到系列錄製的情節和其他錄像帶。

應用程序工作流程

視頻檢索（可選）：從YouTube下載視頻
繪圖檢索（可選）：從IMDB獲取視頻的繪圖
子圖拆分：將圖分為子圖
語音生成：為每個子圖生成聲音
框架採樣：示例視頻中的多個幀
框架排名：選擇與每個子圖最相似的幀
剪輯：為選擇的每個幀創建視頻剪輯
音頻剪輯：將步驟2的語音添加到每個相應的剪輯中
加入剪輯：加入所有音頻剪輯以構建拖車

配置

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir ：將託管您所有項目的文件夾
project_name ：項目名稱和主文件夾，它可以是您想要的任何名稱
Video_path ：視頻文件的路徑
plot_filename ：將保留視頻繪圖的文件名
video_retrieval ：
- Video_url ：YouTube視頻的可選URL
plot_retrieval ：
- Video_id ：視頻的可選IMDB ID
子圖：
- split_char ：用於拆分劇情文字的可選字符
嗓音：
- model_id ：tts模式ID，在這裡我正在使用coqui ai
- 設備：TTS和相似性模型使用的設備，通常是（CPU，CUDA，MPS）之一
- Reference_voice_path ：參考音頻文件的路徑（將克隆的語音）
- tts_language ：TTS模型的語言輸入
- N_Audios ：每個子圖生成的音頻數
frame_smpling ：
- N_frames ：視頻中採樣的幀數
frame_ranking ：
- Model_ID ：用於排名幀的相似性模型
- 設備：TTS和相似性模型使用的設備，通常是（CPU，CUDA，MPS）之一
- n_retresder_images ：每個子圖的檢索幀數
- samelity_batch_size ：相似性模型使用的批處理大小嵌入幀
夾子：
- min_clip_len ：剪輯的最小長度
audio_clip ：
- clip_volume ：最終剪輯保留的原始剪輯量的百分比
- Voice_volume ：為最終剪輯保留的生成的語音量的百分比