
通過此項目,您可以使用AI來生成音樂曲目和視頻剪輯。提供一些有關您想要音樂和視頻的信息,代碼將完成其餘的信息。
首先,我們使用生成模型來創建音樂樣本,此處使用的默認模型只能生成最高30秒的音樂,因此,我們採取了另一個步驟來擴展音樂。在使用音頻零件完成後,我們可以生成視頻,首先,我們從穩定的擴散模型開始,以生成圖像,然後使用另一個生成模型給它一些運動和動畫。為了撰寫最終的視頻剪輯,我們將每個生成的音樂都與盡可能多的動畫圖像結合在一起,以匹配音樂的長度。
所有這些步驟都將生成中間文件,您可以檢查並手動刪除您不喜歡改善結果的內容。
使用此存儲庫的建議方法是與Docker一起使用,但是您也可以使用自定義VENV,只需確保安裝所有依賴項即可。
注意:確保更新設備參數以最大化性能,但請注意,某些模型可能對所有設備選項(CPU,CUDA,MPS)不起作用。
project_dir: beats
project_name: lofi
seed: 42
music:
prompt: "lo-fi music with a relaxing slow melody"
model_id: facebook/musicgen-small
device: cpu
n_music: 5
music_duration: 60
initial_music_tokens: 1050
max_continuation_duration: 20
prompt_music_duration: 10
image:
prompt: "Mystical Landscape"
prompt_modifiers:
- "concept art, HQ, 4k"
- "epic scene, cinematic, sci fi cinematic look, intense dramatic scene"
- "digital art, hyperrealistic, fantasy, dark art"
- "digital art, hyperrealistic, sense of comsmic wonder"
- "mystical and ethereal atmosphere, photo taken with a wide-angle lens"
model_id: stabilityai/sdxl-turbo
device: mps
n_images: 5
inference_steps: 3
height: 576
width: 1024
video:
model_id: stabilityai/stable-video-diffusion-img2vid
device: cpu
n_continuations: 2
loop_video: true
video_fps: 6
decode_chunk_size: 8
motion_bucket_id: 127
noise_aug_strength: 0.1
audio_clip:
n_music_loops: 1
構建Docker圖像
make build將絨毛和格式應用於代碼(僅需要開發)
make lint運行整個管道以創建音樂視頻
make ai_beats運行音樂生成步驟
make music運行音樂延續步驟
make music_continuation運行圖像生成步驟
make image運行視頻生成步驟
make video運行音頻剪輯創建步驟
make audio_clip為了開發,請確保安裝requirements-dev.txt並運行make lint以維護編碼樣式。
我在MacBook Pro M2上開發並測試了大部分項目,我無法運行的唯一步驟是視頻創建步驟,因為我使用了Google COLAB(帶有V100或A100 GPU)。某些模型在MPS上無法運行,但無論如何它們都可以在合理的時間內運行。
默認情況下,此處使用的模型具有特定的許可證,如果您想使用相同的型號,請確保檢查其許可證。對於Music Generation MusicGEN及其CC-BY-NC 4.0許可證,用於圖像生成SDXL-Turbo及其許可證-SDXL1.0許可證以及穩定的視頻擴散及其穩定的視頻擴散NC NC社區許可證的視頻生成許可證。