ดาวน์โหลด ai_beats - ดาวน์โหลดซอร์สโค้ด ai

ai_beats

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

AI Beats

ฉันได้เขียนโพสต์บล็อกที่อธิบายโครงการนี้โดยละเอียดตรวจสอบ "วิธีการสร้างคลิปเพลงด้วย AI" เพื่อเรียนรู้เพิ่มเติม!

ด้วยโครงการนี้คุณสามารถใช้ AI เพื่อสร้างแทร็กเพลงและคลิปวิดีโอ ให้ข้อมูลบางอย่างเกี่ยวกับวิธีที่คุณต้องการเพลงและวิดีโอรหัสจะทำส่วนที่เหลือ

เวิร์กโฟลว์การสร้างเพลง

ก่อนอื่นเราใช้โมเดล Generative เพื่อสร้างตัวอย่างเพลงโมเดลเริ่มต้นที่ใช้ที่นี่สามารถสร้างเพลงได้สูงสุด 30 วินาทีด้วยเหตุนี้เราจึงก้าวไปอีกขั้นเพื่อขยายเพลง หลังจากจบด้วยส่วนเสียงเราสามารถสร้างวิดีโอก่อนอื่นเราเริ่มต้นด้วยโมเดลการแพร่กระจายที่เสถียรเพื่อสร้างภาพจากนั้นเราใช้รุ่น Generative อื่นเพื่อให้การเคลื่อนไหวและภาพเคลื่อนไหวเล็กน้อย ในการเขียนคลิปวิดีโอสุดท้ายเราใช้เพลงที่สร้างขึ้นแต่ละเพลงและเข้าร่วมกับภาพเคลื่อนไหวมากเท่าที่จำเป็นเพื่อให้ตรงกับความยาวของเพลง

ขั้นตอนทั้งหมดเหล่านั้นจะสร้างไฟล์ระดับกลางที่คุณสามารถตรวจสอบและลบสิ่งที่คุณไม่ต้องการปรับปรุงผลลัพธ์ด้วยตนเอง

ตัวอย่าง

AI Beats Vol. 1

AI Beats Vol. 2

การใช้งาน

วิธีที่แนะนำในการใช้ที่เก็บนี้อยู่กับ Docker แต่คุณยังสามารถใช้ VENV ที่กำหนดเองได้เพียงตรวจสอบให้แน่ใจว่าได้ติดตั้งการอ้างอิงทั้งหมด

หมายเหตุ: ตรวจสอบให้แน่ใจว่าได้อัปเดตพารามิเตอร์อุปกรณ์เพื่อเพิ่มประสิทธิภาพสูงสุด แต่สังเกตว่าบางรุ่นอาจไม่ทำงานสำหรับตัวเลือกอุปกรณ์ทั้งหมด (CPU, CUDA, MPS)

แอปพลิเคชันเวิร์กโฟลว์

การสร้างเพลง: สร้างแทร็กเพลงเริ่มต้น
เพลงต่อเนื่อง: ขยายแทร็กเพลงเริ่มต้นให้ยาวขึ้น
การสร้างภาพ: สร้างภาพที่จะใช้เพื่อเติมวิดีโอคลิป
การสร้างวิดีโอ: สร้างภาพเคลื่อนไหวจากภาพเพื่อเขียนคลิปวิดีโอ
การสร้างคลิปวิดีโอ: เข้าร่วมคลิปวิดีโอหลายรายการเข้าด้วยกันเพื่อติดตามแทร็กเพลง

กำหนดค่า

 project_dir: beats
project_name: lofi
seed: 42
music:
  prompt: "lo-fi music with a relaxing slow melody"
  model_id: facebook/musicgen-small
  device: cpu
  n_music: 5
  music_duration: 60
  initial_music_tokens: 1050
  max_continuation_duration: 20
  prompt_music_duration: 10
image:
  prompt: "Mystical Landscape"
  prompt_modifiers: 
    - "concept art, HQ, 4k"
    - "epic scene, cinematic, sci fi cinematic look, intense dramatic scene"
    - "digital art, hyperrealistic, fantasy, dark art"
    - "digital art, hyperrealistic, sense of comsmic wonder"
    - "mystical and ethereal atmosphere, photo taken with a wide-angle lens"
  model_id: stabilityai/sdxl-turbo
  device: mps
  n_images: 5
  inference_steps: 3
  height: 576
  width: 1024
video:
  model_id: stabilityai/stable-video-diffusion-img2vid
  device: cpu
  n_continuations: 2
  loop_video: true
  video_fps: 6
  decode_chunk_size: 8
  motion_bucket_id: 127
  noise_aug_strength: 0.1
audio_clip:
  n_music_loops: 1

Project_dir : โฟลเดอร์ที่จะโฮสต์โครงการทั้งหมดของคุณ
Project_name : ชื่อโครงการและโฟลเดอร์หลัก
เมล็ด : เมล็ดที่ใช้ควบคุมการสุ่มของแบบจำลอง
ดนตรี
- พรอมต์: ข้อความที่ใช้ในการสร้างเพลง
- model_id: รุ่นที่ใช้ในการสร้างและขยายแทร็กเพลง
- อุปกรณ์ : อุปกรณ์ที่ใช้โดยรุ่นมักจะเป็นหนึ่งใน (CPU, CUDA, MPS)
- N_MUSIC: จำนวนแทร็กเพลงที่จะสร้างขึ้น
- Music_duration: ระยะเวลาความยาวของเพลงสุดท้าย
- initial_music_tokens: ความยาวระยะเวลาของเพลงเริ่มต้น (ในโทเค็น)
- max_continuation_duration: ความยาวสูงสุดของแต่ละส่วนเพลงขยาย
- PROTMENT_MUSIC_DURATION: ความยาวของเพลงพื้นฐานที่ใช้ในการสร้างส่วนขยาย
ภาพ
- พรอมต์: ข้อความข้อความที่ใช้สร้างภาพ
- PROTMENT_MODIFIERS: ตัวดัดแปลงพรอมต์ที่ใช้เปลี่ยนสไตล์ภาพ
- model_id: รุ่นที่ใช้ในการสร้างภาพ
- อุปกรณ์ : อุปกรณ์ที่ใช้โดยรุ่นมักจะเป็นหนึ่งใน (CPU, CUDA, MPS)
- N_IMAGES: จำนวนภาพที่จะสร้างขึ้น
- Inference_steps: จำนวนขั้นตอนการอนุมานสำหรับโมเดลการแพร่กระจาย
- ความสูง: ความสูงของภาพที่สร้างขึ้น
- ความกว้าง: ความกว้างของภาพที่สร้างขึ้น
วิดีโอ
- model_id: โมเดลที่ใช้ในการเคลื่อนไหวภาพ
- อุปกรณ์ : อุปกรณ์ที่ใช้โดยรุ่นมักจะเป็นหนึ่งใน (CPU, CUDA, MPS)
- n_continuations: จำนวนเซ็กเมนต์แอนิเมชั่นที่จะสร้างขึ้น
- LOOP_VIDEO: ถ้าแต่ละมิวสิควิดีโอจะวนวน
- วิดีโอ _fps: เฟรมต่อวินาทีของแต่ละคลิปวิดีโอ
- decode_chunk_size: พารามิเตอร์การถอดรหัสขนาดของการแพร่กระจายของวิดีโอ
- motion_bucket_id: พารามิเตอร์ ID Motion Bucket ID ของ Video Diffusion
- Noise_aug_strength: พารามิเตอร์ Aug Aug ของ Video Diffusion
AUDIO_CLIP
- n_music_loops: จำนวนครั้งที่จะวนรอบเพลงแต่ละเพลง

คำสั่ง

สร้างภาพนักเทียบท่า

make build

ใช้ผ้าสำลีและการจัดรูปแบบกับรหัส (จำเป็นสำหรับการพัฒนาเท่านั้น)

make lint

เรียกใช้ไปป์ไลน์ทั้งหมดเพื่อสร้างมิวสิควิดีโอ

make ai_beats

เรียกใช้ขั้นตอนการสร้างเพลง

make music

เรียกใช้ขั้นตอนต่อเนื่องทางดนตรี

make music_continuation

เรียกใช้ขั้นตอนการสร้างภาพ

make image

เรียกใช้ขั้นตอนการสร้างวิดีโอ

make video

เรียกใช้ขั้นตอนการสร้างคลิปเสียง

make audio_clip

การพัฒนา

เพื่อการพัฒนาตรวจสอบให้แน่ใจว่าได้ติดตั้ง requirements-dev.txt และเรียกใช้ make lint เพื่อรักษารูปแบบการเข้ารหัส

ความต้องการ

ฉันพัฒนาและทดสอบโครงการส่วนใหญ่ใน MacBook Pro M2 ของฉันขั้นตอนเดียวที่ฉันไม่สามารถเรียกใช้ได้คือขั้นตอนการสร้างวิดีโอเพราะฉันใช้ Google Colab (พร้อม V100 หรือ A100 GPU) แบบจำลองบางรุ่นไม่สามารถใช้งานได้บน MPS แต่พวกเขาทำงานในเวลาที่เหมาะสม

คำเตือน

แบบจำลองที่ใช้โดยค่าเริ่มต้นที่นี่มีใบอนุญาตเฉพาะที่อาจไม่เหมาะสำหรับกรณีการใช้งานทั้งหมดหากคุณต้องการใช้โมเดลเดียวกันตรวจสอบให้แน่ใจว่าได้ตรวจสอบใบอนุญาต สำหรับ Music Generation MusicGen และใบอนุญาต CC-BY-NC 4.0 สำหรับการสร้างภาพ SDXL-Turbo และใบอนุญาต LICANT-SDXL1.0 และการแพร่กระจายวิดีโอที่เสถียร