ดาวน์โหลด ai_trailer - ดาวน์โหลดซอร์สโค้ด ai

ai_trailer

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การสร้างรถพ่วงอัตโนมัติโดยใช้ AI

ฉันเขียนโพสต์บล็อกสองสามรายการที่เกี่ยวข้องกับโครงการนี้ตรวจสอบให้แน่ใจว่าได้ตรวจสอบพวกเขา

การสร้างตัวอย่างภาพยนตร์ด้วย AI อธิบายโครงการในรายละเอียดเพิ่มเติม
การใช้ Gemini 1.5 Pro เพื่อสร้างรถพ่วงวิดีโอสำรวจการใช้งานความสามารถวิดีโอ Gemini 1.5 Pro ในโครงการเดียวกันนี้

ฉันยังปรับโครงการนี้สำหรับการแข่งขัน "Google - Gemini Long Context" หากคุณต้องการดูเนื้อหาให้เช็คเอาท์ลิงก์ด้านล่าง

วิดีโอคำแนะนำสรุป
วิดีโอคำแนะนำที่สมบูรณ์
Kaggle Notebook
สมุดบันทึก Google Colab

แนวคิดของพื้นที่เก็บข้อมูลนี้คือการสร้างตัวเลือกรถพ่วงสำหรับวิดีโอที่กำหนดโดยอัตโนมัติผู้ใช้จะต้องจัดเตรียมไฟล์วิดีโอและพารามิเตอร์ข้อความสองสามตัวและทุกอย่างได้รับการดูแล

มันทำงานอย่างไร?

ก่อนอื่นเราเลือกใช้พล็อตของวิดีโอที่ IMDB และแยกออกเป็นแผนย่อยแทนที่จะใช้ที่จาก IMDB คุณสามารถให้พล็อตของคุณเองหรือปรับเปลี่ยนแผนการย่อยเหล่านั้นจะอธิบายส่วนหลักของวิดีโอและต่อไปเราสร้างเสียงสำหรับแต่ละแผนย่อย ตอนนี้เรามีส่วนที่พูดของรถพ่วงเราเพียงแค่ต้องใช้คลิปสั้น ๆ ที่สอดคล้องกับแต่ละแผนย่อยและใช้เสียงกับพวกเขาเราทำสิ่งนี้โดยการสุ่มตัวอย่างเฟรมจำนวนมากจากวิดีโอและใช้เฟรมที่คล้ายกันมากที่สุดในแต่ละแผนย่อย หลังจากสร้างส่วนเสียงและภาพของรถพ่วงเราเพียงแค่ต้องรวมเสียงแต่ละรายการเข้ากับคลิปที่สอดคล้องกันและในที่สุดก็เข้าร่วมคลิปทั้งหมดเข้าด้วยกันในรถพ่วงสุดท้าย

ขั้นตอนทั้งหมดเหล่านั้นจะสร้างไฟล์ระดับกลางที่คุณสามารถตรวจสอบและลบสิ่งที่คุณไม่ต้องการปรับปรุงผลลัพธ์ด้วยตนเอง

หมายเหตุ: ด้วยพารามิเตอร์เริ่มต้นสำหรับแต่ละแผนย่อยเพียงหนึ่งเสียงและคลิปหนึ่งคลิปจะถูกสร้างขึ้นดังนั้นการสร้างตัวเลือกรถพ่วงเพียงตัวเดียวเท่านั้น หากคุณต้องการสร้างผู้สมัครรถพ่วงเพิ่มเติมหรือมีตัวเลือกเพิ่มเติมเกี่ยวกับ n_audios = 3 และ n_retrieved_images = 3 ให้เลือกคุณสามารถเพิ่ม n_audios และ n_retrieved_images เพียงจำไว้ว่าผู้สมัครรถพ่วงจะเพิ่มขึ้นเรขาคณิตด้วยสิ่งนี้

ตัวอย่าง

Night of the Living Dead (1968)

Nosferatu (1922)

Fermi Paradox - มนุษย์ต่างดาวอยู่ที่ไหน?

พิพิธภัณฑ์ประวัติศาสตร์ธรรมชาติ (นิทรรศการไดโนเสาร์ใหม่) ทัวร์เดินเล่นใน 4K - วอชิงตันดีซี

การเปลี่ยนแปลง

2024/03/03 - เพิ่มการสนับสนุนเพื่อสร้างรถพ่วงสำหรับวิดีโอใด ๆ ไม่เพียง แต่ภาพยนตร์
2024/03/07 - เพิ่มการสนับสนุนในการดาวน์โหลดวิดีโอจาก YouTube

การใช้งาน

วิธีที่แนะนำในการใช้ที่เก็บนี้อยู่กับ Docker แต่คุณยังสามารถใช้ VENV ที่กำหนดเองได้เพียงตรวจสอบให้แน่ใจว่าได้ติดตั้งการอ้างอิงทั้งหมด

ผู้ใช้ต้องการเพียงสองอินพุต ไฟล์วิดีโอและ IMDB ID จากวิดีโอนั้น หลังจากนั้นคุณสามารถไปที่ไฟล์ configs.yaml และปรับค่าตามนั้น video_id จะเป็น IMDB ID และ video_path ควรชี้ไปที่ไฟล์วิดีโอคุณอาจต้องการอัปเดต project_name ไปยังชื่อ reference_voice_path ของคุณ

จะรับ IMDB ID สำหรับวิดีโอได้อย่างไร?

URL ของภาพยนตร์ใด ๆ ที่ IMDB จะมีลักษณะเช่นนี้ "https://www.imdb.com/title/tt0063350" ID จะเป็น ส่วนจำนวนเต็ม หลังจาก title/ ในกรณีนี้สำหรับ "Night of the Living Dead" มันจะเป็น 0063350

แอปพลิเคชันเวิร์กโฟลว์

การดึงวิดีโอ (ไม่บังคับ): ดาวน์โหลดวิดีโอจาก YouTube
พล็อตดึงข้อมูล (ไม่บังคับ): รับพล็อตของวิดีโอจาก IMDB
แผนย่อยแยก: แบ่งพล็อตออกเป็นแผนย่อย
การสร้างเสียง: สร้างเสียงสำหรับแต่ละแผนย่อย
การสุ่มตัวอย่างเฟรม: ตัวอย่างหลายเฟรมจากวิดีโอ
การจัดอันดับเฟรม: เลือกเฟรมที่คล้ายกับแต่ละแผนย่อยมากที่สุด
คลิป: สร้างคลิปวิดีโอสำหรับแต่ละเฟรมที่เลือก
คลิปเสียง: เพิ่มเสียงที่สร้างขึ้นที่ขั้นตอนที่ 2 ในแต่ละคลิปที่เกี่ยวข้อง
เข้าร่วมคลิป: เข้าร่วมคลิปเสียงทั้งหมดเพื่อสร้างตัวอย่าง

กำหนดค่า

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

Project_dir : โฟลเดอร์ที่จะโฮสต์โครงการทั้งหมดของคุณ
Project_name : ชื่อโครงการและโฟลเดอร์หลักอาจเป็นชื่อใดก็ได้ที่คุณต้องการ
Video_Path : เส้นทางไปยังไฟล์วิดีโอ
plot_filename : ชื่อไฟล์ที่จะเก็บพล็อตวิดีโอ
วิดีโอ _retrieval :
- video_url : URL เสริมจากวิดีโอ YouTube
plot_retrieval :
- video_id : IMDB ID เสริมสำหรับวิดีโอ
แผนย่อย :
- Split_char : อักขระเสริมที่ใช้แยกข้อความพล็อต
เสียง :
- model_id : รหัสโหมด TTS ที่นี่ฉันใช้ coqui ai
- อุปกรณ์ : อุปกรณ์ที่ใช้โดยรุ่น TTS และความคล้ายคลึงกันมักจะเป็นหนึ่งใน (CPU, CUDA, MPS)
- reference_voice_path : พา ธ ไปยังไฟล์เสียงอ้างอิง (เสียงที่จะถูกโคลน)
- tts_language : อินพุตภาษาสำหรับรุ่น TTS
- N_AUDIOS : จำนวนเสียงที่จะสร้างต่อแผนการย่อย
frame_sampling :
- N_FRAMES : จำนวนเฟรมเป็นตัวอย่างจากวิดีโอ
frame_ranking :
- model_id : โมเดลความคล้ายคลึงกันที่ใช้ในการจัดอันดับเฟรม
- อุปกรณ์ : อุปกรณ์ที่ใช้โดยรุ่น TTS และความคล้ายคลึงกันมักจะเป็นหนึ่งใน (CPU, CUDA, MPS)
- n_retriefiew_images : จำนวนเฟรมที่ดึงมาต่อแผนย่อย
- LamentY_BATCH_SIZE : ขนาดแบทช์ที่ใช้โดยโมเดลความคล้ายคลึงกันในการฝังเฟรม
คลิป :
- min_clip_len : ความยาวขั้นต่ำของคลิป
AUDIO_CLIP :
- clip_volume : เปอร์เซ็นต์ของปริมาณคลิปดั้งเดิมที่จะเก็บไว้สำหรับคลิปสุดท้าย
- Voice_volume : เปอร์เซ็นต์ของปริมาณเสียงที่สร้างขึ้นเพื่อเก็บไว้สำหรับคลิปสุดท้าย

คำสั่ง

สร้างภาพนักเทียบท่า

make build

เรียกใช้ไปป์ไลน์ทั้งหมดเพื่อสร้างตัวอย่างที่เริ่มต้นจากวิดีโอและพล็อต

make trailer

เรียกใช้ไปป์ไลน์ทั้งหมดเพื่อสร้างตัวอย่างที่เริ่มต้นจากวิดีโอและดึงพล็อตจาก IMDB

make trailer_imdb

เรียกใช้ไปป์ไลน์ทั้งหมดเพื่อสร้างตัวอย่างที่เริ่มต้นจากพล็อตและดาวน์โหลดวิดีโอจาก YouTube

make trailer_youtube

เรียกใช้ไปป์ไลน์ทั้งหมดเพื่อสร้างตัวอย่างการดาวน์โหลดวิดีโอจาก YouTube และดึงพล็อตจาก IMDB

make trailer_imdb_youtube

เรียกใช้ขั้นตอนการดึงวิดีโอ

make video_retrieval

เรียกใช้ขั้นตอนการดึงพล็อต

make plot_retrieval

เรียกใช้ขั้นตอนย่อย

make subplot

เรียกใช้ขั้นตอนเสียง

make voice

เรียกใช้ขั้นตอนเฟรม (การสุ่มตัวอย่างเฟรม)

make frame

เรียกใช้ขั้นตอน image_retrieval (การจัดอันดับเฟรม)

make image_retrieval

เรียกใช้ขั้นตอนคลิป

make clip

เรียกใช้ขั้นตอน Audio_clip

make audio_clip

เรียกใช้ขั้นตอน join_clip

make join_clip

ใช้ผ้าสำลีและการจัดรูปแบบกับรหัส (จำเป็นสำหรับการพัฒนาเท่านั้น)

make lint

การพัฒนา

เพื่อการพัฒนาตรวจสอบให้แน่ใจว่าได้ติดตั้ง requirements-dev.txt และเรียกใช้ make lint เพื่อรักษารูปแบบการเข้ารหัส

คำเตือน

โดยค่าเริ่มต้นฉันใช้ XTTS จาก Coqui AI โมเดลอยู่ภายใต้ใบอนุญาตโมเดลสาธารณะของ Coqui ตรวจสอบให้แน่ใจว่าได้ดูที่นั่นหากคุณวางแผนที่จะใช้ผลลัพธ์ที่นี่

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-08
ขนาด 555.18KB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

ai_trailer

การสร้างรถพ่วงอัตโนมัติโดยใช้ AI

ฉันเขียนโพสต์บล็อกสองสามรายการที่เกี่ยวข้องกับโครงการนี้ตรวจสอบให้แน่ใจว่าได้ตรวจสอบพวกเขา

ฉันยังปรับโครงการนี้สำหรับการแข่งขัน "Google - Gemini Long Context" หากคุณต้องการดูเนื้อหาให้เช็คเอาท์ลิงก์ด้านล่าง

มันทำงานอย่างไร?

ตัวอย่าง

Night of the Living Dead (1968)

Nosferatu (1922)

Fermi Paradox - มนุษย์ต่างดาวอยู่ที่ไหน?

พิพิธภัณฑ์ประวัติศาสตร์ธรรมชาติ (นิทรรศการไดโนเสาร์ใหม่) ทัวร์เดินเล่นใน 4K - วอชิงตันดีซี

การเปลี่ยนแปลง

การใช้งาน

จะรับ IMDB ID สำหรับวิดีโอได้อย่างไร?

แอปพลิเคชันเวิร์กโฟลว์

กำหนดค่า

คำสั่ง

การพัฒนา

คำเตือน

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

AI เหลือบมองเพียงครั้งเดียว

สาวเอไอ

การวาดภาพเอไอ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express