ai_trailer 다운로드 ai_trailer 소스 코드 다운로드

ai_trailer

기타 소스코드

1.0.0

다운로드

AI를 사용한 자동 트레일러 생성

이 프로젝트와 관련된 몇 개의 블로그 게시물을 작성했습니다.

AI를 사용하여 영화 예고편 제작에 대해 자세한 내용으로 프로젝트를 설명합니다.
Gemini 1.5 Pro를 사용하여 비디오 트레일러 생성이 동일한 프로젝트에서 Gemini 1.5 Pro 비디오 기능의 사용법을 탐색합니다.

또한이 프로젝트를 "Google -Gemini Long Context"Kaggle 대회에 적용했습니다. 콘텐츠를 살펴보고 아래 링크를 확인하십시오.

요약 된 연습 비디오
완전한 연습 비디오
Kaggle 노트북
Google Colab 노트북

이 저장소의 아이디어는 주어진 비디오에 대한 여러 트레일러 후보를 자동으로 생성하는 것입니다. 사용자는 비디오 파일과 몇 개의 텍스트 매개 변수 만 제공하면됩니다.

어떻게 작동합니까?

먼저, 우리는 선택적으로 IMDB에서 비디오의 플롯을 가져 와서 서브 플로트로 나누고, IMDB에서 가져 오는 대신 자신의 플롯을 제공하거나 수정할 수 있습니다. 해당 서브 플롯은 비디오의 주요 부분을 대략 설명하고 다음 서브 플롯에 대한 음성을 생성합니다. 이제 트레일러의 구어체 부분이 있으므로 각 서브 플롯에 해당하는 짧은 클립을 가져 와서 음성을 적용해야합니다. 비디오에서 많은 프레임을 샘플링하고 각 서브 플롯과 가장 유사한 프레임을 가져 와서 각 서브 플롯을 가장 잘 나타내는 이미지가 있습니다. 다음 단계는 각 프레임에서 몇 초의 클립을 가져가는 것입니다. 트레일러의 오디오 및 시각적 부분을 생성 한 후 각 오디오를 해당 클립과 결합하고 마지막으로 모든 클립을 최종 트레일러에 결합하면됩니다.

이 모든 단계는 결과를 개선하고 싶지 않은 것을 검사하고 수동으로 제거 할 수있는 중간 파일을 생성합니다.

참고 : 기본 매개 변수를 사용하면 각 서브 플롯마다 하나의 오디오와 하나의 클립 만 생성되어 하나의 트레일러 후보 만 생성됩니다. 더 많은 트레일러 후보자를 만들거나 더 많은 오디오 및 클립 옵션을 선택할 수 있으려면 n_audios 및 n_retrieved_images 증가시킬 수 있습니다. 트레일러 후보자는 n_audios = 3 및 n_retrieved_images = 3 에 대해이와 함께 기하학적으로 증가한다는 점을 명심하십시오.

예

살아있는 죽은 밤 (1968)

노스 페라 투 (1922)

Fermi 역설 - 모든 외계인은 어디에 있습니까?

자연사 박물관 (New Dinosaur 전시회) 4K의 워킹 투어 - 워싱턴 DC

changelog

2024/03/03- 영화뿐만 아니라 모든 비디오의 트레일러를 만드는 지원이 추가되었습니다.
2024/03/07- YouTube에서 비디오를 다운로드하기위한 지원이 추가되었습니다.

용법

이 저장소를 사용하는 것이 권장되는 접근 방식은 Docker와 함께 있지만 사용자 정의 Venv를 사용할 수도 있습니다. 모든 종속성을 설치하십시오.

사용자는 해당 비디오의 두 가지 입력, 비디오 파일과 IMDB ID 만 제공하면됩니다 . 그런 다음 configs.yaml 파일로 이동하여 값을 조정할 수 있습니다. video_id imdb id가되며 video_path 비디오 파일을 가리킬 수 있으므로 project_name 비디오 이름으로 업데이트하고 reference_voice_path 로 참조 음성을 제공 할 수도 있습니다.

비디오의 IMDB ID를 얻는 방법은 무엇입니까?

IMDB의 모든 영화의 URL 은이 "https://www.imdb.com/title/ttt0063350"처럼 0063350 것입니다. ID는 title/ 이후의 정수 부분이 될 것입니다.

애플리케이션 워크 플로

비디오 검색 (선택 사항) : YouTube에서 비디오를 다운로드하십시오
플롯 검색 (선택 사항) : IMDB에서 비디오의 플롯을 가져옵니다
서브 플롯 분할 : 플롯을 서브 플롯으로 분할하십시오
음성 생성 : 각 서브 플롯에 대한 음성을 생성합니다
프레임 샘플링 : 비디오에서 여러 프레임을 샘플링합니다
프레임 순위 : 각 서브 플롯과 가장 유사한 프레임을 선택하십시오.
클립 : 선택한 각 프레임에 대한 비디오 클립 생성
오디오 클립 : 2 단계에서 생성 된 음성 추가 각 해당 클립에 추가
클립에 가입 : 모든 오디오 클립에 가입하여 트레일러를 작성하십시오.

구성

 project_dir: 'projects'
project_name: Natural_History_Museum
video_path: 'movies/Natural_History_Museum.mp4'
plot_filename: 'plot.txt'
video_retrieval:
  video_url: 'https://www.youtube.com/watch?v=fdcEKPS6tOQ'
plot_retrieval:
  video_id: 
subplot:
  split_char:
voice:
  model_id: 'tts_models/multilingual/multi-dataset/xtts_v2'
  device: cpu
  reference_voice_path: 'voices/sample_voice.wav'
  tts_language: en
  n_audios: 1
frame_sampling:
  n_frames: 500
frame_ranking:
  model_id: 'clip-ViT-B-32'
  device: cpu
  n_retrieved_images: 1
  similarity_batch_size: 128
clip:
  min_clip_len: 3
audio_clip:
  clip_volume: 0.1
  voice_volume: 1.0

project_dir : 모든 프로젝트를 호스팅하는 폴더
project_name : 프로젝트 이름과 기본 폴더, 원하는 이름 일 수 있습니다.
video_path : 비디오 파일로가는 경로
plot_filename : 비디오 플롯을 유지하는 파일 이름
video_retrieval :
- video_url : YouTube 비디오의 옵션 URL
plot_retrieval :
- video_id : 비디오의 옵션 IMDB ID
서브 플롯 :
- split_char : 플롯 텍스트를 분할하는 데 사용되는 선택적 문자
목소리 :
- model_id : tts mode id, 여기 나는 coqui ai를 사용하고 있습니다.
- 장치 : TTS 및 유사성 모델에서 사용되는 장치 (일반적으로 CPU, CUDA, MPS)
- reference_voice_path : 참조 오디오 파일로가는 경로 (복제 될 음성)
- TTS_LANGUAGE : TTS 모델의 언어 입력
- n_audios : 서브 플롯 당 생성 할 오디오 수
frame_sampling :
- N_FRAMES : 비디오에서 샘플링 할 프레임 수
frame_ranking :
- model_id : 프레임 순위에있는 유사성 모델
- 장치 : TTS 및 유사성 모델에서 사용되는 장치 (일반적으로 CPU, CUDA, MPS)
- n_retrieved_images : 서브 플롯 당 검색 된 프레임 수
- 유사성 _batch_size : 프레임을 포함하기 위해 유사성 모델에서 사용하는 배치 크기
클립 :
- min_clip_len : 클립의 최소 길이
Audio_Clip :
- clip_volume : 최종 클립에 대해 보관할 원래 클립 볼륨의 백분율
- Voice_volume : 최종 클립에 대해 생성 된 음성 볼륨의 백분율

명령

Docker 이미지를 작성하십시오

make build

전체 파이프 라인을 실행하여 비디오와 플롯에서 시작하여 트레일러를 만듭니다.

make trailer

전체 파이프 라인을 실행하여 비디오에서 시작하여 트레일러를 만들고 IMDB에서 플롯을 검색하십시오.

make trailer_imdb

전체 파이프 라인을 실행하여 플롯에서 시작하여 예고편을 만들고 YouTube에서 비디오를 다운로드하십시오.

make trailer_youtube

전체 파이프 라인을 실행하여 YouTube에서 비디오를 다운로드하는 트레일러를 작성하고 IMDB에서 플롯 검색

make trailer_imdb_youtube

비디오 검색 단계를 실행하십시오

make video_retrieval

플롯 검색 단계를 실행하십시오

make plot_retrieval

서브 플롯 단계를 실행하십시오

make subplot

음성 단계를 실행하십시오

make voice

프레임 단계 실행 (프레임 샘플링)

make frame

image_retrieval 단계 실행 (프레임 순위)

make image_retrieval

클립 단계를 실행하십시오

make clip

Audio_Clip 단계를 실행하십시오

make audio_clip

join_clip 단계를 실행하십시오

make join_clip

보풀 및 서식을 코드에 적용합니다 (개발에만 필요)

make lint

개발

개발을 위해 요구 requirements-dev.txt 설치하고 make lint 유지하여 코딩 스타일을 유지하십시오.

면책 조항

기본적으로 나는 Coqui ai의 XTTS를 사용하고 있습니다. 모델은 Coqui Public 모델 라이센스 아래에 있습니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-03-08
크기 555.18KB
출처 Github

ai_trailer

AI를 사용한 자동 트레일러 생성

이 프로젝트와 관련된 몇 개의 블로그 게시물을 작성했습니다.

또한이 프로젝트를 "Google -Gemini Long Context"Kaggle 대회에 적용했습니다. 콘텐츠를 살펴보고 아래 링크를 확인하십시오.

어떻게 작동합니까?

예

살아있는 죽은 밤 (1968)

노스 페라 투 (1922)

Fermi 역설 - 모든 외계인은 어디에 있습니까?

자연사 박물관 (New Dinosaur 전시회) 4K의 워킹 투어 - 워싱턴 DC

changelog

용법

비디오의 IMDB ID를 얻는 방법은 무엇입니까?

애플리케이션 워크 플로

구성

명령

개발

면책 조항

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

한눈에 AI

AI 소녀

AI 그림

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express