이 Colab 노트북은 음성을 비디오에 복제하여 Deepfake 비디오를 생성하기위한 단계별 안내서를 제공합니다. 이 프로세스에는 비디오 및 음성 파일을 업로드하고, 이름 바꾸기, 오디오 추출, 오디오 청크 생성 및 마침내 DeepFake 생성을 위해 WAV2LIP를 사용하는 것이 포함됩니다.
이 노트북을 실행하기 전에 Google 드라이브에는 deepfake 라는 폴더가 있어야 최소한 비디오 파일 (MP4 형식)이 있어야합니다. 음성을 복제하기 위해 오디오 (MP3 형식) 파일을 포함하는 것이 좋습니다. 특히 비디오에서 영어가 아닌 언어의 경우 영어 오디오 파일도 업로드해야합니다.
주의 : 텍스트 프롬프트를 '|'로 분리해야합니다. 1 ~ 2 개의 문장 (모든 ~ 20 초마다 읽는 데 걸립니다). 경고와 다시 시작 세션이 제안되면 (아래 그림과 같이 라이브러리를 설치 한 후에) '취소'를 클릭하십시오. 무료 버전 (15GB VRAM 및 ~ 13GB RAM의 T4 또는 V100)에서 최대 오디오/비디오 지속 시간은 ~ 50 초가 될 수 있습니다 (스크립트를 실행하고 결과를 얻는 데 ~ 30 분이 걸립니다). 더 긴 텍스트 프롬프트의 경우 더 큰 GPU가 필요합니다 (22.5GB VRAM 및 ~ 63GB RAM을 사용한 L4 또는 40GB VRAM 및 ~ 84GB RAM의 A100을 사용한 유료 버전 - 후자는 더 많은 컴퓨팅 장치를 사용합니다).

from google . colab import drive
drive . mount ( '/content/gdrive' )
cd gdrive / MyDrive / deepfake비디오 및 오디오 파일의 기본 경로를 지정하십시오.
base_path = '/content/gdrive/MyDrive/deepfake'TTS, PYDUB 및 MOVEEPY 라이브러리를 설치하십시오.
!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3복제 된 목소리로 읽을 영어 텍스트를 설정하십시오.
text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? " 업로드 된 오디오 및 비디오 파일의 이름을 각각 input_voice.mp3 및 video_full.mp4 로 바꿉니다.
비디오 만 제공되면 오디오를 추출하여 사용하여 개인을 복제하십시오.
거북이의 입력으로 사용될 10 초 덩어리의 오디오 덩어리가있는 폴더를 만듭니다.
오디오와 비디오의 지속 시간이 같은지 확인하십시오. 그렇지 않다면 더 긴 것을 다듬어 짧은 것을 일치 시키십시오 (또는 둘 다 20 초로 자릅니다).
복제 WAV2LIP GITHUB 저장소, 미리 훈련 된 모델을 다운로드하고 의존성을 설치하십시오.
wav2lip 추론 스크립트를 실행하여 Deepfake 비디오를 생성하십시오.
임시 파일과 폴더를 제거하십시오.