該COLAB筆記本提供了逐步指南,以通過將聲音克隆到視頻上來生成Deepfake視頻。該過程涉及上傳視頻和語音文件,重命名,提取音頻,創建音頻塊以及最終使用Wav2lip進行DeepFake生成。
在執行此筆記本之前,我們需要在Google Drive中使用至少一個視頻文件(MP4格式)的Google Drive中有一個deepfake夾。強烈建議還包括一個音頻(mp3格式)文件以克隆聲音。特別是對於視頻中非英語語言的情況,也必須上傳英文音頻文件。
注意:文本提示應與“ |”分開每一到兩個句子(每〜20秒讀取它)。如果您提出任何警告並建議重新啟動會話(安裝庫後 - 例如Libersa,如下圖所示),請單擊“取消”。在免費版本(帶15GB VRAM和〜13GB RAM的T4或V100)中,最大音頻/視頻持續時間可以約為50秒(需要約30分鐘的時間來運行腳本並獲得結果)。對於更長的文本提示,需要更大的GPU(使用具有22.5GB VRAM的L4和〜63GB的RAM或A100的付費版本,帶有40GB VRAM和〜84GB RAM-後者使用更多的計算單元/小時)。

from google . colab import drive
drive . mount ( '/content/gdrive' )
cd gdrive / MyDrive / deepfake指定視頻和音頻文件的基本路徑。
base_path = '/content/gdrive/MyDrive/deepfake'安裝TTS,Pydub和Monypy庫。
!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3設置將用克隆聲音讀取的英文文字。
text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? " 分別將上傳的音頻和視頻文件重命名為input_voice.mp3和video_full.mp4 。
如果僅提供視頻,請從中提取音頻以克隆個人。
創建一個帶有10秒鐘的音頻的文件夾,以用作烏龜的輸入。
確保音頻和視頻的持續時間相同。如果不是,則修剪較短的一個(或將它們都切成20秒)匹配的較長的一個。
clone wav2lip github存儲庫,下載預訓練的模型和安裝依賴項。
運行WAV2LIP推理腳本以生成DeepFake視頻。
刪除臨時文件和文件夾。