end to end_deepfake_colab Download - end to end_deepfake

end to end_deepfake_colab

Kode Sumber AI

1.0.0

Unduh

Generasi video Deepfake End-to-End

Ringkasan

Colab Notebook ini menyediakan panduan langkah demi langkah untuk menghasilkan video Deepfake dengan mengkloning suara ke video. Prosesnya melibatkan pengunggahan file video dan suara, mengganti nama, mengekstraksi audio, membuat potongan audio, dan akhirnya menggunakan WAV2LIP untuk pembuatan DeepFake.

Tangga

Sebelum menjalankan buku catatan ini, kita perlu memiliki folder di Google Drive kami bernama deepfake dengan setidaknya file video (format MP4). Sangat disarankan untuk juga memasukkan file audio (format MP3) untuk mengkloning suara dari. Khusus untuk kasus bahasa non-Inggris dalam video, penting untuk mengunggah file audio bahasa Inggris juga.

Perhatian: Prompt teks harus dipisahkan dengan '|' Setiap satu hingga dua kalimat (setiap ~ 20 detik yang diperlukan untuk membacanya). Jika Anda mendapatkan peringatan dan restart sesi disarankan (setelah menginstal perpustakaan - misalnya Librosa, seperti yang ditunjukkan pada gambar di bawah), klik 'Batal'. Dalam versi gratis (T4 atau V100 dengan 15GB VRAM dan ~ 13GB RAM) Durasi audio/video maksimum dapat ~ 50 detik (membutuhkan ~ 30 menit untuk menjalankan skrip dan mendapatkan hasil). Untuk permintaan teks yang lebih panjang diperlukan GPU yang lebih besar (versi berbayar menggunakan L4 dengan 22.5GB VRAM dan ~ 63GB RAM atau A100 dengan VRAM 40GB dan ~ 84GB RAM - yang terakhir menggunakan lebih banyak unit/jam komputasi).

1. Unggah video dan file suara

Pasang Google Drive untuk mengakses file.
Ubah direktori ke jalur yang ditentukan.

 from google . colab import drive
drive . mount ( '/content/gdrive' )

cd gdrive / MyDrive / deepfake

2. Setel jalur dasar

Tentukan jalur dasar untuk file video dan audio.

 base_path = '/content/gdrive/MyDrive/deepfake'

3. Pasang dependensi

Instal perpustakaan TTS, PyDub, dan MoviePy.

!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3

4. Setel teks untuk dibaca

Atur teks bahasa Inggris yang akan dibaca dengan suara yang dikloning.

 text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? "

5. Ganti nama file audio dan video

Ubah nama file audio dan video yang diunggah ke input_voice.mp3 dan video_full.mp4 , masing -masing.

6. Ekstrak audio dari video (jika perlu)

Jika hanya video yang disediakan, ekstrak audio dari itu untuk digunakan untuk mengkloning individu.

7. Buat Potongan Audio

Buat folder dengan potongan audio 10 detik untuk digunakan sebagai input dalam kura-kura.

8. Konfirmasi durasi audio dan video

Pastikan audio dan video memiliki durasi yang sama. Jika tidak, rapikan yang lebih panjang agar sesuai dengan yang lebih pendek (atau potong keduanya hingga 20 detik).