end to end_deepfake_colab Download - end to end_deepfake

end to end_deepfake_colab

AI-Quellcode

1.0.0

Herunterladen

End-to-End-Deepfake-Videogenerierung

Überblick

Dieses Colab-Notizbuch bietet eine Schritt-für-Schritt-Anleitung, um ein DeepFake-Video zu generieren, indem eine Stimme auf ein Video kloniert. Der Prozess umfasst das Hochladen von Video- und Sprachdateien, das Umbenennen, das Extrahieren von Audio, das Erstellen von Audiobrocken und die Verwendung von WAV2LIP für die DeepFake -Generierung.

Schritte

Bevor Sie dieses Notebook ausführen, müssen wir einen Ordner in unserem Google Drive namens deepfake mit mindestens eine Videodatei (MP4 -Format) haben. Es wird dringend empfohlen, auch eine Audio -Formatdatei (MP3 -Format) einzuschließen, um die Stimme aus zu klonen. Insbesondere für Fälle von nicht englischer Sprache im Video ist es wichtig, auch eine englische Audiodatei hochzuladen.

Achtung: Die Textaufforderung sollte mit '|' getrennt werden Jeder bis zwei Sätze (alle ~ 20 Sekunden, die es braucht, um es zu lesen). Wenn Sie Warnungen erhalten und eine Neustartsitzung vorgeschlagen werden (nach der Installation einer Bibliothek - z. B. Librosa, wie in der Abbildung unten gezeigt), klicken Sie auf "Abbrechen". In der kostenlosen Version (T4 oder V100 mit 15 GB VRAM und ~ 13 GB RAM) kann die maximale Audio-/Videodauer ~ 50 Sekunden betragen (dauert ~ 30 Minuten, um das Skript auszuführen und Ergebnisse zu erhalten). Für eine längere Textaufforderung wird eine größere GPU benötigt (bezahlte Version mit L4 mit 22,5 GB VRAM und ~ 63 GB RAM oder A100 mit 40 GB VRAM und ~ 84 GB RAM - letztere verwendet mehr Recheneinheiten/Stunde).

1. Laden Sie Video- und Sprachdateien hoch hoch

Mount Google Drive, um auf Dateien zuzugreifen.
Ändern Sie das Verzeichnis in den angegebenen Pfad.

 from google . colab import drive
drive . mount ( '/content/gdrive' )

cd gdrive / MyDrive / deepfake

2. Setzen Sie den Basispfad

Geben Sie den Basispfad für Video- und Audiodateien an.

 base_path = '/content/gdrive/MyDrive/deepfake'

3. Installieren Sie Abhängigkeiten

Installieren Sie TTS-, Pydub- und Moviepy -Bibliotheken.

!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3

4. Setzen Sie den Text auf das Lesen

Legen Sie den englischen Text fest, der mit der geklonten Stimme gelesen wird.

 text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? "

5. Benennen Sie Audio- und Videodateien um

Benennen Sie die hochgeladenen Audio- und Videodateien in input_voice.mp3 bzw. video_full.mp4 um.

6. Audio aus Video extrahieren (falls erforderlich)

Wenn nur ein Video bereitgestellt wird, extrahieren Sie Audio daraus, um das Individuum zu klonen.

7. Erstellen Sie Audio -Stücke

Erstellen Sie einen Ordner mit 10-Sekunden-Audiobrocken, die als Eingabe in der Schildkröte verwendet werden sollen.

8. Audio und Videodauer bestätigen

Stellen Sie sicher, dass Audio und Video die gleiche Dauer haben. Wenn nicht, abschneiden, je länger eine zu dem kürzeren entspricht (oder schneiden Sie sie beide auf 20 Sekunden).