end to end_deepfake_colab Descargar - end to end_deepfake

end to end_deepfake_colab

Código Fuente de IA

1.0.0

Descargar

Generación de videos Deepfake de extremo a extremo

Descripción general

Este cuaderno de Colab proporciona una guía paso a paso para generar un video de Deepfake clonando una voz en un video. El proceso implica cargar archivos de video y voz, renombrarlos, extraer audio, crear fragmentos de audio y finalmente usar WAV2LIP para Deepfake Generation.

Pasos

Antes de ejecutar este cuaderno, necesitamos tener una carpeta en nuestra unidad de Google llamada deepfake con al menos un archivo de video (formato MP4). Se recomienda encarecidamente que también incluya un archivo de audio (formato mp3) para clonar la voz. Especialmente para casos de idioma no inglés en el video, también es esencial cargar un archivo de audio en inglés.

PRECAUCIÓN: el mensaje de texto debe separarse con '|' cada una o dos oraciones (cada ~ 20 segundos se necesitan para leerlo). Si obtiene alguna advertencia y se sugiere una sesión de reinicio (después de instalar una biblioteca, por ejemplo, la biblioteca, como se muestra en la figura a continuación), haga clic en 'Cancelar'. En la versión gratuita (T4 o V100 con 15 GB de VRAM y ~ 13 GB de RAM), la duración máxima de audio/video puede ser de ~ 50 segundos (tarda ~ 30 minutos en ejecutar el script y obtener resultados). Para un mensaje de texto más largo se necesita una GPU más grande (la versión pagada que usa L4 con 22.5GB VRAM y ~ 63 GB de RAM o A100 con VRAM de 40 GB y ~ 84 GB de RAM: este último usa más unidades de cómputo/hora).

1. Sube archivos de video y voz

Mount Google Drive para acceder a archivos.
Cambiar directorio a la ruta especificada.

 from google . colab import drive
drive . mount ( '/content/gdrive' )

cd gdrive / MyDrive / deepfake

2. Establezca la ruta base

Especifique la ruta base para archivos de video y audio.

 base_path = '/content/gdrive/MyDrive/deepfake'

3. Instalar dependencias

Instale las bibliotecas TTS, Pydub y Moviepy.

!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3

4. Establezca texto para leer

Establezca el texto en inglés que se lee con la voz clonada.

 text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? "

5. Cambiar el nombre de los archivos de audio y video

Cambie el nombre de los archivos de audio y video cargados a input_voice.mp3 y video_full.mp4 , respectivamente.

6. Extraiga audio del video (si es necesario)

Si solo se proporciona un video, extraiga el audio para que se use para clonar al individuo.

7. Crea trozos de audio

Cree una carpeta con trozos de audio de 10 segundos para ser utilizados como entrada en Tortoise.

8. Confirme la duración de audio y video

Asegúrese de que el audio y el video tengan la misma duración. Si no, recorte el más largo para que coincida con el más corto (o córtelos a ambos a 20 segundos).