end to end_deepfake_colab скачать - end to end_deepfake_colab исходный код скачать

end to end_deepfake_colab

AI Исходный код

1.0.0

Скачать

Сквозное поколение видео

Обзор

Этот ноутбук Colab предоставляет пошаговое руководство для создания видео с глубоким фарцовым видео, клонируя голос на видео. Процесс включает в себя загрузку видео и голосовых файлов, переименование их, извлечение звука, создание аудио кусков и, наконец, использование Wav2Lip для генерации DeepFake.

Шаги

Перед выполнением этого ноутбука нам нужно иметь папку в нашем диске Google с именем deepfake , по крайней мере, с видеофайлом (формат MP4). Настоятельно рекомендуется также включить файл аудио (формат MP3), чтобы клонировать голос. Специально для случаев неанглийского языка в видео, также важно загрузить английский аудиофайл.

ВНИМАНИЕ: Текстовая подсказка должна быть разделена с '|' Каждое до двух предложений (каждые ~ 20 секунд, которые требуются для его прочтения). Если вы получите какие -либо предупреждения и предложено перезапуск (после установки библиотеки - например, Librosa, как показано на рисунке ниже), нажмите «Отмена». В бесплатной версии (T4 или V100 с VRAM 15 ГБ и ~ 13 ГБ ОЗУ) максимальная продолжительность звука/видео может составлять ~ 50 секунд (требуется ~ 30 минут для запуска сценария и получения результатов). Для более длинной текстовой подсказки необходим более крупный графический процессор (платная версия с использованием L4 с 22,5 ГБ VRAM и ~ 63 ГБ оперативной памяти или A100 с 40 ГБ VRAM и ~ 84 ГБ ОЗУ - последний использует больше единиц/час).

1. Загрузить видео и голосовые файлы

Установите Google Drive для доступа к файлам.
Изменить каталог на указанный путь.

 from google . colab import drive
drive . mount ( '/content/gdrive' )

cd gdrive / MyDrive / deepfake

2. Установите базовый путь

Укажите базовый путь для видео и аудиофайлов.

 base_path = '/content/gdrive/MyDrive/deepfake'

3. Установите зависимости

Установите библиотеки TTS, Pydub и MoviePy.

!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3

4. Установите текст, чтобы прочитать

Установите английский текст, который будет прочитан с помощью клонированного голоса.

 text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? "

5. Переименовать аудио и видеофайлы

Переименуйте загруженные аудио и видеофайлы в input_voice.mp3 и video_full.mp4 соответственно.

6. Извлеките аудио из видео (при необходимости)

Если предоставлено только видео, извлеките из него аудио, чтобы использовать индивидуума.

7. Создайте аудио куски

Создайте папку с 10-секундными кусками звука, которые будут использоваться в качестве входной канализации в черепахе.

8. Подтвердите продолжительность аудио и видео

Убедитесь, что аудио и видео имеют одинаковую продолжительность. Если нет, обрежьте более длинный, чтобы соответствовать более короткому (или сократить их обоих до 20 секунд).