Этот ноутбук Colab предоставляет пошаговое руководство для создания видео с глубоким фарцовым видео, клонируя голос на видео. Процесс включает в себя загрузку видео и голосовых файлов, переименование их, извлечение звука, создание аудио кусков и, наконец, использование Wav2Lip для генерации DeepFake.
Перед выполнением этого ноутбука нам нужно иметь папку в нашем диске Google с именем deepfake , по крайней мере, с видеофайлом (формат MP4). Настоятельно рекомендуется также включить файл аудио (формат MP3), чтобы клонировать голос. Специально для случаев неанглийского языка в видео, также важно загрузить английский аудиофайл.
ВНИМАНИЕ: Текстовая подсказка должна быть разделена с '|' Каждое до двух предложений (каждые ~ 20 секунд, которые требуются для его прочтения). Если вы получите какие -либо предупреждения и предложено перезапуск (после установки библиотеки - например, Librosa, как показано на рисунке ниже), нажмите «Отмена». В бесплатной версии (T4 или V100 с VRAM 15 ГБ и ~ 13 ГБ ОЗУ) максимальная продолжительность звука/видео может составлять ~ 50 секунд (требуется ~ 30 минут для запуска сценария и получения результатов). Для более длинной текстовой подсказки необходим более крупный графический процессор (платная версия с использованием L4 с 22,5 ГБ VRAM и ~ 63 ГБ оперативной памяти или A100 с 40 ГБ VRAM и ~ 84 ГБ ОЗУ - последний использует больше единиц/час).

from google . colab import drive
drive . mount ( '/content/gdrive' )
cd gdrive / MyDrive / deepfakeУкажите базовый путь для видео и аудиофайлов.
base_path = '/content/gdrive/MyDrive/deepfake'Установите библиотеки TTS, Pydub и MoviePy.
!p ip install - q pydub == 0.25 . 1 TTS == 0.22 . 0 moviepy == 1.0 . 3Установите английский текст, который будет прочитан с помощью клонированного голоса.
text_to_read = "Joining two modalities results in a surprising increase in generalization! \ n What would happen if we combined them all? " Переименуйте загруженные аудио и видеофайлы в input_voice.mp3 и video_full.mp4 соответственно.
Если предоставлено только видео, извлеките из него аудио, чтобы использовать индивидуума.
Создайте папку с 10-секундными кусками звука, которые будут использоваться в качестве входной канализации в черепахе.
Убедитесь, что аудио и видео имеют одинаковую продолжительность. Если нет, обрежьте более длинный, чтобы соответствовать более короткому (или сократить их обоих до 20 секунд).
Репозиторий клонов WAV2LIP GitHub, загрузите предварительно обученные модели и установите зависимости.
Запустите сценарий вывода Wav2Lip, чтобы сгенерировать видео DeepFake.
Удалите временные файлы и папки.