AutoTalker скачать - загрузка исходного кода AutoTalker

AutoTalker

AI Исходный код

1.0.0

Скачать

Autotalker?

Проект Демо -видео

Проверьте демонстрационное видео, чтобы увидеть Autotalker в действии!

WhatsApp.video.2024-02-26.at.2.29.16.am.mp4

Пример

Ввод подсказка

"Объясните Python и их приложения за 30 секунд"

Входное изображение

Вывод видео

output_video.mp4

Описание проекта

Проект ученичества (TAP)

В быстро развивающемся ландшафте 21 -го века всеобъемлющее образование имеет первостепенное значение для подготовки студентов к навыкам, необходимым для процветания в современном обществе. Проект «Ученик» (TAP) посвящен развитию этих важных навыков 21-го века среди недостаточно обслуживаемых детей, зачисленных в государственные или частные школы с низким доходом.

TAP работает под эгидой Фонда Менрма, зарегистрированной компании, и с гордостью поддерживается уважаемыми учреждениями, такими как Гарвардский университет, IIM Bangalore и Фонд Потч. Как официальные партнеры с правительствами Махараштры и Дели, TAP оказывает значительное влияние, охватив более 31 000 детей благодаря его инновационному чат -боту.

Запись о проблеме

Ошеломляющее количество учащихся средних и старших классов-в течение 100 миллионов-от сообществ с низким уровнем дохода по всей Индии, не хватает критических навыков 21-го века, включая социальное и эмоциональное обучение (SEL) и финансовую грамотность. Традиционная экзаменационная система государственного образования усугубляет эту проблему, что приводит к тревожной статистике о том, что 1 из 2 детей, выпускных из индийской системы образования, считается безработной из-за отсутствия этих важных навыков.

Статистика финансовой грамотности:
- Только 16,7% индийских студентов -подростков обладают основной финансовой грамотностью.
- Только 27% индийского взрослого населения считаются финансово грамотными.

Цели устойчивого развития ООН (ЦУР)

TAP SHIGINESS Свои миссии с несколькими ЦУР ООН:

Цель 1: Без бедности
Цель 2: нулевой голод
Цель 3: Хорошее здоровье и благополучие
Цель 4: качественное образование
Цель 8: Приличная работа и экономический рост

Текущая система

Проект «Ученик» (TAP), работающий в рамках фонда Mentorme, дает возможность недооценке студентов через Tap Buddy-чат-бот WhatsApp, способствующий искусственному интеллекту. Tap Buddy предлагает выборки на видео, направляя студентов через независимые проекты, используя персонализированные (ML-обучение) и AI BOT на базе и содержание. Видео проекта самообучения способствуют таким навыкам, как креативность, уверенность, самосознание, общение и решение проблем, преодоление умственных барьеров и прививая мышление роста.

Проблемы и инновации

Поскольку использование чат -бота TAP продолжает расти, проект сталкивается с проблемами и ищет инновационные решения:

Создание курса: использование ИИ для создания контента для различных факультативных средств, таких как кодирование и визуальное искусство, с целью преодоления ограничений в создании оптового видео из -за ручных временных ограничений.
Персонализированное обучение: использование ИИ для создания персонализированных учебных пособий по кодированию или руководств по художественному проекту, адаптированных к индивидуальным стилям обучения и уровням мастерства. Расширенный анализ ML/Open AI адаптирует контент на основе прогресса учащегося, обеспечивая индивидуальный опыт обучения.
Создание контента: Использование ИИ для генерации фрагментов кода, шаблонов или дизайнерских идей для художественных проектов, руководство студентами на уровнях их мастерства и предлагая варианты исследования.
Художественное исследование: рекомендуя методы и стили, основанные на уровне квалификации ребенка, расширяя художественные горизонты, сравнивая их работы с известными художниками или художественными движениями.
Творческое кодирование: использование ИИ для мозгового штурма и вдохновляет инновационные и художественные проекты кодирования.

Подход и решение

Мой подход к решению проблем, с которыми сталкиваются TAP, включает в себя использование передовых технологий, включая обработку естественного языка (NLP), искусственный интеллект (ИИ) и машинное обучение (ML), для разработки автоокера-компонент TAP, направленного на улучшение опыта образования для студентов.

Autotalker использует расширенные модели ИИ и библиотеки, такие как Suno Bark TTS для преобразования текста в речь, генеративного AI Python SDK Google для генерации текста и Sadtalker для звука, сжимающих губ, с движениями лица в видео. Интегрируя эти технологии, Autotalker позволяет создавать привлекательный и информативный видеоконтент из текстовых подсказок и изображений.

Кроме того, проект включает в себя такие функции, как персонализированное обучение, помощь в создании контента и языковая поддержка, чтобы удовлетворить различные потребности и предпочтения в обучении. Используя власть ИИ, Autotalker дает возможность преподавателям и студентам получить доступ к высококачественному образовательному контенту, адаптированному к их индивидуальным требованиям, тем самым способствуя развитию основных навыков 21-го века.

Благодаря этому инновационному решению Tap стремится революционизировать ландшафт образования, преодоление разрыва в доступе к качественным учебным ресурсам и предоставление студентам из недостаточно обслуживаемых сообществ, чтобы полностью реализовать свой потенциал в цифровую эпоху.

О

Проект фокусируется на использовании технологий для создания новых курсов, персонализировать существующие и улучшить процесс оценки, что в конечном итоге способствует развитию навыков 21-го века у студентов. AutoTalker, компонент TAP, демонстрирует возможности ИИ в создании видео с синхронизацией губ из текстовых подсказок и изображений, улучшая общий опыт образования для студентов.

Он использует несколько библиотек, в том числе:

Suno Bark TTS: библиотека конверсии текста в речь, используемая для генерации звука из текстовых подсказок.
Pydub: библиотека манипуляций аудио для обработки аудиофайлов и форматов.
Google.Generativeai (Gemini Pro): Google Generative Ai Python SDK, используемый для генерации текста.
Sadtalker: модель с усилениями губ, используемая для синхронизации звука с движениями лица в видео.
Openai Whisper: библиотека для преобразования речи в текст, обеспечивающая настройку характеристик голоса.
Педальная плата Spotify: библиотека улучшения аудио для улучшения качества и эффектов аудиофайлов.
MoviePy: библиотека редактирования видео, которая облегчает задачи обработки и редактирования видео.
Pytorch: глубокая структура обучения, используемая для различных задач машинного обучения, включая функциональность Садтакера.
FFMPEG: мультимедийная структура, используемая для обработки мультимедийных данных, таких как аудио и видеофайлы.
Обнимание трансформаторов лица: библиотека, которая предоставляет предварительно обученные модели и различные утилиты для задач обработки естественного языка.
BetterTransformer: готов к производству быстрый путь для ускорения развертывания моделей трансформаторов с высокой производительностью на процессоре и графическом процессоре. Функция Fast Path работает прозрачно для моделей, основанных непосредственно на Pytorch Core NN.
Numpy: мощная библиотека численных вычислений для обработки больших многомерных массивов и матриц.
Gradio: удобная библиотека для создания настраиваемых компонентов пользовательского интерфейса вокруг моделей машинного обучения, обеспечивающая легкое развертывание и взаимодействие с моделями через веб-интерфейсы.

Функции

Преобразование текста в речь: использует Suno Bark TTS для преобразования текстовых подсказок в аудиофайлы (формат WAV).
Аудио -манипуляция: использует Pydub для задач манипуляции с аудио, повышение качества звука и применение желаемых эффектов.
Генеративный текст ИИ: использует генеративный AI Python SDK Google (Gemini Pro) для генерации текста, предоставляя различные и контекстуально релевантные подсказки.
Синхронизация губ: интегрирует Sadtalker, модель синхронизации губ, для синхронизации сгенерированного звука с движениями лица в видео.
Преобразование речи в текст: включает в себя Wepperai Whisper для преобразования речи в текст, что позволяет настраивать характеристики голоса.
Усовершенствование звука: использует педали Spotify для улучшения и применения эффектов к аудиофайлам, улучшая общее качество звука.
Редактирование видео: реализует MoviePy, библиотека редактирования видео, для задач обработки и редактирования видео, включая создание финальных видео с синхронизацией губ.
Глубокое обучение структура: использует Pytorch для его глубокого обучения, необходима для выполнения функциональности Садталкера.
Мультимедийная обработка: использует FFMPEG, мультимедийную структуру для обработки мультимедийных данных, таких как аудио и видеофайлы во время обработки.
Обработка естественного языка: интегрирует обнимающие трансформаторы лица, предлагая предварительно обученные модели и утилиты для задач обработки естественного языка.
Быстрый путь для моделей трансформаторов: включает в себя BetterTransformer, готовую к производству быстрый путь для ускоренного развертывания трансформаторных моделей как на процессоре, так и на графическом процессоре.
Численные вычисления: полагается на Numpy для мощных численных вычислений, особенно для обработки больших многомерных массивов и матриц.
Компоненты пользователя, удобные для пользователя: интегрирует Gradio, удобную библиотеку, чтобы создать настраиваемые компоненты пользовательского интерфейса вокруг моделей машинного обучения, облегчая простое развертывание и взаимодействие через веб-интерфейсы.
Языковая поддержка: поддерживает несколько языков, включая английский, китайский (упрощенный), французский, немецкий, хинди, итальянский, японский, корейский, польский, португальский, русский, испанский и турецкий.
Поддержка субтитров: в настоящее время доступна только для английского языка.

Эти функции в совокупности вносят свой вклад в генерацию видео-синхронизированных видео из подсказок и изображений ввода, при поддержке различных языков и субтитров на английском языке.

Начиная

Предварительные условия

Python 3.10.6
API -ключ из Google AI.
FFMPEG установлен.
Pytorch установлен. Убедитесь, что ваша система поддерживает CUDA.
ImageMagick установлен. Это требуется для фильма.
Садтакер установил.
Примечание. Убедитесь, что ваш графический процессор имеет минимум 4 ГБ VRAM при поддержке CUDA.

Установка

Установите Python 3.10.6:
- Загрузите и установите Python 3.10.6. Обратите внимание, что версии 3.11 и 3.12 не поддерживаются.
Установите ffmpeg:
- Следуйте соответствующим инструкциям для вашей системы.
Установите ImageMagick:
- Загрузите и установите Imagemagick.

Клонировать репозиторий AutoTalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Скачать Sadtalker с моделями и весами:
```
python download_models.py
```
Запустите вышеупомянутую команду и подождите, пока она не покажет «Загрузки завершены». Это загрузит Sadtalker вместе с необходимыми моделями и весами.
Создайте виртуальную среду:
```
python -m venv venv
```
Активировать виртуальную среду:
- На Linux/Mac:
```
 source venv/bin/activate
```
- В окнах:
```
. v env S cripts a ctivate
```
Установить зависимости:
```
pip install -r requirements.txt
```

Установите Pytorch с CUDA:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Теперь вы успешно настроили среду для проекта, обеспечивая соответствие графического процессора.

Использование

Структура проекта

Проект имеет следующую структуру:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Шаги по запуску Autotalker и открытии веб -пользовательского интерфейса Gradio:

Активировать виртуальную среду:
- Активируйте виртуальную среду, созданную ранее.
Настройте ключ API Gemini Pro:
- Откройте файл main.py
- Найдите строку: genai.configure(api_key="add your key here") .
- Замените "add your key here" на свой фактический ключ Gemini Pro Pro.
Запустите основной сценарий и веб -интерфейс Gradio:
- Скопируйте предоставленный код Gradio ( iface.launch() часть) из сценария.
Запустить Autotalker и запустить Gradio:
- В том же терминале, где активна ваша виртуальная среда, запустите сценарий Autotalker вместе с веб -интерфейсом Gradio.
```
python main.py
```
Доступ GREDIO WEB UI:
- После запуска сценария Gradio предоставит ссылку (обычно Localhost), где размещается веб -интерфейс. Откройте эту ссылку в своем веб -браузере.
Исследуйте интерфейс:
- Теперь у вас будет доступ к интерфейсу пользовательского интерфейса Gradio Web.
- Взаимодействуйте с предоставленными входными компонентами, такими как текстовые поля, радиопроизводительные кнопки, ползунки и параметры загрузки изображений.
Отправить и подождать:
- Нажмите на кнопку «Запуск интерфейса» или аналогично, чтобы отправить свой ввод.
- Gradio обработает ваш вход, генерирует выход и отобразит результаты в веб -интерфейсе.
Обзор вывод:
- Вывод может быть видео с субтитрами или без них, в зависимости от вашей конфигурации.
Изучите субтитры (если включены):
- Если вы включили поддержку субтитров, исследуйте субтитры, сгенерированные для видео.
Повторите и экспериментируйте:
- Не стесняйтесь экспериментировать с различными входами, подсказками и параметрами для создания различных выходов.
Close Gradio UI:
- Как только вы закончите, закройте пользовательский интерфейс Gradio Web.

Следуя этим комбинированным шагам, вы можете беспрепятственно запускать Autotalker, взаимодействовать с веб-пользовательским интерфейсом Gradio и испытать сгенерированные видео с синхронизацией губ.

Внося

Мы ценим ваш интерес к внесению вклад в наш проект! Чтобы обеспечить плавный и совместный опыт, следуйте этим рекомендациям:

Вилка репозитория:
- Начните с разбивания этого хранилища в свою учетную запись GitHub.

Клонировать репозиторий:

git clone https://github.com/YourUsername/AutoTalker.git

Создайте ветвь:
- Для каждого вклада создайте новую ветвь с описательным именем.
```
git checkout -b feature/your-feature-name
```
Вносить изменения:
- Реализуйте свои улучшения или исправления. Убедитесь, что ваши изменения соответствуют целям проекта.
Сделать изменения:
- Сделайте свои изменения с помощью четких и кратких сообщений о коммите.
```
git commit -m " Add your commit message here "
```
Изменения толкания:
- Встаньте свои изменения в свой раздвоенный репозиторий.
```
git push origin feature/your-feature-name
```
Создать запрос на вытягивание:
- Откройте запрос на притяжение из вашего раздвоенного хранилища в основной репозиторий.
- Предоставьте подробную информацию о ваших изменениях, обрисовав цель и воздействие.
Обзор и сотрудничайте:
- Вступайте в дискуссии, отвечайте на отзывы и сотрудничайте с сообществом, чтобы усовершенствовать ваш вклад.
Сквош совершает (при необходимости):
- Если ваш запрос на притяжение содержит несколько коммитов, рассмотрите возможность раздавить их в единый, хорошо структурированный коммит.
Слияние:
- После того, как ваш запрос на привлечение будет утвержден, он будет объединен в основной репозиторий.
Области, нуждающиеся в помощи: внедрение человеческих TTS

Если вы заинтересованы в значительном влиянии, рассмотрите возможность внесения вклад в реализацию человеческого текста в речь (TTS) для разнообразного набора языков, включая индийские региональные языки. Сосредоточьтесь на расширении возможностей TTS для мужских и женских голосов.

Поддерживаемые языки для реализации TTS, похожих на человека:

Арабский (AR)
Бенгальский (BN)
Болгарский (BG)
Хорватский (HR)
Чешский (CS)
Датский (да)
Голландский (NL)
Эстонский (ET)
Финский (FI)
Греческий (EL)
Иврит (IW)
Венгерский (Ху)
Индонезийский (ID)
Латвиан (LV)
Литовский (LT)
Норвежский (нет)
Румын (RO)
Сербский (SR)
Словацкий (SK)
Словенский (SL)
Суахили (SW)

Дополнительное внимание на индийских региональных языках:

Учитывая разнообразный лингвистический ландшафт в Индии, вклады в поддержку индийских региональных языков в ТТ высоко ценятся. Эти языки могут включать, но не ограничиваются:

хинди
Тамильский
телугу
Каннада
Малаялам
Пенджаби
Гуджарати
Маратхи
Бенгальский
Одиа
Ассамский
Урду

Ваши усилия по внедрению TTS для этих языков будут в значительной степени способствовать обеспечению образовательного контента доступным для более широкой аудитории, особенно в регионах с разнообразным языковым опытом.

Спасибо за рассмотрение этих важных вкладов в реализацию TTS, подобную человеку! Ваша работа сыграет жизненно важную роль в создании образовательного контента инклюзивным и доступным для учащихся из различных лингвистических слоев. ?

Лицензия

Этот проект лицензирован по лицензии MIT.

Благодарности

Этот проект признает следующие проекты с открытым исходным кодом и их участники:

Google AI Python SDK: Google AI Python SDK позволяет разработчикам использовать современные генеративные модели искусственного интеллекта Google (например, Близнецы и Палм) для создания функций и приложений, основанных на AI.
SADTALKER: [CVPR 2023] SADTALKER: Изучение реалистичных 3D-коэффициентов движения для стилизованного звукового одиночного изображения. Проект Opentalker.
Педальная доска: библиотека Python для работы с аудио, разработанная Spotify.
Whisper: надежное распознавание речи с помощью крупномасштабного слабого надзора, проекта с открытым исходным кодом от Openai.
Трансформеры, обнимая лицо :? Трансформеры: современное машинное обучение для Pytorch, Tensorflow и Jax.
Ускорить, обнимая лицо: простой способ обучения и использования моделей Pytorch с мульти-GPU, TPU, смешанными.
Оптимальный, обнимая лицо: ускорить обучение и вывод? Трансформеры и? Диффузоры с простыми в использовании инструментов оптимизации оборудования.
Кора от Suno AI:? Полученная генеративная аудио модель.
Pytorch: тензоры и динамические нейронные сети в Python с сильным ускорением GPU.

Эти проекты в значительной степени способствовали разработке и функциональности Autotalker, и мы выражаем нашу благодарность их соответствующим разработчикам и сопровождающим.

Расширять

Дополнительная информация