Проверьте демонстрационное видео, чтобы увидеть Autotalker в действии!
Ввод подсказка
"Объясните Python и их приложения за 30 секунд"
Входное изображение

Вывод видео
В быстро развивающемся ландшафте 21 -го века всеобъемлющее образование имеет первостепенное значение для подготовки студентов к навыкам, необходимым для процветания в современном обществе. Проект «Ученик» (TAP) посвящен развитию этих важных навыков 21-го века среди недостаточно обслуживаемых детей, зачисленных в государственные или частные школы с низким доходом.
TAP работает под эгидой Фонда Менрма, зарегистрированной компании, и с гордостью поддерживается уважаемыми учреждениями, такими как Гарвардский университет, IIM Bangalore и Фонд Потч. Как официальные партнеры с правительствами Махараштры и Дели, TAP оказывает значительное влияние, охватив более 31 000 детей благодаря его инновационному чат -боту.
Ошеломляющее количество учащихся средних и старших классов-в течение 100 миллионов-от сообществ с низким уровнем дохода по всей Индии, не хватает критических навыков 21-го века, включая социальное и эмоциональное обучение (SEL) и финансовую грамотность. Традиционная экзаменационная система государственного образования усугубляет эту проблему, что приводит к тревожной статистике о том, что 1 из 2 детей, выпускных из индийской системы образования, считается безработной из-за отсутствия этих важных навыков.
TAP SHIGINESS Свои миссии с несколькими ЦУР ООН:
Проект «Ученик» (TAP), работающий в рамках фонда Mentorme, дает возможность недооценке студентов через Tap Buddy-чат-бот WhatsApp, способствующий искусственному интеллекту. Tap Buddy предлагает выборки на видео, направляя студентов через независимые проекты, используя персонализированные (ML-обучение) и AI BOT на базе и содержание. Видео проекта самообучения способствуют таким навыкам, как креативность, уверенность, самосознание, общение и решение проблем, преодоление умственных барьеров и прививая мышление роста.
Поскольку использование чат -бота TAP продолжает расти, проект сталкивается с проблемами и ищет инновационные решения:
Создание курса: использование ИИ для создания контента для различных факультативных средств, таких как кодирование и визуальное искусство, с целью преодоления ограничений в создании оптового видео из -за ручных временных ограничений.
Персонализированное обучение: использование ИИ для создания персонализированных учебных пособий по кодированию или руководств по художественному проекту, адаптированных к индивидуальным стилям обучения и уровням мастерства. Расширенный анализ ML/Open AI адаптирует контент на основе прогресса учащегося, обеспечивая индивидуальный опыт обучения.
Создание контента: Использование ИИ для генерации фрагментов кода, шаблонов или дизайнерских идей для художественных проектов, руководство студентами на уровнях их мастерства и предлагая варианты исследования.
Художественное исследование: рекомендуя методы и стили, основанные на уровне квалификации ребенка, расширяя художественные горизонты, сравнивая их работы с известными художниками или художественными движениями.
Творческое кодирование: использование ИИ для мозгового штурма и вдохновляет инновационные и художественные проекты кодирования.
Мой подход к решению проблем, с которыми сталкиваются TAP, включает в себя использование передовых технологий, включая обработку естественного языка (NLP), искусственный интеллект (ИИ) и машинное обучение (ML), для разработки автоокера-компонент TAP, направленного на улучшение опыта образования для студентов.
Autotalker использует расширенные модели ИИ и библиотеки, такие как Suno Bark TTS для преобразования текста в речь, генеративного AI Python SDK Google для генерации текста и Sadtalker для звука, сжимающих губ, с движениями лица в видео. Интегрируя эти технологии, Autotalker позволяет создавать привлекательный и информативный видеоконтент из текстовых подсказок и изображений.
Кроме того, проект включает в себя такие функции, как персонализированное обучение, помощь в создании контента и языковая поддержка, чтобы удовлетворить различные потребности и предпочтения в обучении. Используя власть ИИ, Autotalker дает возможность преподавателям и студентам получить доступ к высококачественному образовательному контенту, адаптированному к их индивидуальным требованиям, тем самым способствуя развитию основных навыков 21-го века.
Благодаря этому инновационному решению Tap стремится революционизировать ландшафт образования, преодоление разрыва в доступе к качественным учебным ресурсам и предоставление студентам из недостаточно обслуживаемых сообществ, чтобы полностью реализовать свой потенциал в цифровую эпоху.
Проект фокусируется на использовании технологий для создания новых курсов, персонализировать существующие и улучшить процесс оценки, что в конечном итоге способствует развитию навыков 21-го века у студентов. AutoTalker, компонент TAP, демонстрирует возможности ИИ в создании видео с синхронизацией губ из текстовых подсказок и изображений, улучшая общий опыт образования для студентов.
Он использует несколько библиотек, в том числе:
Эти функции в совокупности вносят свой вклад в генерацию видео-синхронизированных видео из подсказок и изображений ввода, при поддержке различных языков и субтитров на английском языке.
Python 3.10.6
API -ключ из Google AI.
FFMPEG установлен.
Pytorch установлен. Убедитесь, что ваша система поддерживает CUDA.
ImageMagick установлен. Это требуется для фильма.
Садтакер установил.
Примечание. Убедитесь, что ваш графический процессор имеет минимум 4 ГБ VRAM при поддержке CUDA.
Установите Python 3.10.6:
Установите ffmpeg:
Установите ImageMagick:
Клонировать репозиторий AutoTalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerСкачать Sadtalker с моделями и весами:
python download_models.pyЗапустите вышеупомянутую команду и подождите, пока она не покажет «Загрузки завершены». Это загрузит Sadtalker вместе с необходимыми моделями и весами.
Создайте виртуальную среду:
python -m venv venvАктивировать виртуальную среду:
source venv/bin/activate. v env S cripts a ctivateУстановить зависимости:
pip install -r requirements.txtУстановите Pytorch с CUDA:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Теперь вы успешно настроили среду для проекта, обеспечивая соответствие графического процессора.
Проект имеет следующую структуру:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Активировать виртуальную среду:
Настройте ключ API Gemini Pro:
main.pygenai.configure(api_key="add your key here") ."add your key here" на свой фактический ключ Gemini Pro Pro.Запустите основной сценарий и веб -интерфейс Gradio:
iface.launch() часть) из сценария.Запустить Autotalker и запустить Gradio:
python main.pyДоступ GREDIO WEB UI:
Исследуйте интерфейс:
Отправить и подождать:
Обзор вывод:
Изучите субтитры (если включены):
Повторите и экспериментируйте:
Close Gradio UI:
Следуя этим комбинированным шагам, вы можете беспрепятственно запускать Autotalker, взаимодействовать с веб-пользовательским интерфейсом Gradio и испытать сгенерированные видео с синхронизацией губ.
Мы ценим ваш интерес к внесению вклад в наш проект! Чтобы обеспечить плавный и совместный опыт, следуйте этим рекомендациям:
Вилка репозитория:
Клонировать репозиторий:
git clone https://github.com/YourUsername/AutoTalker.gitСоздайте ветвь:
git checkout -b feature/your-feature-nameВносить изменения:
Сделать изменения:
git commit -m " Add your commit message here "Изменения толкания:
git push origin feature/your-feature-nameСоздать запрос на вытягивание:
Обзор и сотрудничайте:
Сквош совершает (при необходимости):
Слияние:
Области, нуждающиеся в помощи: внедрение человеческих TTS
Если вы заинтересованы в значительном влиянии, рассмотрите возможность внесения вклад в реализацию человеческого текста в речь (TTS) для разнообразного набора языков, включая индийские региональные языки. Сосредоточьтесь на расширении возможностей TTS для мужских и женских голосов.
Учитывая разнообразный лингвистический ландшафт в Индии, вклады в поддержку индийских региональных языков в ТТ высоко ценятся. Эти языки могут включать, но не ограничиваются:
Ваши усилия по внедрению TTS для этих языков будут в значительной степени способствовать обеспечению образовательного контента доступным для более широкой аудитории, особенно в регионах с разнообразным языковым опытом.
Спасибо за рассмотрение этих важных вкладов в реализацию TTS, подобную человеку! Ваша работа сыграет жизненно важную роль в создании образовательного контента инклюзивным и доступным для учащихся из различных лингвистических слоев. ?
Этот проект лицензирован по лицензии MIT.
Этот проект признает следующие проекты с открытым исходным кодом и их участники:
Google AI Python SDK: Google AI Python SDK позволяет разработчикам использовать современные генеративные модели искусственного интеллекта Google (например, Близнецы и Палм) для создания функций и приложений, основанных на AI.
SADTALKER: [CVPR 2023] SADTALKER: Изучение реалистичных 3D-коэффициентов движения для стилизованного звукового одиночного изображения. Проект Opentalker.
Педальная доска: библиотека Python для работы с аудио, разработанная Spotify.
Whisper: надежное распознавание речи с помощью крупномасштабного слабого надзора, проекта с открытым исходным кодом от Openai.
Трансформеры, обнимая лицо :? Трансформеры: современное машинное обучение для Pytorch, Tensorflow и Jax.
Ускорить, обнимая лицо: простой способ обучения и использования моделей Pytorch с мульти-GPU, TPU, смешанными.
Оптимальный, обнимая лицо: ускорить обучение и вывод? Трансформеры и? Диффузоры с простыми в использовании инструментов оптимизации оборудования.
Кора от Suno AI:? Полученная генеративная аудио модель.
Pytorch: тензоры и динамические нейронные сети в Python с сильным ускорением GPU.
Эти проекты в значительной степени способствовали разработке и функциональности Autotalker, и мы выражаем нашу благодарность их соответствующим разработчикам и сопровождающим.