查看演示视频以查看Autotalker的行动!
输入提示
“解释python及其在30秒内的应用”
输入图像

输出视频
在21世纪迅速发展的景观中,综合教育对于为学生提供在现代社会中蓬勃发展的技能至关重要。学徒项目(TAP)致力于在招生政府或低收入私立学校的服务不足的儿童中培养这些重要的21世纪技能。
TAP在Mentorme Foundation的伞下运营,该基金会是第8节注册公司,并受到哈佛大学,IIM Bangalore和Nudge Foundation等尊敬的机构的支持。作为与马哈拉施特拉邦和德里政府的官方合作伙伴,TAP产生了重大影响,通过其创新的聊天机器人触及了31,000多名儿童。
从印度的低收入社区中,大量的中学和高中生数量惊人,缺乏21世纪的关键技能,包括社交和情感学习(SEL)和金融知识。传统的以考试为中心的公共教育系统加剧了这个问题,导致令人震惊的统计数据,即从印度教育系统毕业的四分之一的儿童由于缺乏这些关键技能而被认为是失业的。
TAP将其任务与几个联合国可持续发展目标保持一致:
在Mentorme基金会下运作的学徒项目(TAP),通过Tap Buddy(一个由人工智能供电的WhatsApp Chatbot)赋予了服务不足的学生。 Tap Buddy提供基于视频的选修课,使用个性化(ML学习)和基于AI机器人的裸露和内容来指导学生通过独立的项目。自我学习的项目视频培养技能,例如创造力,自信,自我意识,沟通和解决问题,打破心理障碍并灌输成长的心态。
随着TAP聊天机器人的使用不断增长,该项目面临挑战并寻求创新的解决方案:
课程创建:利用AI在各种选修课(例如编码和视觉艺术)中生成内容,旨在克服由于手动时间限制而导致的批量视频创建的局限性。
个性化学习:采用AI来创建个性化的编码教程或艺术项目指南,该指南是针对个人学习风格和技能水平量身定制的。高级ML/OPEN AI分析根据学习者的进度调整内容,以确保定制的学习体验。
内容创建:利用AI生成代码片段,模板或设计艺术项目的设计思想,指导学生以其技能水平和建议探索选项。
艺术探索:根据孩子的技能水平推荐技术和样式,通过将其作品与著名艺术家或艺术运动进行比较,扩大了艺术视野。
创意编码:使用AI集思广益,并为创新和艺术编码项目提供灵感。
我解决TAP面临的挑战的方法涉及利用尖端技术,包括自然语言处理(NLP),人工智能(AI)和机器学习(ML)来开发自动方向群,这是TAP的组成部分,旨在增强学生的教育体验。
AutoTalker使用高级的AI模型和库,例如Suno Bark TTS进行文本转换,Google的生成AI Python SDK(Gemini Pro)进行文本生成,以及用于唇部同步音频的Sadtalker。通过集成这些技术,AutoTalker可以从文本提示和图像中创建引人入胜且内容丰富的视频内容。
此外,该项目结合了个性化学习,内容创建帮助和语言支持等功能,以满足各种学习需求和偏好。通过利用AI的力量,AutoTalker赋予教育工作者和学生的能力,以获取针对其个人要求量身定制的高质量教育内容,从而促进了基本的21世纪技能的发展。
通过这种创新的解决方案,TAP旨在彻底改变教育格局,弥合差距,以获取优质的学习资源,并赋予来自服务不足社区的学生能够在数字时代发挥其全部潜力。
该项目的重点是利用技术来创建新课程,个性化现有课程并增强评估过程,最终有助于发展21世纪的学生技能。 TAP的一个组件Autotalker展示了AI从文本提示和图像中生成唇部同步视频的功能,从而增强了学生的整体教育体验。
它利用多个库,包括:
这些功能共同促进了从输入文本提示和图像中产生唇部同步的视频,并支持英语的各种语言和字幕。
Python 3.10.6
Google AI的API密钥。
安装了FFMPEG。
安装了Pytorch。确保您的系统支持CUDA。
ImageMagick已安装。这是摄影所必需的。
安装了sadtalker。
注意:确保您的GPU至少具有4 GB VRAM,并支持CUDA。
安装Python 3.10.6:
安装FFMPEG:
安装ImageMagick:
克隆自动方行存储库:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker下载具有模型和权重的Sadtalker:
python download_models.py运行上述命令并等到显示“下载完成”。这将下载Sadtalker以及所需的型号和权重。
创建虚拟环境:
python -m venv venv激活虚拟环境:
source venv/bin/activate. v env S cripts a ctivate安装依赖项:
pip install -r requirements.txt使用CUDA安装Pytorch:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118现在,您已经成功地为项目设置了环境,以确保您的GPU满足指定的要求。
该项目具有以下结构:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
激活虚拟环境:
配置Gemini Pro API密钥:
main.py文件。genai.configure(api_key="add your key here") 。"add your key here" 。运行主脚本和Gradio Web UI:
iface.launch()部分)。运行Autotalker并启动Gradio:
python main.py访问Gradio Web UI:
探索接口:
提交并等待:
评论输出:
探索字幕(如果启用):
重复和实验:
Close Gradio UI:
通过遵循这些组合的步骤,您可以无缝运行自动方行,与Gradio Web UI进行交互,并体验生成的唇部同步视频。
感谢您对为我们的项目做出贡献的兴趣!为了确保平稳和协作的经验,请遵循以下准则:
叉子存储库:
克隆存储库:
git clone https://github.com/YourUsername/AutoTalker.git创建一个分支:
git checkout -b feature/your-feature-name进行更改:
提交更改:
git commit -m " Add your commit message here "推动更改:
git push origin feature/your-feature-name创建拉请请求:
审查与协作:
壁球提交(如果需要):
合并:
需要帮助的领域:类似人类的TTS实施
如果您有兴趣产生重大影响,请考虑为包括印度区域语言在内的多种语言(包括人类的语言)实施类似人类的文本到语音(TTS)。专注于增强男性和女性声音的TTS功能。
鉴于印度各种语言景观,对TTS的印度地区语言的贡献受到了很高的重视。这些语言可能包括但不限于:
您为这些语言实施TT的努力将极大地促进更广泛的受众访问教育内容,尤其是在具有多种语言背景的地区。
感谢您考虑对类似人类TTS实施的这些重要贡献!您的作品将在使教育内容包含在内,并且可以从各种语言背景的学习者访问教育内容中起着至关重要的作用。 ?
该项目已根据MIT许可获得许可。
该项目承认以下开源项目及其贡献者:
Google AI Python SDK: Google AI Python SDK使开发人员能够使用Google最新的生成AI模型(例如Gemini和Palm)来构建AI驱动的功能和应用。
sadtalker: [CVPR 2023] SADTALKER:学习风格化音频驱动的单图像对话面部动画的真实3D运动系数。 Opentalker的项目。
踏板:由Spotify开发的用于使用音频的Python库。
窃窃私语:通过大规模弱监督的大规模言语识别,这是Openai的开源项目。
拥抱脸的变压器: ?变压器:Pytorch,TensorFlow和Jax的最先进的机器学习。
通过拥抱脸加速:一种使用多GPU,TPU,混合精液训练和使用Pytorch型号的简单方法。
拥抱面孔的最佳:加速训练和推断?变压器和?扩散器具有易于使用的硬件优化工具。
Suno AI的树皮: ?文本促进的生成音频模型。
Pytorch: Python中的张量和动态神经网络具有强大的GPU加速度。
这些项目为自动恋人的开发和功能做出了重大贡献,我们对各自的开发人员和维护者表示感谢。