AutoTalker下载 - AutoTalker源代码下载

AutoTalker

Ai源码

1.0.0

下载

Autotalker？

项目演示视频

查看演示视频以查看Autotalker的行动！

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

例子

输入提示

“解释python及其在30秒内的应用”

输入图像

输出视频

output_video.mp4

项目描述

学徒项目（TAP）

在21世纪迅速发展的景观中，综合教育对于为学生提供在现代社会中蓬勃发展的技能至关重要。学徒项目（TAP）致力于在招生政府或低收入私立学校的服务不足的儿童中培养这些重要的21世纪技能。

TAP在Mentorme Foundation的伞下运营，该基金会是第8节注册公司，并受到哈佛大学，IIM Bangalore和Nudge Foundation等尊敬的机构的支持。作为与马哈拉施特拉邦和德里政府的官方合作伙伴，TAP产生了重大影响，通过其创新的聊天机器人触及了31,000多名儿童。

问题陈述

从印度的低收入社区中，大量的中学和高中生数量惊人，缺乏21世纪的关键技能，包括社交和情感学习（SEL）和金融知识。传统的以考试为中心的公共教育系统加剧了这个问题，导致令人震惊的统计数据，即从印度教育系统毕业的四分之一的儿童由于缺乏这些关键技能而被认为是失业的。

财务素养统计：
- 只有16.7％的印度少年学生拥有基本的财务素养。
- 仅27％的印度成年人口被认为是财务识字。

联合国可持续发展目标（SDGS）

TAP将其任务与几个联合国可持续发展目标保持一致：

目标1：没有贫困
目标2：零饥饿
目标3：身体健康和福祉
目标4：优质教育
目标8：体面的工作和经济增长

当前系统

在Mentorme基金会下运作的学徒项目（TAP），通过Tap Buddy（一个由人工智能供电的WhatsApp Chatbot）赋予了服务不足的学生。 Tap Buddy提供基于视频的选修课，使用个性化（ML学习）和基于AI机器人的裸露和内容来指导学生通过独立的项目。自我学习的项目视频培养技能，例如创造力，自信，自我意识，沟通和解决问题，打破心理障碍并灌输成长的心态。

挑战和创新

随着TAP聊天机器人的使用不断增长，该项目面临挑战并寻求创新的解决方案：

课程创建：利用AI在各种选修课（例如编码和视觉艺术）中生成内容，旨在克服由于手动时间限制而导致的批量视频创建的局限性。
个性化学习：采用AI来创建个性化的编码教程或艺术项目指南，该指南是针对个人学习风格和技能水平量身定制的。高级ML/OPEN AI分析根据学习者的进度调整内容，以确保定制的学习体验。
内容创建：利用AI生成代码片段，模板或设计艺术项目的设计思想，指导学生以其技能水平和建议探索选项。
艺术探索：根据孩子的技能水平推荐技术和样式，通过将其作品与著名艺术家或艺术运动进行比较，扩大了艺术视野。
创意编码：使用AI集思广益，并为创新和艺术编码项目提供灵感。

方法和解决方案

我解决TAP面临的挑战的方法涉及利用尖端技术，包括自然语言处理（NLP），人工智能（AI）和机器学习（ML）来开发自动方向群，这是TAP的组成部分，旨在增强学生的教育体验。

AutoTalker使用高级的AI模型和库，例如Suno Bark TTS进行文本转换，Google的生成AI Python SDK（Gemini Pro）进行文本生成，以及用于唇部同步音频的Sadtalker。通过集成这些技术，AutoTalker可以从文本提示和图像中创建引人入胜且内容丰富的视频内容。

此外，该项目结合了个性化学习，内容创建帮助和语言支持等功能，以满足各种学习需求和偏好。通过利用AI的力量，AutoTalker赋予教育工作者和学生的能力，以获取针对其个人要求量身定制的高质量教育内容，从而促进了基本的21世纪技能的发展。

通过这种创新的解决方案，TAP旨在彻底改变教育格局，弥合差距，以获取优质的学习资源，并赋予来自服务不足社区的学生能够在数字时代发挥其全部潜力。

关于

该项目的重点是利用技术来创建新课程，个性化现有课程并增强评估过程，最终有助于发展21世纪的学生技能。 TAP的一个组件Autotalker展示了AI从文本提示和图像中生成唇部同步视频的功能，从而增强了学生的整体教育体验。

它利用多个库，包括：

Suno Bark TTS：用于从文本提示生成音频的文本转换库。
PYDUB：用于处理音频文件和格式的音频操纵库。
Google.generativeai（Gemini Pro）： Google的生成AI Python SDK用于文本生成。
SADTALKER：一种唇部同步模型，用于将音频与视频中的面部运动同步。
Openai Whisper：用于语音到文本转换的库，实现语音特征的自定义。
Spotify踏板：一个音频增强库，用于提高音频文件的质量和效果。
hightpy：一个视频编辑库，可促进视频处理和编辑任务。
Pytorch：用于各种机器学习任务的深度学习框架，包括Sadtalker的功能。
FFMPEG：用于处理多媒体数据（例如音频和视频文件）的多媒体框架。
拥抱面部变压器：提供预先训练的模型和各种公用事业的库，用于自然语言处理任务。
BetterTransFormer：可以加速在CPU和GPU上高性能的变压器模型的部署的快速途径。快速路径特征可用于直接基于Pytorch Core NN上的模型。
Numpy：一个强大的数值计算库，用于处理大型多维阵列和矩阵。
Gradio：一个用户友好的库，用于在机器学习模型周围创建可自定义的UI组件，从而通过Web接口轻松部署和与模型进行交互。

特征

文本到语音转换：利用Suno Bark TTS将文本提示转换为音频文件（WAV格式）。
音频操作：采用PYDUB进行音频操纵任务，提高音频质量并应用所需的效果。
生成的AI文本：利用Google的生成AI Python SDK（Gemini Pro）进行文本生成，提供多样化且相关的提示。
嘴唇同步：集成了一种唇部同步模型Sadtalker，以使生成的音频与视频中的面部运动同步。
语音到文本转换：结合了openai窃窃私语，以进行语音到文本转换，从而自定义语音特征。
音频增强：利用Spotify踏板来增强和应用效果到音频文件，从而提高整体音频质量。
视频编辑：实施theypy，一个视频编辑库，用于视频处理和编辑任务，包括创建最终的唇部同步视频。
深度学习框架：利用Pytorch的深度学习能力，对于执行Sadtalker的功能至关重要。
多媒体处理：使用多媒体框架FFMPEG在处理过程中处理多媒体数据，例如音频和视频文件。
自然语言处理：整合拥抱面部变压器，为自然语言处理任务提供预训练的模型和公用事业。
变压器模型的快速路径：结合了BetterTransFormer，这是一种可以加速在CPU和GPU上加速变压器模型的快速路径。
数值计算：依靠Numpy来用于强大的数值计算，尤其是处理大型多维阵列和矩阵。
用户友好的UI组件：集成了一个用户友好的库Gradio，以在机器学习模型围绕机器学习模型创建可自定义的UI组件，从而通过Web接口促进易于部署和交互。
语言支持：支持多种语言，包括英语，中文（简化），法语，德语，印地语，意大利语，日语，韩语，波兰语，葡萄牙语，俄语，西班牙语和土耳其语。
字幕支持：目前仅适用于英语。

这些功能共同促进了从输入文本提示和图像中产生唇部同步的视频，并支持英语的各种语言和字幕。

入门

先决条件

Python 3.10.6
Google AI的API密钥。
安装了FFMPEG。
安装了Pytorch。确保您的系统支持CUDA。
ImageMagick已安装。这是摄影所必需的。
安装了sadtalker。
注意：确保您的GPU至少具有4 GB VRAM，并支持CUDA。

安装

安装Python 3.10.6：
- 下载并安装Python 3.10.6。请注意，不支持版本3.11和3.12。
安装FFMPEG：
- 按照适合您的系统的说明。
安装ImageMagick：
- 下载并安装ImageMagick。

克隆自动方行存储库：

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

下载具有模型和权重的Sadtalker：
```
python download_models.py
```
运行上述命令并等到显示“下载完成”。这将下载Sadtalker以及所需的型号和权重。
创建虚拟环境：
```
python -m venv venv
```

激活虚拟环境：

在Linux/Mac上：
```
 source venv/bin/activate
```
在Windows上：
```
. v env S cripts a ctivate
```

安装依赖项：
```
pip install -r requirements.txt
```

使用CUDA安装Pytorch：

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

现在，您已经成功地为项目设置了环境，以确保您的GPU满足指定的要求。

用法

项目结构

该项目具有以下结构：

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

运行Autotalker和打开Gradio Web UI的步骤：

激活虚拟环境：
- 激活前面创建的虚拟环境。
配置Gemini Pro API密钥：
- 打开main.py文件。
- 找到行： genai.configure(api_key="add your key here") 。
- 用实际的Gemini Pro API键替换"add your key here" 。
运行主脚本和Gradio Web UI：
- 从脚本中复制提供的Gradio代码（ iface.launch()部分）。
运行Autotalker并启动Gradio：
- 在虚拟环境处于活动状态的同一终端中，请与Gradio Web UI一起运行Autotalker脚本。
```
python main.py
```
访问Gradio Web UI：
- 运行脚本后，Gradio将提供托管Web UI的链接（通常是Localhost）。在您的Web浏览器中打开该链接。
探索接口：
- 现在，您将可以访问Gradio Web UI接口。
- 与所提供的输入组件（例如文本框，无线电按钮，滑块和图像上传选项）进行交互。
提交并等待：
- 单击“启动接口”或类似按钮以提交输入。
- Gradio将处理您的输入，生成输出并在Web UI中显示结果。
评论输出：
- 输出可以是带有或不带有字幕的视频，具体取决于您的配置。
探索字幕（如果启用）：
- 如果启用了字幕支持，请探索为视频生成的字幕。
重复和实验：
- 可以随意尝试不同的输入，提示和参数以生成各种输出。
Close Gradio UI：
- 完成后，关闭Gradio Web UI。

通过遵循这些组合的步骤，您可以无缝运行自动方行，与Gradio Web UI进行交互，并体验生成的唇部同步视频。

贡献

感谢您对为我们的项目做出贡献的兴趣！为了确保平稳和协作的经验，请遵循以下准则：

叉子存储库：
- 首先将此存储库置于您的GitHub帐户。

克隆存储库：

git clone https://github.com/YourUsername/AutoTalker.git

创建一个分支：
- 对于每个贡献，创建一个具有描述名称的新分支。
```
git checkout -b feature/your-feature-name
```
进行更改：
- 实施您的增强或修复。确保您的变化与项目的目标保持一致。
提交更改：
- 通过清晰而简洁的提交消息提交您的更改。
```
git commit -m " Add your commit message here "
```
推动更改：
- 将更改推向分叉存储库。
```
git push origin feature/your-feature-name
```
创建拉请请求：
- 从您的叉子存储库中打开拉动请求到主存储库。
- 提供有关您的变化，概述目的和影响的详细信息。
审查与协作：
- 进行讨论，回应反馈，并与社区合作以完善您的贡献。
壁球提交（如果需要）：
- 如果您的拉请请求包含多个提交，请考虑将它们压入一个结构良好的提交中。
合并：
- 一旦您的拉请求批准，它将合并到主要存储库中。
需要帮助的领域：类似人类的TTS实施

如果您有兴趣产生重大影响，请考虑为包括印度区域语言在内的多种语言（包括人类的语言）实施类似人类的文本到语音（TTS）。专注于增强男性和女性声音的TTS功能。

类似人类TTS实施的支持语言：

阿拉伯语（AR）
孟加拉国（BN）
保加利亚语（BG）
克罗地亚人（人力资源）
捷克（CS）
丹麦（DA）
荷兰（NL）
爱沙尼亚（ET）
芬兰（FI）
希腊语（EL）
希伯来语（IW）
匈牙利（胡）
印尼（ID）
拉脱维亚（LV）
立陶宛语（LT）
挪威人（否）
罗马尼亚人（RO）
塞尔维亚（SR）
斯洛伐克（SK）
斯洛文尼亚人（SL）
斯瓦希里语（SW）

对印度区域语言的额外关注：

鉴于印度各种语言景观，对TTS的印度地区语言的贡献受到了很高的重视。这些语言可能包括但不限于：

印地语
泰米尔人
泰卢固语
卡纳达语
马拉雅拉姆语
旁遮普
古吉拉特语
马拉地语
孟加拉
奥迪亚
阿萨姆人
乌尔都语

您为这些语言实施TT的努力将极大地促进更广泛的受众访问教育内容，尤其是在具有多种语言背景的地区。

感谢您考虑对类似人类TTS实施的这些重要贡献！您的作品将在使教育内容包含在内，并且可以从各种语言背景的学习者访问教育内容中起着至关重要的作用。？

执照

该项目已根据MIT许可获得许可。

致谢

该项目承认以下开源项目及其贡献者：

Google AI Python SDK： Google AI Python SDK使开发人员能够使用Google最新的生成AI模型（例如Gemini和Palm）来构建AI驱动的功能和应用。
sadtalker： [CVPR 2023] SADTALKER：学习风格化音频驱动的单图像对话面部动画的真实3D运动系数。 Opentalker的项目。
踏板：由Spotify开发的用于使用音频的Python库。
窃窃私语：通过大规模弱监督的大规模言语识别，这是Openai的开源项目。
拥抱脸的变压器： ？变压器：Pytorch，TensorFlow和Jax的最先进的机器学习。
通过拥抱脸加速：一种使用多GPU，TPU，混合精液训练和使用Pytorch型号的简单方法。
拥抱面孔的最佳：加速训练和推断？变压器和？扩散器具有易于使用的硬件优化工具。
Suno AI的树皮： ？文本促进的生成音频模型。
Pytorch： Python中的张量和动态神经网络具有强大的GPU加速度。