查看演示視頻以查看Autotalker的行動!
輸入提示
“解釋python及其在30秒內的應用”
輸入圖像

輸出視頻
在21世紀迅速發展的景觀中,綜合教育對於為學生提供在現代社會中蓬勃發展的技能至關重要。學徒項目(TAP)致力於在招生政府或低收入私立學校的服務不足的兒童中培養這些重要的21世紀技能。
TAP在Mentorme Foundation的傘下運營,該基金會是第8節註冊公司,並受到哈佛大學,IIM Bangalore和Nudge Foundation等尊敬的機構的支持。作為與馬哈拉施特拉邦和德里政府的官方合作夥伴,TAP產生了重大影響,通過其創新的聊天機器人觸及了31,000多名兒童。
從印度的低收入社區中,大量的中學和高中生數量驚人,缺乏21世紀的關鍵技能,包括社交和情感學習(SEL)和金融知識。傳統的以考試為中心的公共教育系統加劇了這個問題,導致令人震驚的統計數據,即從印度教育系統畢業的四分之一的兒童由於缺乏這些關鍵技能而被認為是失業的。
TAP將其任務與幾個聯合國可持續發展目標保持一致:
在Mentorme基金會下運作的學徒項目(TAP),通過Tap Buddy(一個由人工智能供電的WhatsApp Chatbot)賦予了服務不足的學生。 Tap Buddy提供基於視頻的選修課,使用個性化(ML學習)和基於AI機器人的裸露和內容來指導學生通過獨立的項目。自我學習的項目視頻培養技能,例如創造力,自信,自我意識,溝通和解決問題,打破心理障礙並灌輸成長的心態。
隨著TAP聊天機器人的使用不斷增長,該項目面臨挑戰並尋求創新的解決方案:
課程創建:利用AI在各種選修課(例如編碼和視覺藝術)中生成內容,旨在克服由於手動時間限製而導致的批量視頻創建的局限性。
個性化學習:採用AI來創建個性化的編碼教程或藝術項目指南,該指南是針對個人學習風格和技能水平量身定制的。高級ML/OPEN AI分析根據學習者的進度調整內容,以確保定制的學習體驗。
內容創建:利用AI生成代碼片段,模板或設計藝術項目的設計思想,指導學生以其技能水平和建議探索選項。
藝術探索:根據孩子的技能水平推薦技術和样式,通過將其作品與著名藝術家或藝術運動進行比較,擴大了藝術視野。
創意編碼:使用AI集思廣益,並為創新和藝術編碼項目提供靈感。
我解決TAP面臨的挑戰的方法涉及利用尖端技術,包括自然語言處理(NLP),人工智能(AI)和機器學習(ML)來開發自動方向群,這是TAP的組成部分,旨在增強學生的教育體驗。
AutoTalker使用高級的AI模型和庫,例如Suno Bark TTS進行文本轉換,Google的生成AI Python SDK(Gemini Pro)進行文本生成,以及用於唇部同步音頻的Sadtalker。通過集成這些技術,AutoTalker可以從文本提示和圖像中創建引人入勝且內容豐富的視頻內容。
此外,該項目結合了個性化學習,內容創建幫助和語言支持等功能,以滿足各種學習需求和偏好。通過利用AI的力量,AutoTalker賦予教育工作者和學生的能力,以獲取針對其個人要求量身定制的高質量教育內容,從而促進了基本的21世紀技能的發展。
通過這種創新的解決方案,TAP旨在徹底改變教育格局,彌合差距,以獲取優質的學習資源,並賦予來自服務不足社區的學生能夠在數字時代發揮其全部潛力。
該項目的重點是利用技術來創建新課程,個性化現有課程並增強評估過程,最終有助於發展21世紀的學生技能。 TAP的一個組件Autotalker展示了AI從文本提示和圖像中生成唇部同步視頻的功能,從而增強了學生的整體教育體驗。
它利用多個庫,包括:
這些功能共同促進了從輸入文本提示和圖像中產生唇部同步的視頻,並支持英語的各種語言和字幕。
Python 3.10.6
Google AI的API密鑰。
安裝了FFMPEG。
安裝了Pytorch。確保您的系統支持CUDA。
ImageMagick已安裝。這是攝影所必需的。
安裝了sadtalker。
注意:確保您的GPU至少具有4 GB VRAM,並支持CUDA。
安裝Python 3.10.6:
安裝FFMPEG:
安裝ImageMagick:
克隆自動方行存儲庫:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker下載具有模型和權重的Sadtalker:
python download_models.py運行上述命令並等到顯示“下載完成”。這將下載Sadtalker以及所需的型號和權重。
創建虛擬環境:
python -m venv venv激活虛擬環境:
source venv/bin/activate. v env S cripts a ctivate安裝依賴項:
pip install -r requirements.txt使用CUDA安裝Pytorch:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118現在,您已經成功地為項目設置了環境,以確保您的GPU滿足指定的要求。
該項目具有以下結構:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
激活虛擬環境:
配置Gemini Pro API密鑰:
main.py文件。genai.configure(api_key="add your key here") 。"add your key here" 。運行主腳本和Gradio Web UI:
iface.launch()部分)。運行Autotalker並啟動Gradio:
python main.py訪問Gradio Web UI:
探索接口:
提交並等待:
評論輸出:
探索字幕(如果啟用):
重複和實驗:
Close Gradio UI:
通過遵循這些組合的步驟,您可以無縫運行自動方行,與Gradio Web UI進行交互,並體驗生成的唇部同步視頻。
感謝您對為我們的項目做出貢獻的興趣!為了確保平穩和協作的經驗,請遵循以下準則:
叉子存儲庫:
克隆存儲庫:
git clone https://github.com/YourUsername/AutoTalker.git創建一個分支:
git checkout -b feature/your-feature-name進行更改:
提交更改:
git commit -m " Add your commit message here "推動更改:
git push origin feature/your-feature-name創建拉請請求:
審查與協作:
壁球提交(如果需要):
合併:
需要幫助的領域:類似人類的TTS實施
如果您有興趣產生重大影響,請考慮為包括印度區域語言在內的多種語言(包括人類的語言)實施類似人類的文本到語音(TTS)。專注於增強男性和女性聲音的TTS功能。
鑑於印度各種語言景觀,對TTS的印度地區語言的貢獻受到了很高的重視。這些語言可能包括但不限於:
您為這些語言實施TT的努力將極大地促進更廣泛的受眾訪問教育內容,尤其是在具有多種語言背景的地區。
感謝您考慮對類似人類TTS實施的這些重要貢獻!您的作品將在使教育內容包含在內,並且可以從各種語言背景的學習者訪問教育內容中起著至關重要的作用。 ?
該項目已根據MIT許可獲得許可。
該項目承認以下開源項目及其貢獻者:
Google AI Python SDK: Google AI Python SDK使開發人員能夠使用Google最新的生成AI模型(例如Gemini和Palm)來構建AI驅動的功能和應用。
sadtalker: [CVPR 2023] SADTALKER:學習風格化音頻驅動的單圖像對話面部動畫的真實3D運動係數。 Opentalker的項目。
踏板:由Spotify開發的用於使用音頻的Python庫。
竊竊私語:通過大規模弱監督的大規模言語識別,這是Openai的開源項目。
擁抱臉的變壓器: ?變壓器:Pytorch,TensorFlow和Jax的最先進的機器學習。
通過擁抱臉加速:一種使用多GPU,TPU,混合精液訓練和使用Pytorch型號的簡單方法。
擁抱面孔的最佳:加速訓練和推斷?變壓器和?擴散器具有易於使用的硬件優化工具。
Suno AI的樹皮: ?文本促進的生成音頻模型。
Pytorch: Python中的張量和動態神經網絡具有強大的GPU加速度。
這些項目為自動戀人的開發和功能做出了重大貢獻,我們對各自的開發人員和維護者表示感謝。