AutoTalker下載 - AutoTalker源代碼下載

AutoTalker

Ai源碼

1.0.0

下載

Autotalker？

項目演示視頻

查看演示視頻以查看Autotalker的行動！

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

例子

輸入提示

“解釋python及其在30秒內的應用”

輸入圖像

輸出視頻

output_video.mp4

項目描述

學徒項目（TAP）

在21世紀迅速發展的景觀中，綜合教育對於為學生提供在現代社會中蓬勃發展的技能至關重要。學徒項目（TAP）致力於在招生政府或低收入私立學校的服務不足的兒童中培養這些重要的21世紀技能。

TAP在Mentorme Foundation的傘下運營，該基金會是第8節註冊公司，並受到哈佛大學，IIM Bangalore和Nudge Foundation等尊敬的機構的支持。作為與馬哈拉施特拉邦和德里政府的官方合作夥伴，TAP產生了重大影響，通過其創新的聊天機器人觸及了31,000多名兒童。

問題陳述

從印度的低收入社區中，大量的中學和高中生數量驚人，缺乏21世紀的關鍵技能，包括社交和情感學習（SEL）和金融知識。傳統的以考試為中心的公共教育系統加劇了這個問題，導致令人震驚的統計數據，即從印度教育系統畢業的四分之一的兒童由於缺乏這些關鍵技能而被認為是失業的。

財務素養統計：
- 只有16.7％的印度少年學生擁有基本的財務素養。
- 僅27％的印度成年人口被認為是財務識字。

聯合國可持續發展目標（SDGS）

TAP將其任務與幾個聯合國可持續發展目標保持一致：

目標1：沒有貧困
目標2：零飢餓
目標3：身體健康和福祉
目標4：優質教育
目標8：體面的工作和經濟增長

當前系統

在Mentorme基金會下運作的學徒項目（TAP），通過Tap Buddy（一個由人工智能供電的WhatsApp Chatbot）賦予了服務不足的學生。 Tap Buddy提供基於視頻的選修課，使用個性化（ML學習）和基於AI機器人的裸露和內容來指導學生通過獨立的項目。自我學習的項目視頻培養技能，例如創造力，自信，自我意識，溝通和解決問題，打破心理障礙並灌輸成長的心態。

挑戰和創新

隨著TAP聊天機器人的使用不斷增長，該項目面臨挑戰並尋求創新的解決方案：

課程創建：利用AI在各種選修課（例如編碼和視覺藝術）中生成內容，旨在克服由於手動時間限製而導致的批量視頻創建的局限性。
個性化學習：採用AI來創建個性化的編碼教程或藝術項目指南，該指南是針對個人學習風格和技能水平量身定制的。高級ML/OPEN AI分析根據學習者的進度調整內容，以確保定制的學習體驗。
內容創建：利用AI生成代碼片段，模板或設計藝術項目的設計思想，指導學生以其技能水平和建議探索選項。
藝術探索：根據孩子的技能水平推薦技術和样式，通過將其作品與著名藝術家或藝術運動進行比較，擴大了藝術視野。
創意編碼：使用AI集思廣益，並為創新和藝術編碼項目提供靈感。

方法和解決方案

我解決TAP面臨的挑戰的方法涉及利用尖端技術，包括自然語言處理（NLP），人工智能（AI）和機器學習（ML）來開發自動方向群，這是TAP的組成部分，旨在增強學生的教育體驗。

AutoTalker使用高級的AI模型和庫，例如Suno Bark TTS進行文本轉換，Google的生成AI Python SDK（Gemini Pro）進行文本生成，以及用於唇部同步音頻的Sadtalker。通過集成這些技術，AutoTalker可以從文本提示和圖像中創建引人入勝且內容豐富的視頻內容。

此外，該項目結合了個性化學習，內容創建幫助和語言支持等功能，以滿足各種學習需求和偏好。通過利用AI的力量，AutoTalker賦予教育工作者和學生的能力，以獲取針對其個人要求量身定制的高質量教育內容，從而促進了基本的21世紀技能的發展。

通過這種創新的解決方案，TAP旨在徹底改變教育格局，彌合差距，以獲取優質的學習資源，並賦予來自服務不足社區的學生能夠在數字時代發揮其全部潛力。

關於

該項目的重點是利用技術來創建新課程，個性化現有課程並增強評估過程，最終有助於發展21世紀的學生技能。 TAP的一個組件Autotalker展示了AI從文本提示和圖像中生成唇部同步視頻的功能，從而增強了學生的整體教育體驗。

它利用多個庫，包括：

Suno Bark TTS：用於從文本提示生成音頻的文本轉換庫。
PYDUB：用於處理音頻文件和格式的音頻操縱庫。
Google.generativeai（Gemini Pro）： Google的生成AI Python SDK用於文本生成。
SADTALKER：一種唇部同步模型，用於將音頻與視頻中的面部運動同步。
Openai Whisper：用於語音到文本轉換的庫，實現語音特徵的自定義。
Spotify踏板：一個音頻增強庫，用於提高音頻文件的質量和效果。
hightpy：一個視頻編輯庫，可促進視頻處理和編輯任務。
Pytorch：用於各種機器學習任務的深度學習框架，包括Sadtalker的功能。
FFMPEG：用於處理多媒體數據（例如音頻和視頻文件）的多媒體框架。
擁抱面部變壓器：提供預先訓練的模型和各種公用事業的庫，用於自然語言處理任務。
BetterTransFormer：可以加速在CPU和GPU上高性能的變壓器模型的部署的快速途徑。快速路徑特徵可用於直接基於Pytorch Core NN上的模型。
Numpy：一個強大的數值計算庫，用於處理大型多維陣列和矩陣。
Gradio：一個用戶友好的庫，用於在機器學習模型周圍創建可自定義的UI組件，從而通過Web接口輕鬆部署和與模型進行交互。

特徵

文本到語音轉換：利用Suno Bark TTS將文本提示轉換為音頻文件（WAV格式）。
音頻操作：採用PYDUB進行音頻操縱任務，提高音頻質量並應用所需的效果。
生成的AI文本：利用Google的生成AI Python SDK（Gemini Pro）進行文本生成，提供多樣化且相關的提示。
嘴唇同步：集成了一種唇部同步模型Sadtalker，以使生成的音頻與視頻中的面部運動同步。
語音到文本轉換：結合了openai竊竊私語，以進行語音到文本轉換，從而自定義語音特徵。
音頻增強：利用Spotify踏板來增強和應用效果到音頻文件，從而提高整體音頻質量。
視頻編輯：實施theypy，一個視頻編輯庫，用於視頻處理和編輯任務，包括創建最終的唇部同步視頻。
深度學習框架：利用Pytorch的深度學習能力，對於執行Sadtalker的功能至關重要。
多媒體處理：使用多媒體框架FFMPEG在處理過程中處理多媒體數據，例如音頻和視頻文件。
自然語言處理：整合擁抱面部變壓器，為自然語言處理任務提供預訓練的模型和公用事業。
變壓器模型的快速路徑：結合了BetterTransFormer，這是一種可以加速在CPU和GPU上加速變壓器模型的快速路徑。
數值計算：依靠Numpy來用於強大的數值計算，尤其是處理大型多維陣列和矩陣。
用戶友好的UI組件：集成了一個用戶友好的庫Gradio，以在機器學習模型圍繞機器學習模型創建可自定義的UI組件，從而通過Web接口促進易於部署和交互。
語言支持：支持多種語言，包括英語，中文（簡化），法語，德語，印地語，意大利語，日語，韓語，波蘭語，葡萄牙語，俄語，西班牙語和土耳其語。
字幕支持：目前僅適用於英語。

這些功能共同促進了從輸入文本提示和圖像中產生唇部同步的視頻，並支持英語的各種語言和字幕。

入門

先決條件

Python 3.10.6
Google AI的API密鑰。
安裝了FFMPEG。
安裝了Pytorch。確保您的系統支持CUDA。
ImageMagick已安裝。這是攝影所必需的。
安裝了sadtalker。
注意：確保您的GPU至少具有4 GB VRAM，並支持CUDA。

安裝

安裝Python 3.10.6：
- 下載並安裝Python 3.10.6。請注意，不支持版本3.11和3.12。
安裝FFMPEG：
- 按照適合您的系統的說明。
安裝ImageMagick：
- 下載並安裝ImageMagick。

克隆自動方行存儲庫：

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

下載具有模型和權重的Sadtalker：
```
python download_models.py
```
運行上述命令並等到顯示“下載完成”。這將下載Sadtalker以及所需的型號和權重。
創建虛擬環境：
```
python -m venv venv
```

激活虛擬環境：

在Linux/Mac上：
```
 source venv/bin/activate
```
在Windows上：
```
. v env S cripts a ctivate
```

安裝依賴項：
```
pip install -r requirements.txt
```

使用CUDA安裝Pytorch：

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

現在，您已經成功地為項目設置了環境，以確保您的GPU滿足指定的要求。

用法

項目結構

該項目具有以下結構：

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

運行Autotalker和打開Gradio Web UI的步驟：

激活虛擬環境：
- 激活前面創建的虛擬環境。
配置Gemini Pro API密鑰：
- 打開main.py文件。
- 找到行： genai.configure(api_key="add your key here") 。
- 用實際的Gemini Pro API鍵替換"add your key here" 。
運行主腳本和Gradio Web UI：
- 從腳本中復制提供的Gradio代碼（ iface.launch()部分）。
運行Autotalker並啟動Gradio：
- 在虛擬環境處於活動狀態的同一終端中，請與Gradio Web UI一起運行Autotalker腳本。
```
python main.py
```
訪問Gradio Web UI：
- 運行腳本後，Gradio將提供託管Web UI的鏈接（通常是Localhost）。在您的Web瀏覽器中打開該鏈接。
探索接口：
- 現在，您將可以訪問Gradio Web UI接口。
- 與所提供的輸入組件（例如文本框，無線電按鈕，滑塊和圖像上傳選項）進行交互。
提交並等待：
- 單擊“啟動接口”或類似按鈕以提交輸入。
- Gradio將處理您的輸入，生成輸出並在Web UI中顯示結果。
評論輸出：
- 輸出可以是帶有或不帶有字幕的視頻，具體取決於您的配置。
探索字幕（如果啟用）：
- 如果啟用了字幕支持，請探索為視頻生成的字幕。
重複和實驗：
- 可以隨意嘗試不同的輸入，提示和參數以生成各種輸出。
Close Gradio UI：
- 完成後，關閉Gradio Web UI。

通過遵循這些組合的步驟，您可以無縫運行自動方行，與Gradio Web UI進行交互，並體驗生成的唇部同步視頻。

貢獻

感謝您對為我們的項目做出貢獻的興趣！為了確保平穩和協作的經驗，請遵循以下準則：

叉子存儲庫：
- 首先將此存儲庫置於您的GitHub帳戶。

克隆存儲庫：

git clone https://github.com/YourUsername/AutoTalker.git

創建一個分支：
- 對於每個貢獻，創建一個具有描述名稱的新分支。
```
git checkout -b feature/your-feature-name
```
進行更改：
- 實施您的增強或修復。確保您的變化與項目的目標保持一致。
提交更改：
- 通過清晰而簡潔的提交消息提交您的更改。
```
git commit -m " Add your commit message here "
```
推動更改：
- 將更改推向分叉存儲庫。
```
git push origin feature/your-feature-name
```
創建拉請請求：
- 從您的叉子存儲庫中打開拉動請求到主存儲庫。
- 提供有關您的變化，概述目的和影響的詳細信息。
審查與協作：
- 進行討論，回應反饋，並與社區合作以完善您的貢獻。
壁球提交（如果需要）：
- 如果您的拉請請求包含多個提交，請考慮將它們壓入一個結構良好的提交中。
合併：
- 一旦您的拉請求批准，它將合併到主要存儲庫中。
需要幫助的領域：類似人類的TTS實施

如果您有興趣產生重大影響，請考慮為包括印度區域語言在內的多種語言（包括人類的語言）實施類似人類的文本到語音（TTS）。專注於增強男性和女性聲音的TTS功能。

類似人類TTS實施的支持語言：

阿拉伯語（AR）
孟加拉國（BN）
保加利亞語（BG）
克羅地亞人（人力資源）
捷克（CS）
丹麥（DA）
荷蘭（NL）
愛沙尼亞（ET）
芬蘭（FI）
希臘語（EL）
希伯來語（IW）
匈牙利（胡）
印尼（ID）
拉脫維亞（LV）
立陶宛語（LT）
挪威人（否）
羅馬尼亞人（RO）
塞爾維亞（SR）
斯洛伐克（SK）
斯洛文尼亞人（SL）
斯瓦希里語（SW）

對印度區域語言的額外關注：

鑑於印度各種語言景觀，對TTS的印度地區語言的貢獻受到了很高的重視。這些語言可能包括但不限於：

印地語
泰米爾人
泰盧固語
卡納達語
馬拉雅拉姆語
旁遮普
古吉拉特語
馬拉地語
孟加拉
奧迪亞
阿薩姆人
烏爾都語

您為這些語言實施TT的努力將極大地促進更廣泛的受眾訪問教育內容，尤其是在具有多種語言背景的地區。

感謝您考慮對類似人類TTS實施的這些重要貢獻！您的作品將在使教育內容包含在內，並且可以從各種語言背景的學習者訪問教育內容中起著至關重要的作用。？

執照

該項目已根據MIT許可獲得許可。

致謝

該項目承認以下開源項目及其貢獻者：

Google AI Python SDK： Google AI Python SDK使開發人員能夠使用Google最新的生成AI模型（例如Gemini和Palm）來構建AI驅動的功能和應用。
sadtalker： [CVPR 2023] SADTALKER：學習風格化音頻驅動的單圖像對話面部動畫的真實3D運動係數。 Opentalker的項目。
踏板：由Spotify開發的用於使用音頻的Python庫。
竊竊私語：通過大規模弱監督的大規模言語識別，這是Openai的開源項目。
擁抱臉的變壓器： ？變壓器：Pytorch，TensorFlow和Jax的最先進的機器學習。
通過擁抱臉加速：一種使用多GPU，TPU，混合精液訓練和使用Pytorch型號的簡單方法。
擁抱面孔的最佳：加速訓練和推斷？變壓器和？擴散器具有易於使用的硬件優化工具。
Suno AI的樹皮： ？文本促進的生成音頻模型。
Pytorch： Python中的張量和動態神經網絡具有強大的GPU加速度。