デモビデオをチェックして、Autotalkerが動作しているのをご覧ください!
入力プロンプト
「Pythonとそのアプリケーションを30秒で説明してください」
入力画像

出力ビデオ
21世紀の急速に進化する風景では、現代社会で繁栄するために必要なスキルを学生に準備するための包括的な教育が最も重要です。 Apprentice Project(TAP)は、政府または低所得の私立学校に登録されているサービスを受けていない子どもたちの間で、これらの重要な21世紀のスキルを育むことに専念しています。
TAPは、セクション8の登録会社であるMentorme Foundationの傘下で動作し、ハーバード大学、IIMバンガロール、ナッジ財団などの尊敬される機関によって誇らしげにサポートされています。マハラシュトラ州とデリーの政府と公式のパートナーとして、TAPは大きな影響を与え、革新的なチャットボットを通じて31,000人以上の子供にリーチしています。
インド全土の低所得コミュニティからの驚異的な数の中学生と高校生は、社会的および感情的な学習(SEL)や金融リテラシーなど、21世紀の重要なスキルを欠いています。伝統的な試験中心の公教育システムはこの問題を悪化させ、インドの教育システムを卒業した2人の子供に1人がこれらの重要なスキルがないために失業しているとみなされるという驚くべき統計につながります。
タップは、そのミッションをいくつかの国連SDGに合わせます。
Mentorme Foundationの下で運営されているApprentice Project(TAP)は、人工知能を搭載したWhatsAppチャットボットであるTap Buddyを通じて、サービスを受けていない学生を強化します。 Tap Buddyは、ビデオベースの選択科目を提供し、パーソナライズされた(ML学習)およびAIボットベースのナッジとコンテンツを使用して、独立したプロジェクトを導きます。自己学習プロジェクトビデオは、創造性、自信、自己認識、コミュニケーション、問題解決などのスキルを促進し、精神的障壁を破り、成長の考え方を植え付けます。
Tapのチャットボットの使用が成長し続けるにつれて、プロジェクトは課題に直面し、革新的なソリューションを求めています。
コースの作成: AIを活用して、コーディングや視覚芸術などのさまざまな選択科目にわたってコンテンツを生成し、手動の時間の制約のためにバルクビデオ作成の制限を克服することを目指しています。
パーソナライズされた学習: AIを使用して、個々の学習スタイルとスキルレベルに合わせたパーソナライズされたコーディングチュートリアルまたはARTプロジェクトガイドを作成します。 Advanced ML/Open AI分析は、学習者の進捗状況に基づいてコンテンツを適応させ、カスタマイズされた学習エクスペリエンスを確保します。
コンテンツの作成: AIを利用して、アートプロジェクトのコードスニペット、テンプレート、またはデザインのアイデアを生成し、スキルレベルで学生を導き、探索オプションを提案します。
芸術的探査:子供のスキルレベルに基づいてテクニックとスタイルを推奨し、有名なアーティストや芸術運動と作品を比較することで芸術的な視野を広げます。
クリエイティブコーディング: AIを使用してアイデアをブレインストーミングし、革新的で芸術的なコーディングプロジェクトのインスピレーションを提供します。
TAPが直面する課題に対処するための私のアプローチでは、自然言語処理(NLP)、人工知能(AI)、機械学習(ML)などの最先端のテクノロジーを活用して、学生の教育体験を強化することを目的としたTAPのコンポーネントを開発します。
Autotalkerは、テキストからスピーチへの変換のためにSuno Bark TTSなど、高度なAIモデルとライブラリ、Googleの生成AI Python SDK(Gemini Pro)、テキスト生成用のSadtalkerを使用して、ビデオの顔の動きを塗りつぶします。これらのテクノロジーを統合することにより、Autotalkerは、テキストプロンプトと画像から魅力的で有益なビデオコンテンツを作成できます。
さらに、このプロジェクトには、パーソナライズされた学習、コンテンツ作成支援、言語サポートなどの機能が組み込まれており、多様な学習ニーズや好みに応えます。 AIの力を活用することにより、Autotalkerは教育者と学生の両方が、個々の要件に合わせた高品質の教育コンテンツにアクセスできるようにし、それによって21世紀の必須スキルの開発を促進します。
この革新的なソリューションを通じて、TAPは教育環境に革命をもたらし、質の高い学習リソースへのアクセスのギャップを埋め、サービスを受けていないコミュニティからの学生がデジタル時代に最大限の可能性を実現できるようにすることを目指しています。
このプロジェクトは、テクノロジーの活用を活用して、新しいコースを作成し、既存のコースをパーソナライズし、評価プロセスを強化し、最終的には学生の21世紀のスキルの開発に貢献しています。 TAPのコンポーネントであるAutotalkerは、テキストプロンプトと画像からリップシンクスされたビデオを生成する際にAIの機能を紹介し、学生の全体的な教育体験を向上させます。
次のようないくつかのライブラリを利用します。
これらの機能は、インプットテキストプロンプトと画像からのリップシンクスビデオの生成に集合的に貢献し、英語のさまざまな言語や字幕をサポートします。
Python 3.10.6
Google AIのAPIキー。
ffmpegインストール。
Pytorchがインストールされました。システムがCUDAをサポートしていることを確認してください。
ImageMagickがインストールされました。これはMoviepyに必要です。
Sadtalkerがインストールされました。
注: CUDAのサポートを備えたGPUに最低4 GB VRAMがあることを確認してください。
Python 3.10.6のインストール:
ffmpegをインストール:
ImageMagickのインストール:
AutoTalkerリポジトリをクローンします。
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerモデルとウェイトを使用してSadtalkerをダウンロードしてください:
python download_models.py上記のコマンドを実行し、「ダウンロードが完了した」が表示されるまで待ちます。これにより、必要なモデルと重量とともにSadtalkerをダウンロードします。
仮想環境を作成します:
python -m venv venv仮想環境を有効にします:
source venv/bin/activate. v env S cripts a ctivate依存関係をインストールします:
pip install -r requirements.txtPytorchをCudaにインストールします。
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118これで、プロジェクトの環境を正常にセットアップし、GPUが指定された要件を満たすようにします。
プロジェクトには次の構造があります。
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
仮想環境をアクティブにします:
Gemini Pro APIキーを構成します:
main.pyファイルを開きます。genai.configure(api_key="add your key here") 。"add your key here"実際のGemini Pro APIキーに置き換えます。メインスクリプトとグラデーションWeb UIを実行します。
iface.launch()パーツ)をコピーします。Autotalkerを実行してGradioを打ち上げます:
python main.pyアクセスグレードWeb UI:
インターフェイスを探索してください:
提出して待ってください:
レビュー出力:
字幕を探索します(有効にした場合):
繰り返しと実験:
グラデーションUIを閉じる:
これらの組み合わせの手順に従うことにより、SeamlyTytelly Autotalkerを実行し、Gradio Web UIと対話し、生成されたリップシンクスビデオを体験できます。
私たちのプロジェクトに貢献することにあなたの興味を感謝します!スムーズで協力的なエクスペリエンスを確保するために、次のガイドラインに従ってください。
リポジトリをフォークします:
リポジトリをクローンします:
git clone https://github.com/YourUsername/AutoTalker.gitブランチを作成する:
git checkout -b feature/your-feature-name変更を加える:
変更のコミット:
git commit -m " Add your commit message here "変更のプッシュ:
git push origin feature/your-feature-nameプルリクエストを作成します:
レビューとコラボレーション:
スカッシュコミット(必要に応じて):
マージ:
ヘルプが必要な領域:人間のようなTTS実装
大きな影響を与えることに興味がある場合は、インドの地域言語を含む多様な言語セットの人間のようなテキスト(TTS)の実装に貢献することを検討してください。男性と女性の両方の声のTTS機能の強化に焦点を当てます。
インドの多様な言語景観を考えると、TTSのインドの地域言語を支援するための貢献は非常に価値があります。これらの言語には含まれる場合がありますが、以下に限定されません。
これらの言語にTTSを実装する際の努力は、特に多様な言語的背景を持つ地域で、より多くの聴衆が教育コンテンツにアクセスできるようにすることに大きく貢献します。
人間のようなTTS実装へのこれらの重要な貢献を検討していただきありがとうございます!あなたの仕事は、教育コンテンツをさまざまな言語的背景の学習者が包括的かつアクセスしやすくする上で重要な役割を果たします。 ?
このプロジェクトは、MITライセンスの下でライセンスされています。
このプロジェクトは、次のオープンソースプロジェクトとその貢献者を認めています。
Google AI Python SDK: Google AI Python SDKを使用すると、開発者はGoogleの最先端の生成AIモデル(GeminiやPalmなど)を使用して、AIを搭載した機能とアプリケーションを構築できます。
Sadtalker: [CVPR 2023] Sadtalker:様式化されたオーディオ駆動型のシングル画像のトーキングフェイスアニメーションの現実的な3Dモーション係数を学習します。 Opentalkerによるプロジェクト。
ペダルボード: Spotifyが開発したオーディオを使用するためのPythonライブラリ。
ささやき: Openaiによるオープンソースプロジェクトである大規模な弱い監督による堅牢な音声認識。
顔を抱きしめて変圧器: ?トランス:Pytorch、Tensorflow、およびJaxの最先端の機械学習。
顔を抱きしめて加速:マルチGPU、TPU、混合精度でPytorchモデルをトレーニングおよび使用する簡単な方法。
顔を抱き締めることで最適:トレーニングと推論を加速しますか?変圧器と?使いやすいハードウェア最適化ツールを備えたディフューザー。
Suno Aiによる樹皮: ?テキストプロンプト化生成オーディオモデル。
Pytorch:強力なGPU加速を備えたPythonのテンソルと動的ニューラルネットワーク。
これらのプロジェクトは、Autotalkerの開発と機能に大きく貢献しており、それぞれの開発者とメンテナーに感謝の気持ちを広げています。