AutoTalkerダウンロードAutoTalkerソースコードのダウンロード

AutoTalker

AI ソースコード

1.0.0

ダウンロード

オートタルカー？

プロジェクトデモビデオ

デモビデオをチェックして、Autotalkerが動作しているのをご覧ください！

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

例

入力プロンプト

「Pythonとそのアプリケーションを30秒で説明してください」

入力画像

出力ビデオ

output_video.mp4

プロジェクトの説明

見習いプロジェクト（タップ）

21世紀の急速に進化する風景では、現代社会で繁栄するために必要なスキルを学生に準備するための包括的な教育が最も重要です。 Apprentice Project（TAP）は、政府または低所得の私立学校に登録されているサービスを受けていない子どもたちの間で、これらの重要な21世紀のスキルを育むことに専念しています。

TAPは、セクション8の登録会社であるMentorme Foundationの傘下で動作し、ハーバード大学、IIMバンガロール、ナッジ財団などの尊敬される機関によって誇らしげにサポートされています。マハラシュトラ州とデリーの政府と公式のパートナーとして、TAPは大きな影響を与え、革新的なチャットボットを通じて31,000人以上の子供にリーチしています。

問題ステートメント

インド全土の低所得コミュニティからの驚異的な数の中学生と高校生は、社会的および感情的な学習（SEL）や金融リテラシーなど、21世紀の重要なスキルを欠いています。伝統的な試験中心の公教育システムはこの問題を悪化させ、インドの教育システムを卒業した2人の子供に1人がこれらの重要なスキルがないために失業しているとみなされるという驚くべき統計につながります。

金融リテラシー統計：
- インドの10代の学生の16.7％のみが基本的な金融リテラシーを持っています。
- インドの成人人口のわずか27％は、財政的に読み書きができると考えられています。

国連持続可能な開発目標（SDG）

タップは、そのミッションをいくつかの国連SDGに合わせます。

目標1：貧困なし
ゴール2：ゼロ空腹
目標3：健康と幸福
目標4：質の高い教育
目標8：まともな仕事と経済成長

現在のシステム

Mentorme Foundationの下で運営されているApprentice Project（TAP）は、人工知能を搭載したWhatsAppチャットボットであるTap Buddyを通じて、サービスを受けていない学生を強化します。 Tap Buddyは、ビデオベースの選択科目を提供し、パーソナライズされた（ML学習）およびAIボットベースのナッジとコンテンツを使用して、独立したプロジェクトを導きます。自己学習プロジェクトビデオは、創造性、自信、自己認識、コミュニケーション、問題解決などのスキルを促進し、精神的障壁を破り、成長の考え方を植え付けます。

課題と革新

Tapのチャットボットの使用が成長し続けるにつれて、プロジェクトは課題に直面し、革新的なソリューションを求めています。

コースの作成： AIを活用して、コーディングや視覚芸術などのさまざまな選択科目にわたってコンテンツを生成し、手動の時間の制約のためにバルクビデオ作成の制限を克服することを目指しています。
パーソナライズされた学習： AIを使用して、個々の学習スタイルとスキルレベルに合わせたパーソナライズされたコーディングチュートリアルまたはARTプロジェクトガイドを作成します。 Advanced ML/Open AI分析は、学習者の進捗状況に基づいてコンテンツを適応させ、カスタマイズされた学習エクスペリエンスを確保します。
コンテンツの作成： AIを利用して、アートプロジェクトのコードスニペット、テンプレート、またはデザインのアイデアを生成し、スキルレベルで学生を導き、探索オプションを提案します。
芸術的探査：子供のスキルレベルに基づいてテクニックとスタイルを推奨し、有名なアーティストや芸術運動と作品を比較することで芸術的な視野を広げます。
クリエイティブコーディング： AIを使用してアイデアをブレインストーミングし、革新的で芸術的なコーディングプロジェクトのインスピレーションを提供します。

アプローチと解決策

TAPが直面する課題に対処するための私のアプローチでは、自然言語処理（NLP）、人工知能（AI）、機械学習（ML）などの最先端のテクノロジーを活用して、学生の教育体験を強化することを目的としたTAPのコンポーネントを開発します。

Autotalkerは、テキストからスピーチへの変換のためにSuno Bark TTSなど、高度なAIモデルとライブラリ、Googleの生成AI Python SDK（Gemini Pro）、テキスト生成用のSadtalkerを使用して、ビデオの顔の動きを塗りつぶします。これらのテクノロジーを統合することにより、Autotalkerは、テキストプロンプトと画像から魅力的で有益なビデオコンテンツを作成できます。

さらに、このプロジェクトには、パーソナライズされた学習、コンテンツ作成支援、言語サポートなどの機能が組み込まれており、多様な学習ニーズや好みに応えます。 AIの力を活用することにより、Autotalkerは教育者と学生の両方が、個々の要件に合わせた高品質の教育コンテンツにアクセスできるようにし、それによって21世紀の必須スキルの開発を促進します。

この革新的なソリューションを通じて、TAPは教育環境に革命をもたらし、質の高い学習リソースへのアクセスのギャップを埋め、サービスを受けていないコミュニティからの学生がデジタル時代に最大限の可能性を実現できるようにすることを目指しています。

について

このプロジェクトは、テクノロジーの活用を活用して、新しいコースを作成し、既存のコースをパーソナライズし、評価プロセスを強化し、最終的には学生の21世紀のスキルの開発に貢献しています。 TAPのコンポーネントであるAutotalkerは、テキストプロンプトと画像からリップシンクスされたビデオを生成する際にAIの機能を紹介し、学生の全体的な教育体験を向上させます。

次のようないくつかのライブラリを利用します。

Suno Bark TTS：テキストプロンプトからオーディオを生成するために使用されるテキストからスピーチへの変換ライブラリ。
Pydub：オーディオファイルとフォーマットを処理するためのオーディオ操作ライブラリ。
Google.generativeai（Gemini Pro）： Googleの生成的AI Python SDKはテキスト生成に使用されます。
Sadtalker：ビデオの顔の動きとオーディオを同期するために使用されるリップシンクモデル。
Openai Whisper：音声特性のカスタマイズを可能にする音声からテキストへの変換のライブラリ。
Spotify Pedalboard：オーディオファイルの品質と効果を改善するためのオーディオ強化ライブラリ。
Moviepy：ビデオの処理と編集タスクを容易にするビデオ編集ライブラリ。
Pytorch： Sadtalkerの機能を含むさまざまな機械学習タスクに使用される深い学習フレームワーク。
FFMPEG：オーディオやビデオファイルなどのマルチメディアデータの処理に使用されるマルチメディアフレームワーク。
ハグのフェイストランス：自然言語処理タスクのための事前に訓練されたモデルとさまざまなユーティリティを提供するライブラリ。
Better Transformer： CPUおよびGPUで高性能で変圧器モデルの展開を加速するための生産対応の高速パス。高速パス機能は、Pytorch Core NNに直接基づいたモデルに対して透過的に機能します。
Numpy：大規模で多次元配列とマトリックスを処理するための強力な数値計算ライブラリ。
グラデーション：機械学習モデルを中心にカスタマイズ可能なUIコンポーネントを作成するためのユーザーフレンドリーなライブラリで、Webインターフェイスを介したモデルとの簡単な展開と相互作用を可能にします。

特徴

テキストツースピック変換： Suno Bark TTSを使用して、テキストプロンプトをオーディオファイル（WAV形式）に変換します。
オーディオ操作：オーディオ操作タスクにPydubを採用し、オーディオの品質を高め、望ましい効果を適用します。
生成AIテキスト：テキスト生成のためにGoogleの生成AI Python SDK（Gemini Pro）を活用し、多様で文脈的に関連するプロンプトを提供します。
リップシンク：リップシンクモデルであるSadtalkerを統合して、生成されたオーディオをビデオの顔の動きと同期させます。
音声からテキストへの変換：音声からテキストへの変換のためにOpenai Whisperが組み込まれ、音声特性のカスタマイズが可能になります。
オーディオの拡張： Spotify Pedalboardを利用して、オーディオファイルに効果を高め、適用し、全体的なオーディオ品質を改善します。
ビデオ編集：ビデオ編集ライブラリであるMoviepyを実装して、最終的なリップシンクスビデオの作成を含むビデオ処理と編集タスクを実施します。
ディープラーニングフレームワーク： Sadtalkerの機能を実行するために不可欠な深い学習能力のためにPytorchを活用します。
マルチメディア処理：マルチメディアフレームワークであるFFMPEGを使用して、処理中にオーディオファイルやビデオファイルなどのマルチメディアデータを処理します。
自然言語処理：フェイストランスの抱きしめを統合し、自然言語処理タスクのために事前に訓練されたモデルとユーティリティを提供します。
トランスモデルの高速パス： CPUとGPUの両方で変圧器モデルの展開を加速するための生産対応の高速パスであるBetter Transformerが組み込まれています。
数値計算：強力な数値計算、特に大規模な多次元配列とマトリックスの処理のためにNumpyに依存しています。
ユーザーフレンドリーなUIコンポーネント：ユーザーフレンドリーなライブラリであるGradioを統合して、機械学習モデルを中心にカスタマイズ可能なUIコンポーネントを作成し、Webインターフェイスを介した簡単な展開と相互作用を促進します。
言語サポート：英語、中国語（単純化）、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、韓国語、ポーランド語、ポルトガル語、ロシア語、スペイン語、トルコ語など、複数の言語をサポートしています。
サブタイトルサポート：現在、英語でのみ利用可能です。

これらの機能は、インプットテキストプロンプトと画像からのリップシンクスビデオの生成に集合的に貢献し、英語のさまざまな言語や字幕をサポートします。

はじめる

前提条件

Python 3.10.6
Google AIのAPIキー。
ffmpegインストール。
Pytorchがインストールされました。システムがCUDAをサポートしていることを確認してください。
ImageMagickがインストールされました。これはMoviepyに必要です。
Sadtalkerがインストールされました。
注： CUDAのサポートを備えたGPUに最低4 GB VRAMがあることを確認してください。

インストール

Python 3.10.6のインストール：
- Python 3.10.6をダウンロードしてインストールします。バージョン3.11および3.12はサポートされていないことに注意してください。
ffmpegをインストール：
- システムの適切な指示に従ってください。
ImageMagickのインストール：
- ImageMagickをダウンロードしてインストールします。

AutoTalkerリポジトリをクローンします。

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

モデルとウェイトを使用してSadtalkerをダウンロードしてください：
```
python download_models.py
```
上記のコマンドを実行し、「ダウンロードが完了した」が表示されるまで待ちます。これにより、必要なモデルと重量とともにSadtalkerをダウンロードします。
仮想環境を作成します：
```
python -m venv venv
```
仮想環境を有効にします：
- Linux/Macで：
```
 source venv/bin/activate
```
- Windows：
```
. v env S cripts a ctivate
```
依存関係をインストールします：
```
pip install -r requirements.txt
```

PytorchをCudaにインストールします。

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

これで、プロジェクトの環境を正常にセットアップし、GPUが指定された要件を満たすようにします。

使用法

プロジェクト構造

プロジェクトには次の構造があります。

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Autotalkerを実行し、Gradio Web UIをオープンするための手順：

仮想環境をアクティブにします：
- 以前に作成された仮想環境をアクティブにします。
Gemini Pro APIキーを構成します：
- main.pyファイルを開きます。
- ラインを見つけます： genai.configure(api_key="add your key here") 。
- "add your key here"実際のGemini Pro APIキーに置き換えます。
メインスクリプトとグラデーションWeb UIを実行します。
- スクリプトから提供されたグラデーションコード（ iface.launch()パーツ）をコピーします。
Autotalkerを実行してGradioを打ち上げます：
- 仮想環境がアクティブな端末と同じターミナルで、Gradio Web UIとともにAutoTalkerスクリプトを実行します。
```
python main.py
```
アクセスグレードWeb UI：
- スクリプトを実行した後、GradioはWeb UIがホストされるリンク（通常はLocalHost）を提供します。 Webブラウザでそのリンクを開きます。
インターフェイスを探索してください：
- Gradio Web UIインターフェイスにアクセスできるようになりました。
- テキストボックス、ラジオボタン、スライダー、画像アップロードオプションなどの提供された入力コンポーネントと対話します。
提出して待ってください：
- 「インターフェイスの起動」または同様のボタンをクリックして、入力を送信します。
- Gradioは、入力を処理し、出力を生成し、結果をWeb UIに表示します。
レビュー出力：
- 出力は、構成に応じて、字幕の有無にかかわらずビデオである場合があります。
字幕を探索します（有効にした場合）：
- サブタイトルサポートを有効にした場合は、ビデオ用に生成されたサブタイトルを調べてください。
繰り返しと実験：
- さまざまな出力を生成するために、さまざまな入力、プロンプト、パラメーターを自由に試してください。
グラデーションUIを閉じる：
- 完了したら、Gradio Web UIを閉じます。

これらの組み合わせの手順に従うことにより、SeamlyTytelly Autotalkerを実行し、Gradio Web UIと対話し、生成されたリップシンクスビデオを体験できます。

貢献

私たちのプロジェクトに貢献することにあなたの興味を感謝します！スムーズで協力的なエクスペリエンスを確保するために、次のガイドラインに従ってください。

リポジトリをフォークします：
- このリポジトリをGitHubアカウントに分岐することから始めます。

リポジトリをクローンします：

git clone https://github.com/YourUsername/AutoTalker.git

ブランチを作成する：
- 貢献ごとに、説明的な名前の新しいブランチを作成します。
```
git checkout -b feature/your-feature-name
```
変更を加える：
- 拡張機能または修正を実装します。プロジェクトの目標に合わせて変更を確認してください。
変更のコミット：
- 明確で簡潔なコミットメッセージで変更をコミットします。
```
git commit -m " Add your commit message here "
```
変更のプッシュ：
- 変更をフォークリポジトリに押し込みます。
```
git push origin feature/your-feature-name
```
プルリクエストを作成します：
- フォークリポジトリからメインリポジトリへのプルリクエストを開きます。
- 変更に関する詳細情報を提供し、目的と影響の概要を説明します。
レビューとコラボレーション：
- 議論に従事し、フィードバックに対応し、コミュニティと協力して貢献を改善します。
スカッシュコミット（必要に応じて）：
- プルリクエストに複数のコミットが含まれている場合は、それらを単一の適切に構造化したコミットに押し込んでいることを検討してください。
マージ：
- プルリクエストが承認されると、メインリポジトリにマージされます。
ヘルプが必要な領域：人間のようなTTS実装

大きな影響を与えることに興味がある場合は、インドの地域言語を含む多様な言語セットの人間のようなテキスト（TTS）の実装に貢献することを検討してください。男性と女性の両方の声のTTS機能の強化に焦点を当てます。

人間のようなTTS実装のためのサポート言語：

アラビア語（AR）
ベンガル語（BN）
ブルガリア人（BG）
クロアチア語（HR）
チェコ（CS）
デンマーク語（da）
オランダ（NL）
エストニア（ET）
フィンランド語（fi）
ギリシャ語（el）
ヘブライ語（IW）
ハンガリー（hu）
インドネシア人（ID）
ラトビアン（LV）
リトアニア人（LT）
ノルウェー語（いいえ）
ルーマニア人（RO）
セルビア人（SR）
スロバキア（SK）
スロベニア人（SL）
スワヒリ（SW）

インドの地域言語にさらに焦点を当てる：

インドの多様な言語景観を考えると、TTSのインドの地域言語を支援するための貢献は非常に価値があります。これらの言語には含まれる場合がありますが、以下に限定されません。

ヒンディー語
タミル語
テルグ語
カンナダ
マラヤーラム語
パンジャブ
グジャラート語
マラーティー
ベンガル語
オディア
アッサム
ウルドゥー語

これらの言語にTTSを実装する際の努力は、特に多様な言語的背景を持つ地域で、より多くの聴衆が教育コンテンツにアクセスできるようにすることに大きく貢献します。

人間のようなTTS実装へのこれらの重要な貢献を検討していただきありがとうございます！あなたの仕事は、教育コンテンツをさまざまな言語的背景の学習者が包括的かつアクセスしやすくする上で重要な役割を果たします。？

ライセンス

このプロジェクトは、MITライセンスの下でライセンスされています。

謝辞

このプロジェクトは、次のオープンソースプロジェクトとその貢献者を認めています。

Google AI Python SDK： Google AI Python SDKを使用すると、開発者はGoogleの最先端の生成AIモデル（GeminiやPalmなど）を使用して、AIを搭載した機能とアプリケーションを構築できます。
Sadtalker： [CVPR 2023] Sadtalker：様式化されたオーディオ駆動型のシングル画像のトーキングフェイスアニメーションの現実的な3Dモーション係数を学習します。 Opentalkerによるプロジェクト。
ペダルボード： Spotifyが開発したオーディオを使用するためのPythonライブラリ。
ささやき： Openaiによるオープンソースプロジェクトである大規模な弱い監督による堅牢な音声認識。
顔を抱きしめて変圧器： ？トランス：Pytorch、Tensorflow、およびJaxの最先端の機械学習。
顔を抱きしめて加速：マルチGPU、TPU、混合精度でPytorchモデルをトレーニングおよび使用する簡単な方法。
顔を抱き締めることで最適：トレーニングと推論を加速しますか？変圧器と？使いやすいハードウェア最適化ツールを備えたディフューザー。
Suno Aiによる樹皮： ？テキストプロンプト化生成オーディオモデル。
Pytorch：強力なGPU加速を備えたPythonのテンソルと動的ニューラルネットワーク。