Schauen Sie sich das Demo -Video an, um Autotalker in Aktion zu sehen!
Eingabeaufforderung
"Erklären Sie Python und ihre Anwendungen in 30 Sekunden"
Eingabebild

Video ausgeben
In der sich schnell entwickelnden Landschaft des 21. Jahrhunderts ist eine umfassende Ausbildung von größter Bedeutung, um die Schüler auf die Fähigkeiten vorzubereiten, die erforderlich sind, um in der modernen Gesellschaft zu gedeihen. Das Lehrlingsprojekt (TAP) widmet sich der Kultivierung dieser wesentlichen Fähigkeiten des 21. Jahrhunderts bei unterversorgten Kindern, die in staatlichen oder einkommensschwachen Privatschulen eingeschrieben sind.
TAP arbeitet unter dem Dach der Mentorme Foundation, eines registrierten Unternehmens, und wird stolz von angesehenen Institutionen wie der Harvard University, IIM Bangalore und der Nudge Foundation unterstützt. Als offizielle Partner der Regierungen von Maharashtra und Delhi hat TAP einen erheblichen Einfluss und erreicht über 31.000 Kinder durch seinen innovativen Chatbot über 31.000 Kinder.
Eine erstaunliche Anzahl von Schülern der Mittel- und Oberstufe-über 100 Millionen-aus Gemeinschaften mit niedrigem Einkommen in ganz Indien fehlt die kritischen Fähigkeiten des 21. Jahrhunderts, einschließlich soziales und emotionales Lernen (SEL) und finanzielle Kompetenz. Das traditionelle prüfzentrierte öffentliche Bildungssystem verschärft dieses Problem und führt zu der alarmierenden Statistik, dass 1 von 2 Kindern aufgrund des Fehlens dieser entscheidenden Fähigkeiten als arbeitslos angesehen wird.
Tippen Sie auf seine Mission mit mehreren UN -SDGs:
Das Lehrlingsprojekt (TAP), das unter der Mentorme Foundation operiert, ermöglicht unterversorgte Schüler durch Tap Buddy-eine künstliche Intelligenz-WhatsApp-Chatbot. TAP Buddy bietet Video-basierte Wahlfächer an und führt die Schüler durch unabhängige Projekte mit personalisierten (ML-gelernten) und AI-Bot-basierten Nudges und Inhalten an. Selbstlernprojektvideos fördern Fähigkeiten wie Kreativität, Selbstbewusstsein, Kommunikation und Problemlösung, brechen mentale Hindernisse und vermitteln eine Wachstumsdichtung.
Während die Verwendung von TAPs Chatbot weiter wächst, steht das Projekt vor Herausforderungen und sucht innovative Lösungen:
Kurserstellung: Nutzung von KI, um Inhalte für verschiedene Wahlfächer wie Codierung und visuelle Künste zu generieren, um die Einschränkungen bei der Erstellung von Massenvideos aufgrund manueller Zeitbeschränkungen zu überwinden.
Personalisiertes Lernen: Verwenden von KI, um personalisierte Codierungs -Tutorials oder Kunstprojektleitfäden zu erstellen, die auf individuelle Lernstile und Fähigkeiten zugeschnitten sind. Advanced ML/Open AI -Analyse passt den Inhalt an, basierend auf dem Fortschritt eines Lernenden und gewährleistet eine maßgeschneiderte Lernerfahrung.
Inhaltserstellung: Verwenden von KI, um Code -Snippets, Vorlagen oder Designideen für Kunstprojekte zu generieren, die Schüler auf ihren Fähigkeiten zu führen und Explorationsoptionen vorzuschlagen.
Künstlerische Erkundung: Empfehlen Sie Techniken und Stile, die auf dem Fähigkeitsniveau eines Kindes basieren und künstlerischen Horizonten erweitern, indem sie ihre Arbeit mit berühmten Künstlern oder Kunstbewegungen vergleichen.
Kreative Codierung: Verwenden von KI, um Ideen zu erfassen und inspirieren innovative und künstlerische Codierungsprojekte inspirieren.
Mein Ansatz zur Bewältigung der Herausforderungen, denen sich TAP gegenübersieht, besteht darin, hochmoderne Technologien, einschließlich der Verarbeitung natürlicher Sprache (NLP), künstlicher Intelligenz (KI) und maschinelles Lernen (ML), zur Entwicklung eines Autotalkers-einem Bestandteil des TAP, der darauf abzielt, die Bildungserfahrung für die Schüler zu verbessern.
Autotalker verwendet fortschrittliche KI-Modelle und Bibliotheken, wie Suno Bark TTS für Text-to-Speech-Konvertierung, das generative AI Python SDK (Gemini Pro) von Google für die Textgenerierung und Sadtalker für Lip-synchronisierte Audio mit Gesichtsbewegungen in Videos. Durch die Integration dieser Technologien ermöglicht Autotalker die Erstellung von ansprechenden und informativen Videoinhalten aus Texteingabeaufforderungen und Bildern.
Darüber hinaus enthält das Projekt Funktionen wie personalisiertes Lernen, Unterstützung bei der Erstellung von Inhalten und die Sprachunterstützung, um sich auf verschiedene Lernbedürfnisse und -präferenzen zu kümmern. Durch die Nutzung der Macht der KI ermöglicht Autotalker Pädagogen und Studenten gleichermaßen, auf hochwertige Bildungsinhalte zuzugreifen, die auf ihre individuellen Anforderungen zugeschnitten sind, und fördert dadurch die Entwicklung wesentlicher Fähigkeiten des 21. Jahrhunderts.
Durch diese innovative Lösung zielt TAP darauf ab, die Bildungslandschaft zu revolutionieren, die Lücke beim Zugang zu qualitativ hochwertigen Lernressourcen zu schließen und Schüler aus unterversorgten Gemeinschaften zu befähigen, ihr volles Potenzial im digitalen Zeitalter auszuschöpfen.
Das Projekt konzentriert sich auf die Nutzung von Technologien, um neue Kurse zu schaffen, bestehende Person zu personalisieren und den Bewertungsprozess zu verbessern, was letztendlich zur Entwicklung von Fähigkeiten des 21. Jahrhunderts bei Studenten beiträgt. Autotalker, eine Komponente von TAP, zeigt die Funktionen von KI bei der Erzeugung von Lippensynchronisierungsvideos aus Texteingabeaufforderungen und -bildern und verbessert die allgemeine Bildungserfahrung für Schüler.
Es wird mehrere Bibliotheken verwendet, darunter:
Diese Funktionen tragen gemeinsam zur Erzeugung von Lippensynchronisierungsvideos von Eingabettextaufforderungen und -bildern bei, wobei verschiedene Sprachen und Untertitel in englischer Sprache unterstützt werden.
Python 3.10.6
API -Schlüssel von Google AI.
ffmpeg installiert.
Pytorch installiert. Stellen Sie sicher, dass Ihr System CUDA unterstützt.
Imagemagick installiert. Dies ist für moviepy erforderlich.
Sadtalker installiert.
Hinweis: Stellen Sie sicher, dass Ihre GPU mindestens 4 GB VRAM mit Unterstützung für CUDA hat.
Installieren Sie Python 3.10.6:
Installieren Sie FFMPEG:
Installieren Sie Imagemagick:
Klonen Sie das Autotalker -Repository:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerLaden Sie Sadtalker mit Modellen und Gewichten herunter:
python download_models.pyFühren Sie den obigen Befehl aus und warten Sie, bis er "Downloads abgeschlossen" angezeigt wird. Dadurch wird Sadtalker zusammen mit den erforderlichen Modellen und Gewichten heruntergeladen.
Erstellen Sie eine virtuelle Umgebung:
python -m venv venvAktivieren Sie die virtuelle Umgebung:
source venv/bin/activate. v env S cripts a ctivateAbhängigkeiten installieren:
pip install -r requirements.txtInstallieren Sie Pytorch mit CUDA:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Jetzt haben Sie die Umgebung für das Projekt erfolgreich eingerichtet, um sicherzustellen, dass Ihre GPU die angegebenen Anforderungen entspricht.
Das Projekt hat die folgende Struktur:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Aktivieren Sie die virtuelle Umgebung:
Konfigurieren Sie den Gemini Pro -API -Schlüssel:
main.py -Datei.genai.configure(api_key="add your key here") ."add your key here" durch Ihren tatsächlichen Gemini Pro -API -Schlüssel.Führen Sie das Hauptskript und die Gradio Web UI aus:
iface.launch() Teil) aus dem Skript.Autotalker ausführen und Gradio starten:
python main.pyZugriff auf Gradio Web UI:
Erkunden Sie die Schnittstelle:
Senden und warten:
Überprüfungsausgabe:
Erforschen Sie Untertitel (falls aktiviert):
Wiederholen und experimentieren:
Gradio UI schließen:
Wenn Sie diesen kombinierten Schritten befolgen, können Sie den Autotalker nahtlos ausführen, mit der Gradio Web UI interagieren und die erzeugten Lippen-synchronisierten Videos erleben.
Wir schätzen Ihr Interesse daran, zu unserem Projekt beizutragen! Um eine reibungslose und kollaborative Erfahrung zu gewährleisten, befolgen Sie bitte die folgenden Richtlinien:
Fork das Repository:
Klonen Sie das Repository:
git clone https://github.com/YourUsername/AutoTalker.gitErstellen Sie einen Zweig:
git checkout -b feature/your-feature-nameÄnderungen vornehmen:
Änderungen begehen:
git commit -m " Add your commit message here "Veränderungen drücken:
git push origin feature/your-feature-namePull -Anfrage erstellen:
Überprüfung und Zusammenarbeit:
Squash Commits (falls erforderlich):
Verschmelzen:
Bereiche, die Hilfe benötigen: Menschenähnliche TTS-Implementierung
Wenn Sie einen erheblichen Einfluss haben möchten, sollten Sie einen Beitrag zur Umsetzung von menschlichem Text-zu-Sprach (TTS) für eine Vielzahl von Sprachen, einschließlich indischer regionaler Sprachen, beiwirken. Konzentrieren Sie sich auf die Verbesserung der TTS -Funktionen für männliche und weibliche Stimmen.
Angesichts der vielfältigen sprachlichen Landschaft in Indien werden Beiträge zur Unterstützung indischer regionaler Sprachen in TTS hoch geschätzt. Diese Sprachen können umfassen, sind jedoch nicht beschränkt auf:
Ihre Bemühungen zur Implementierung von TTs für diese Sprachen werden erheblich dazu beitragen, Bildungsinhalte für ein breiteres Publikum zugänglich zu machen, insbesondere in Regionen mit unterschiedlichem sprachlichen Hintergrund.
Vielen Dank, dass Sie diese wichtigen Beiträge zur menschlichen TTS-Implementierung in Betracht gezogen haben! Ihre Arbeit spielt eine wichtige Rolle bei der Inklusiv- und Zugriff auf Bildungsinhalte und zugänglich für Lernende aus verschiedenen sprachlichen Hintergründen. ?
Dieses Projekt ist unter der MIT -Lizenz lizenziert.
Dieses Projekt erkennt die folgenden Open-Source-Projekte und deren Mitwirkenden an:
Google AI Python SDK: Mit dem Google AI Python SDK können Entwickler die hochmodernen generativen KI-Modelle von Google (wie Gemini und Palm) verwenden, um AI-betriebene Funktionen und Anwendungen zu erstellen.
Sadtalker: [CVPR 2023] Sadtalker: Lernen realistische 3D-Bewegungskoeffizienten für stilisierte audiogesteuerte Einzelbild-sprechende Gesichtsanimation. Ein Projekt von Openentalker.
Pedalboard: Eine von Spotify entwickelte Python -Bibliothek für die Arbeit mit Audio.
Whisper: Robuste Spracherkennung über eine große schwache Überwachung, ein Open-Source-Projekt von OpenAI.
Transformers durch Umarmung des Gesichts:? Transformatoren: Machteres maschinelles Lernen für Pytorch, Tensorflow und Jax.
Beschleunigen Sie durch Umarmung: Eine einfache Möglichkeit, Pytorch-Modelle mit Multi-GPU, TPU, gemischter Präzision zu trainieren und zu verwenden.
Optimum durch Umarmung des Gesichts: Beschleunigen Sie das Training und die Schlussfolgerung von? Transformatoren und? Diffusoren mit benutzerfreundlichen Hardware-Optimierungstools.
Rinde von Suno Ai:? Textgeprägtes generatives Audiomodell.
Pytorch: Tensoren und dynamische neuronale Netzwerke in Python mit starker GPU -Beschleunigung.
Diese Projekte haben erheblich zur Entwicklung und Funktionalität des Autotalkers beigetragen, und wir danken unseren jeweiligen Entwicklern und Betreuern.