AutoTalker Download - AutoTalker -Quellcode herunterladen

AutoTalker

AI-Quellcode

1.0.0

Herunterladen

Autotalker?

Projektdemo -Video

Schauen Sie sich das Demo -Video an, um Autotalker in Aktion zu sehen!

Whatsapp.video.2024-02-26.at.29.16.am.mp4

Beispiel

Eingabeaufforderung

"Erklären Sie Python und ihre Anwendungen in 30 Sekunden"

Eingabebild

Video ausgeben

output_video.mp4

Projektbeschreibung

Das Lehrlingsprojekt (TAP)

In der sich schnell entwickelnden Landschaft des 21. Jahrhunderts ist eine umfassende Ausbildung von größter Bedeutung, um die Schüler auf die Fähigkeiten vorzubereiten, die erforderlich sind, um in der modernen Gesellschaft zu gedeihen. Das Lehrlingsprojekt (TAP) widmet sich der Kultivierung dieser wesentlichen Fähigkeiten des 21. Jahrhunderts bei unterversorgten Kindern, die in staatlichen oder einkommensschwachen Privatschulen eingeschrieben sind.

TAP arbeitet unter dem Dach der Mentorme Foundation, eines registrierten Unternehmens, und wird stolz von angesehenen Institutionen wie der Harvard University, IIM Bangalore und der Nudge Foundation unterstützt. Als offizielle Partner der Regierungen von Maharashtra und Delhi hat TAP einen erheblichen Einfluss und erreicht über 31.000 Kinder durch seinen innovativen Chatbot über 31.000 Kinder.

Problemanweisung

Eine erstaunliche Anzahl von Schülern der Mittel- und Oberstufe-über 100 Millionen-aus Gemeinschaften mit niedrigem Einkommen in ganz Indien fehlt die kritischen Fähigkeiten des 21. Jahrhunderts, einschließlich soziales und emotionales Lernen (SEL) und finanzielle Kompetenz. Das traditionelle prüfzentrierte öffentliche Bildungssystem verschärft dieses Problem und führt zu der alarmierenden Statistik, dass 1 von 2 Kindern aufgrund des Fehlens dieser entscheidenden Fähigkeiten als arbeitslos angesehen wird.

Finanzkompetenzstatistik:
- Nur 16,7% der indischen Teenager -Studenten besitzen grundlegende finanzielle Kompetenz.
- Nur 27% der indischen erwachsenen Bevölkerung gilt als finanziell gebildet.

UN -Ziele für nachhaltige Entwicklung (SDGs)

Tippen Sie auf seine Mission mit mehreren UN -SDGs:

Ziel 1: Keine Armut
Ziel 2: Zero Hunger
Ziel 3: gute Gesundheit und Wohlbefinden
Ziel 4: Qualitätsbildung
Ziel 8: Anständiges Arbeits- und Wirtschaftswachstum

Aktuelles System

Das Lehrlingsprojekt (TAP), das unter der Mentorme Foundation operiert, ermöglicht unterversorgte Schüler durch Tap Buddy-eine künstliche Intelligenz-WhatsApp-Chatbot. TAP Buddy bietet Video-basierte Wahlfächer an und führt die Schüler durch unabhängige Projekte mit personalisierten (ML-gelernten) und AI-Bot-basierten Nudges und Inhalten an. Selbstlernprojektvideos fördern Fähigkeiten wie Kreativität, Selbstbewusstsein, Kommunikation und Problemlösung, brechen mentale Hindernisse und vermitteln eine Wachstumsdichtung.

Herausforderungen und Innovationen

Während die Verwendung von TAPs Chatbot weiter wächst, steht das Projekt vor Herausforderungen und sucht innovative Lösungen:

Kurserstellung: Nutzung von KI, um Inhalte für verschiedene Wahlfächer wie Codierung und visuelle Künste zu generieren, um die Einschränkungen bei der Erstellung von Massenvideos aufgrund manueller Zeitbeschränkungen zu überwinden.
Personalisiertes Lernen: Verwenden von KI, um personalisierte Codierungs -Tutorials oder Kunstprojektleitfäden zu erstellen, die auf individuelle Lernstile und Fähigkeiten zugeschnitten sind. Advanced ML/Open AI -Analyse passt den Inhalt an, basierend auf dem Fortschritt eines Lernenden und gewährleistet eine maßgeschneiderte Lernerfahrung.
Inhaltserstellung: Verwenden von KI, um Code -Snippets, Vorlagen oder Designideen für Kunstprojekte zu generieren, die Schüler auf ihren Fähigkeiten zu führen und Explorationsoptionen vorzuschlagen.
Künstlerische Erkundung: Empfehlen Sie Techniken und Stile, die auf dem Fähigkeitsniveau eines Kindes basieren und künstlerischen Horizonten erweitern, indem sie ihre Arbeit mit berühmten Künstlern oder Kunstbewegungen vergleichen.
Kreative Codierung: Verwenden von KI, um Ideen zu erfassen und inspirieren innovative und künstlerische Codierungsprojekte inspirieren.

Ansatz und Lösung

Mein Ansatz zur Bewältigung der Herausforderungen, denen sich TAP gegenübersieht, besteht darin, hochmoderne Technologien, einschließlich der Verarbeitung natürlicher Sprache (NLP), künstlicher Intelligenz (KI) und maschinelles Lernen (ML), zur Entwicklung eines Autotalkers-einem Bestandteil des TAP, der darauf abzielt, die Bildungserfahrung für die Schüler zu verbessern.

Autotalker verwendet fortschrittliche KI-Modelle und Bibliotheken, wie Suno Bark TTS für Text-to-Speech-Konvertierung, das generative AI Python SDK (Gemini Pro) von Google für die Textgenerierung und Sadtalker für Lip-synchronisierte Audio mit Gesichtsbewegungen in Videos. Durch die Integration dieser Technologien ermöglicht Autotalker die Erstellung von ansprechenden und informativen Videoinhalten aus Texteingabeaufforderungen und Bildern.

Darüber hinaus enthält das Projekt Funktionen wie personalisiertes Lernen, Unterstützung bei der Erstellung von Inhalten und die Sprachunterstützung, um sich auf verschiedene Lernbedürfnisse und -präferenzen zu kümmern. Durch die Nutzung der Macht der KI ermöglicht Autotalker Pädagogen und Studenten gleichermaßen, auf hochwertige Bildungsinhalte zuzugreifen, die auf ihre individuellen Anforderungen zugeschnitten sind, und fördert dadurch die Entwicklung wesentlicher Fähigkeiten des 21. Jahrhunderts.

Durch diese innovative Lösung zielt TAP darauf ab, die Bildungslandschaft zu revolutionieren, die Lücke beim Zugang zu qualitativ hochwertigen Lernressourcen zu schließen und Schüler aus unterversorgten Gemeinschaften zu befähigen, ihr volles Potenzial im digitalen Zeitalter auszuschöpfen.

Inhaltsverzeichnis

Um
Merkmale
Erste Schritte
- Voraussetzungen
- Installation
Verwendung
Beitragen
Lizenz
Anerkennung

Um

Das Projekt konzentriert sich auf die Nutzung von Technologien, um neue Kurse zu schaffen, bestehende Person zu personalisieren und den Bewertungsprozess zu verbessern, was letztendlich zur Entwicklung von Fähigkeiten des 21. Jahrhunderts bei Studenten beiträgt. Autotalker, eine Komponente von TAP, zeigt die Funktionen von KI bei der Erzeugung von Lippensynchronisierungsvideos aus Texteingabeaufforderungen und -bildern und verbessert die allgemeine Bildungserfahrung für Schüler.

Es wird mehrere Bibliotheken verwendet, darunter:

Suno Bark TTS: Eine Konvertierungsbibliothek von Text-to-Speech-Konvertierung, die zum Generieren von Audio aus Textaufforderungen verwendet wird.
PYDUB: Eine Audio -Manipulationsbibliothek zur Behandlung von Audio -Dateien und -formaten.
Google.GenerativeAI (Gemini Pro): Gymnative AI Python SDK wird für die Textgenerierung verwendet.
Sadtalker: Ein Lippensynchronisationsmodell, das zur Synchronisierung von Audio mit Gesichtsbewegungen in Videos verwendet wird.
OpenAI Whisper: Eine Bibliothek für Rede-to-Text-Konvertierung, die die Anpassung von Sprachmerkmalen ermöglicht.
Spotify Pedalboard: Eine Bibliothek für Audioverbesserung zur Verbesserung der Qualität und der Auswirkungen von Audiodateien.
Moviepy: Eine Videobearbeitungsbibliothek, die die Videoverarbeitung und Bearbeitung von Aufgaben erleichtert.
Pytorch: Ein Deep -Learning -Framework für verschiedene maschinelle Lernaufgaben, einschließlich der Funktionalität von Sadtalker.
FFMPEG: Ein Multimedia -Framework, das zum Umgang mit Multimedia -Daten wie Audio- und Videodateien verwendet wird.
Umarmende Gesichtstransformatoren: Eine Bibliothek, die vorgebrachte Modelle und verschiedene Dienstprogramme für Aufgaben für natürliche Sprachverarbeitung anbietet.
BetterTransformer: Ein produktionsbereiter schneller Weg zur Beschleunigung der Bereitstellung von Transformatormodellen mit hoher Leistung bei CPU und GPU. Die Fast -Pfad -Funktion funktioniert transparent für Modelle, die entweder direkt auf Pytorch Core NN basieren.
Numpy: Eine leistungsstarke numerische Berechnungsbibliothek zur Behandlung großer, mehrdimensionaler Arrays und Matrizen.
Gradio: Eine benutzerfreundliche Bibliothek zum Erstellen anpassbarer UI-Komponenten rund um maschinelles Lernmodelle, wodurch eine einfache Bereitstellung und Interaktion mit Modellen über Web-Schnittstellen ermöglicht wird.

Merkmale

Text-to-Rede-Konvertierung: Verwenden Sie Suno Bark TTs, um Textanforderungen in Audio-Dateien (WAV-Format) umzuwandeln.
Audio -Manipulation: verwendet Pydub für Audio -Manipulationsaufgaben, verbessert die Audioqualität und die Anwendung der gewünschten Effekte.
Generatives KI -Text: Nutzt Googles generatives AI Python SDK (Gemini Pro) für die Textgenerierung und liefert verschiedene und kontextbezogene Aufforderungen.
Lippensynchronisierung: Integriert Sadtalker, ein Lippensynchronisationsmodell, um generierte Audio mit Gesichtsbewegungen in Videos zu synchronisieren.
Rede-to-Text-Konvertierung: Integriert OpenAI Whisper für Sprach-Text-Konvertierung und ermöglicht die Anpassung von Sprachmerkmalen.
Audioverbesserung: Verwendet Spotify Pedalboard, um Effekte auf Audiodateien zu verbessern und anzuwenden und die allgemeine Audioqualität zu verbessern.
Videobearbeitung: Implementiert Moviepy, eine Videobearbeitungsbibliothek, für Videoverarbeitung und Bearbeitung von Aufgaben, einschließlich der Erstellung der endgültigen Lippen-synchronisierten Videos.
Deep Learning Framework: Nutzt Pytorch für seine Deep -Lern -Fähigkeiten, die für die Ausführung von Sadtalker -Funktionalität unerlässlich sind.
Multimedia -Handhabung: Verwendet FFMPEG, ein Multimedia -Framework, zum Umgang mit Multimedia -Daten wie Audio- und Videodateien während der Verarbeitung.
Verarbeitung natürlicher Sprache: Integriert umarme Gesichtstransformatoren und bietet vorgebrachte Modelle und Dienstprogramme für Aufgaben der natürlichen Sprachverarbeitung.
Schneller Pfad für Transformatormodelle: Integriert BetterTransformer, einen produktionsbereiten schnellen Pfad für die beschleunigte Bereitstellung von Transformatormodellen sowohl für CPU als auch für GPU.
Numerische Berechnung: Stütze sich auf Numpy für leistungsstarke numerische Berechnungen, insbesondere für die Behandlung großer, mehrdimensionaler Arrays und Matrizen.
Benutzerfreundliche UI-Komponenten: Integriert Gradio, eine benutzerfreundliche Bibliothek, so, dass anpassbare UI-Komponenten rund um maschinelles Lernmodelle erstellt werden, wodurch die einfache Bereitstellung und Interaktion über Web-Schnittstellen erleichtert wird.
Sprachunterstützung: Unterstützt mehrere Sprachen, einschließlich Englisch, Chinesisch (vereinfacht), Französisch, Deutsch, Hindi, Italienisch, Japanisch, Koreanisch, Politur, Portugiesisch, Russisch, Spanisch und Türkisch.
Untertitelunterstützung: Derzeit nur für die englische Sprache verfügbar.

Diese Funktionen tragen gemeinsam zur Erzeugung von Lippensynchronisierungsvideos von Eingabettextaufforderungen und -bildern bei, wobei verschiedene Sprachen und Untertitel in englischer Sprache unterstützt werden.

Erste Schritte

Voraussetzungen

Python 3.10.6
API -Schlüssel von Google AI.
ffmpeg installiert.
Pytorch installiert. Stellen Sie sicher, dass Ihr System CUDA unterstützt.
Imagemagick installiert. Dies ist für moviepy erforderlich.
Sadtalker installiert.
Hinweis: Stellen Sie sicher, dass Ihre GPU mindestens 4 GB VRAM mit Unterstützung für CUDA hat.

Installation

Installieren Sie Python 3.10.6:
- Laden Sie Python 3.10.6 herunter und installieren Sie sie. Beachten Sie, dass die Versionen 3.11 und 3.12 nicht unterstützt werden.
Installieren Sie FFMPEG:
- Befolgen Sie die entsprechenden Anweisungen für Ihr System.
Installieren Sie Imagemagick:
- Laden und installieren Sie Imagemagick.

Klonen Sie das Autotalker -Repository:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Laden Sie Sadtalker mit Modellen und Gewichten herunter:
```
python download_models.py
```
Führen Sie den obigen Befehl aus und warten Sie, bis er "Downloads abgeschlossen" angezeigt wird. Dadurch wird Sadtalker zusammen mit den erforderlichen Modellen und Gewichten heruntergeladen.
Erstellen Sie eine virtuelle Umgebung:
```
python -m venv venv
```
Aktivieren Sie die virtuelle Umgebung:
- Unter Linux/Mac:
```
 source venv/bin/activate
```
- Unter Windows:
```
. v env S cripts a ctivate
```
Abhängigkeiten installieren:
```
pip install -r requirements.txt
```

Installieren Sie Pytorch mit CUDA:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Jetzt haben Sie die Umgebung für das Projekt erfolgreich eingerichtet, um sicherzustellen, dass Ihre GPU die angegebenen Anforderungen entspricht.

Verwendung

Projektstruktur

Das Projekt hat die folgende Struktur:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Schritte zum Ausführen von Autotalker und zur Öffnung von Gradio Web UI:

Aktivieren Sie die virtuelle Umgebung:
- Aktivieren Sie die früher erstellte virtuelle Umgebung.
Konfigurieren Sie den Gemini Pro -API -Schlüssel:
- Öffnen Sie die main.py -Datei.
- Suchen Sie die Zeile: genai.configure(api_key="add your key here") .
- Ersetzen Sie "add your key here" durch Ihren tatsächlichen Gemini Pro -API -Schlüssel.
Führen Sie das Hauptskript und die Gradio Web UI aus:
- Kopieren Sie den bereitgestellten Gradio -Code ( iface.launch() Teil) aus dem Skript.
Autotalker ausführen und Gradio starten:
- Führen Sie im selben Terminal, in dem Ihre virtuelle Umgebung aktiv ist, das Autotalker -Skript zusammen mit der Gradio Web -Benutzeroberfläche aus.
```
python main.py
```
Zugriff auf Gradio Web UI:
- Nach dem Ausführen des Skripts stellt Gradio einen Link (normalerweise Localhost) an, in dem die Web -Benutzeroberfläche gehostet wird. Öffnen Sie diesen Link in Ihrem Webbrowser.
Erkunden Sie die Schnittstelle:
- Sie haben jetzt Zugriff auf die Gradio Web UI -Schnittstelle.
- Interagieren Sie mit den bereitgestellten Eingangskomponenten wie Textboxen, Optionsschaltflächen, Sliders und Bild -Upload -Optionen.
Senden und warten:
- Klicken Sie auf die Schaltfläche "Startschnittstelle" oder eine ähnliche Schaltfläche, um Ihre Eingabe einzureichen.
- Gradio verarbeitet Ihre Eingabe, generiert die Ausgabe und zeigt die Ergebnisse in der Web -Benutzeroberfläche an.
Überprüfungsausgabe:
- Die Ausgabe kann je nach Konfiguration ein Video mit oder ohne Untertitel sein.
Erforschen Sie Untertitel (falls aktiviert):
- Wenn Sie Untertitelunterstützung aktiviert haben, erkunden Sie die für das Video generierten Untertitel.
Wiederholen und experimentieren:
- Fühlen Sie sich frei, mit unterschiedlichen Eingaben, Eingabeaufforderungen und Parametern zu experimentieren, um verschiedene Ausgänge zu generieren.
Gradio UI schließen:
- Sobald Sie fertig sind, schließen Sie die Gradio Web UI.

Wenn Sie diesen kombinierten Schritten befolgen, können Sie den Autotalker nahtlos ausführen, mit der Gradio Web UI interagieren und die erzeugten Lippen-synchronisierten Videos erleben.

Beitragen

Wir schätzen Ihr Interesse daran, zu unserem Projekt beizutragen! Um eine reibungslose und kollaborative Erfahrung zu gewährleisten, befolgen Sie bitte die folgenden Richtlinien:

Fork das Repository:
- Beginnen Sie mit der Abgabe dieses Repositorys in Ihr GitHub -Konto.

Klonen Sie das Repository:

git clone https://github.com/YourUsername/AutoTalker.git

Erstellen Sie einen Zweig:
- Erstellen Sie für jeden Beitrag einen neuen Zweig mit einem beschreibenden Namen.
```
git checkout -b feature/your-feature-name
```
Änderungen vornehmen:
- Implementieren Sie Ihre Verbesserungen oder Korrekturen. Stellen Sie sicher, dass Ihre Änderungen den Zielen des Projekts entsprechen.
Änderungen begehen:
- Bestimmen Sie Ihre Änderungen mit klaren und prägnanten Feststellungsnachrichten.
```
git commit -m " Add your commit message here "
```
Veränderungen drücken:
- Drücken Sie Ihre Änderungen in Ihr Forked Repository.
```
git push origin feature/your-feature-name
```
Pull -Anfrage erstellen:
- Öffnen Sie eine Pull -Anfrage von Ihrem Gabel -Repository im Hauptrepository.
- Geben Sie detaillierte Informationen zu Ihren Änderungen an und beschreiben Sie den Zweck und die Auswirkungen.
Überprüfung und Zusammenarbeit:
- Beschäftige dich an Diskussionen, reagiere auf Feedback und arbeite mit der Community zusammen, um deinen Beitrag zu verfeinern.
Squash Commits (falls erforderlich):
- Wenn Ihre Pull-Anfrage mehrere Commits enthält, sollten Sie sie in ein einzelnes, gut strukturiertes Commit einstellen.
Verschmelzen:
- Sobald Ihre Pull -Anfrage genehmigt wurde, wird sie in das Hauptrepository zusammengefasst.
Bereiche, die Hilfe benötigen: Menschenähnliche TTS-Implementierung

Wenn Sie einen erheblichen Einfluss haben möchten, sollten Sie einen Beitrag zur Umsetzung von menschlichem Text-zu-Sprach (TTS) für eine Vielzahl von Sprachen, einschließlich indischer regionaler Sprachen, beiwirken. Konzentrieren Sie sich auf die Verbesserung der TTS -Funktionen für männliche und weibliche Stimmen.

Unterstützte Sprachen für menschliche TTS-Implementierung:

Arabisch (AR)
Bengali (Bn)
Bulgarisch (BG)
Kroatisch (HR)
Tschechisch (CS)
Dänisch (da)
Niederländisch (NL)
Estnisch (ET)
Finnisch (FI)
Griechisch (El)
Hebräisch (iw)
Ungarisch (Hu)
Indonesisch (ID)
Lettisch (LV)
Litauisch (LT)
Norwegisch (nein)
Rumänisch (RO)
Serbisch (SR)
Slowakische (SK)
Slowenisch (SL)
Swahili (SW)

Zusätzlicher Fokus auf indische regionale Sprachen:

Angesichts der vielfältigen sprachlichen Landschaft in Indien werden Beiträge zur Unterstützung indischer regionaler Sprachen in TTS hoch geschätzt. Diese Sprachen können umfassen, sind jedoch nicht beschränkt auf:

Hindi
Tamil
Telugu
Kannada
Malayalam
Punjabi
Gujarati
Marathi
Bengali
Odia
Assamesen
Urdu

Ihre Bemühungen zur Implementierung von TTs für diese Sprachen werden erheblich dazu beitragen, Bildungsinhalte für ein breiteres Publikum zugänglich zu machen, insbesondere in Regionen mit unterschiedlichem sprachlichen Hintergrund.

Vielen Dank, dass Sie diese wichtigen Beiträge zur menschlichen TTS-Implementierung in Betracht gezogen haben! Ihre Arbeit spielt eine wichtige Rolle bei der Inklusiv- und Zugriff auf Bildungsinhalte und zugänglich für Lernende aus verschiedenen sprachlichen Hintergründen. ?

Lizenz

Dieses Projekt ist unter der MIT -Lizenz lizenziert.

Anerkennung

Dieses Projekt erkennt die folgenden Open-Source-Projekte und deren Mitwirkenden an:

Google AI Python SDK: Mit dem Google AI Python SDK können Entwickler die hochmodernen generativen KI-Modelle von Google (wie Gemini und Palm) verwenden, um AI-betriebene Funktionen und Anwendungen zu erstellen.
Sadtalker: [CVPR 2023] Sadtalker: Lernen realistische 3D-Bewegungskoeffizienten für stilisierte audiogesteuerte Einzelbild-sprechende Gesichtsanimation. Ein Projekt von Openentalker.
Pedalboard: Eine von Spotify entwickelte Python -Bibliothek für die Arbeit mit Audio.
Whisper: Robuste Spracherkennung über eine große schwache Überwachung, ein Open-Source-Projekt von OpenAI.
Transformers durch Umarmung des Gesichts:? Transformatoren: Machteres maschinelles Lernen für Pytorch, Tensorflow und Jax.
Beschleunigen Sie durch Umarmung: Eine einfache Möglichkeit, Pytorch-Modelle mit Multi-GPU, TPU, gemischter Präzision zu trainieren und zu verwenden.
Optimum durch Umarmung des Gesichts: Beschleunigen Sie das Training und die Schlussfolgerung von? Transformatoren und? Diffusoren mit benutzerfreundlichen Hardware-Optimierungstools.
Rinde von Suno Ai:? Textgeprägtes generatives Audiomodell.
Pytorch: Tensoren und dynamische neuronale Netzwerke in Python mit starker GPU -Beschleunigung.

Diese Projekte haben erheblich zur Entwicklung und Funktionalität des Autotalkers beigetragen, und wir danken unseren jeweiligen Entwicklern und Betreuern.

Expandieren

Zusätzliche Informationen