Découvrez la vidéo de démonstration pour voir Autotalker en action!
Invite d'entrée
"Expliquez Python et leurs applications en 30 secondes"
Image d'entrée

Vidéo de sortie
Dans le paysage rapide en évolution du 21e siècle, une éducation complète est primordiale pour préparer les étudiants ayant les compétences nécessaires pour prospérer dans la société moderne. Le projet d'apprenti (TAP) se consacre à cultiver ces compétences essentielles du 21e siècle parmi les enfants mal desservis inscrits dans des écoles privées gouvernementales ou à faible revenu.
TAP fonctionne sous l'égide de la Mentorme Foundation, une société enregistrée en vertu de la section 8, et est fièrement soutenu par des institutions estimées telles que Harvard University, IIM Bangalore et la Fondation Nudge. Alors que les partenaires officiels des gouvernements du Maharashtra et de Delhi ont un impact significatif, atteignant plus de 31 000 enfants grâce à son chatbot innovant.
Un nombre stupéfiant d'élèves du collège et du secondaire - plus de 100 millions - des communautés à faible revenu à travers l'Inde manquent de compétences essentielles du 21e siècle, y compris l'apprentissage social et émotionnel (SEL) et la littératie financière. Le système d'enseignement public traditionnel axé sur l'examen exacerbe ce problème, conduisant à la statistique alarmante selon laquelle 1 enfant sur 2 diplômé du système éducatif indien est jugé indisposable en raison de l'absence de ces compétences cruciales.
Tap aligne sa mission avec plusieurs ODD de l'ONU:
Le projet Apprentice (TAP), opérant sous la Fondation Mentorme, autorise les étudiants mal desservains par le biais de Tap Buddy - un chatbot WhatsApp alimenté par l'intelligence artificielle. Tap Buddy propose des cours au choix vidéo, guidant les étudiants à travers des projets indépendants utilisant des coups de pied et du contenu personnalisés (ML appartis par ML) et basés sur les bots. Les vidéos du projet d'auto-apprentissage favorisent des compétences telles que la créativité, la confiance, la conscience de soi, la communication et la résolution de problèmes, la rupture des barrières mentales et l'instille d'un état d'esprit de croissance.
Alors que l'utilisation du chatbot de TAP continue de croître, le projet fait face à des défis et recherche des solutions innovantes:
Création de cours: tirant parti de l'IA pour générer du contenu à travers divers choix tels que le codage et les arts visuels, visant à surmonter les limites de la création de vidéos en vrac en raison des contraintes de temps manuelles.
Apprentissage personnalisé: employer une IA pour créer des tutoriels de codage personnalisés ou des guides de projet artistique adaptés aux styles d'apprentissage et aux niveaux de compétence individuels. L'analyse avancée ML / IA ouverte adapte le contenu basé sur les progrès d'un apprenant, assurant une expérience d'apprentissage personnalisée.
Création de contenu: L'utilisation de l'IA pour générer des extraits de code, des modèles ou des idées de conception pour des projets artistiques, guidant les étudiants à leur niveau de compétence et suggérant des options d'exploration.
Exploration artistique: recommander des techniques et des styles basés sur le niveau de compétence d'un enfant, en élargissant les horizons artistiques en comparant leur travail à des artistes célèbres ou à des mouvements artistiques.
Codage créatif: utiliser l'IA pour réfléchir aux idées et vous inspirer pour des projets de codage innovants et artistiques.
Mon approche pour relever les défis rencontrés par TAP consiste à tirer parti des technologies de pointe, y compris le traitement du langage naturel (PNL), l'intelligence artificielle (IA) et l'apprentissage automatique (ML), pour développer l'autotalker - une composante du TAP visant à améliorer l'expérience éducative pour les étudiants.
Autotalker utilise des modèles et des bibliothèques AI avancées, tels que Suno Bark TTS pour la conversion de texte-vocation, le SDK généatif AI Python de Google (Gemini Pro) pour la génération de texte et Sadtalker pour le syndicat aux lèvres avec des mouvements faciaux dans des vidéos. En intégrant ces technologies, Autotalker permet la création d'un contenu vidéo engageant et informatif à partir d'invites et d'images de texte.
En outre, le projet intègre des fonctionnalités telles que l'apprentissage personnalisé, l'assistance à la création de contenu et le soutien linguistique pour répondre à divers besoins et préférences d'apprentissage. En exploitant le pouvoir de l'IA, Autotalker autorise les éducateurs et les étudiants à accéder à un contenu éducatif de haute qualité adapté à leurs exigences individuelles, favorisant ainsi le développement de compétences essentielles du 21e siècle.
Grâce à cette solution innovante, TAP vise à révolutionner le paysage de l'éducation, à combler l'écart dans l'accès à des ressources d'apprentissage de qualité et à autonomiser les étudiants des communautés mal desservies pour réaliser leur plein potentiel à l'ère numérique.
Le projet se concentre sur la mise à profit de la technologie pour créer de nouveaux cours, personnaliser ceux existants et améliorer le processus d'évaluation, contribuant finalement au développement des compétences du 21e siècle chez les étudiants. Autotalker, un composant de TAP, met en valeur les capacités de l'IA dans la génération de vidéos synchronisées à partir des invites et des images de texte, en améliorant l'expérience éducative globale des étudiants.
Il utilise plusieurs bibliothèques, notamment:
Ces fonctionnalités contribuent collectivement à la génération de vidéos synchronisées à partir des invites et d'images de texte d'entrée, avec la prise en charge de diverses langues et sous-titres en anglais.
Python 3.10.6
Clé API de Google AI.
ffmpeg installé.
Pytorch installé. Assurez-vous que votre système prend en charge CUDA.
ImageMagick installé. Ceci est requis pour MoviePy.
Sadtalker installé.
Remarque: Assurez-vous que votre GPU a un minimum de 4 Go de VRAM avec le soutien de CUDA.
Installez Python 3.10.6:
Installer FFMPEG:
Installez ImageMagick:
Clone Le référentiel Autotalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerTéléchargez Sadtalker avec des modèles et des poids:
python download_models.pyExécutez la commande ci-dessus et attendez qu'il affiche "les téléchargements terminés". Cela téléchargera Sadtalker avec les modèles et les poids requis.
Créer un environnement virtuel:
python -m venv venvActivez l'environnement virtuel:
source venv/bin/activate. v env S cripts a ctivateInstallez les dépendances:
pip install -r requirements.txtInstallez Pytorch avec Cuda:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Maintenant, vous avez réussi à configurer l'environnement du projet, en vous assurant que votre GPU répond aux exigences spécifiées.
Le projet a la structure suivante:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Activer l'environnement virtuel:
Configurer la clé de l'API Gemini Pro:
main.pygenai.configure(api_key="add your key here") ."add your key here" par votre clé API Gemini Pro réelle.Exécutez l'interface utilisateur du script principal et de la gamme:
iface.launch() ) du script.Exécutez Autotalker et lancez Gradio:
python main.pyAccess Gradio Web UI:
Explorez l'interface:
Soumettre et attendre:
Examiner la sortie:
Explorez les sous-titres (si activé):
Répéter et expérimenter:
Fermer UI Gradio:
En suivant ces étapes combinées, vous pouvez exécuter de manière transparente Autotalker, interagir avec l'interface utilisateur Web Gradio et découvrir les vidéos générées par les lèvres.
Nous apprécions votre intérêt à contribuer à notre projet! Pour assurer une expérience en douceur et collaborative, veuillez suivre ces directives:
Fourchez le référentiel:
Clone le référentiel:
git clone https://github.com/YourUsername/AutoTalker.gitCréer une branche:
git checkout -b feature/your-feature-nameApporter des modifications:
Commettre des changements:
git commit -m " Add your commit message here "Poussez les changements:
git push origin feature/your-feature-nameCréer une demande de traction:
Examiner et collaborer:
Squash Commits (si nécessaire):
Fusionner:
Zones ayant besoin d'aide: la mise en œuvre de TTS de type humain
Si vous êtes intéressé à avoir un impact significatif, envisagez de contribuer à la mise en œuvre d'un texte à dispection de type humain (TTS) pour un ensemble diversifié de langues, y compris des langues régionales indiennes. Concentrez-vous sur l'amélioration des capacités TTS pour les voix masculines et féminines.
Compte tenu du paysage linguistique diversifié en Inde, les contributions à soutenir les langues régionales indiennes dans les TT sont très appréciées. Ces langues peuvent inclure, sans s'y limiter:
Vos efforts dans la mise en œuvre de TTS pour ces langues contribueront considérablement à rendre le contenu éducatif accessible à un public plus large, en particulier dans des régions avec des horizons linguistiques divers.
Merci d'avoir examiné ces contributions importantes à la mise en œuvre de TTS de type humain! Votre travail jouera un rôle essentiel pour rendre le contenu éducatif inclusif et accessible aux apprenants de divers horizons linguistiques. ?
Ce projet est autorisé sous la licence du MIT.
Ce projet reconnaît les projets open source suivants et leurs contributeurs:
Google AI Python SDK: le SDK Google AI Python permet aux développeurs d'utiliser des modèles d'IA génératifs de pointe de Google (comme Gemini et Palm) pour créer des fonctionnalités et des applications alimentées par l'IA.
SADTALKER: [CVPR 2023] Sadtalker: Apprendre des coefficients de mouvement 3D réalistes pour l'animation de visage parlant à image unique audio stylisée. Un projet d'Opentalker.
Pedalboard: une bibliothèque Python pour travailler avec l'audio, développée par Spotify.
Whisper: Robust Recognition vocale via une faible supervision à grande échelle, un projet open source d'Openai.
Transformers en étreignant le visage : ? Transformers: Apprentissage automatique de pointe pour Pytorch, TensorFlow et Jax.
Accélérer en étreignant le visage: un moyen simple de s'entraîner et d'utiliser des modèles Pytorch avec multi-GPU, TPU, précision mixte.
Optimum en étreignant le visage: accélérer la formation et l'inférence? Transformers et? Diffuseurs avec des outils d'optimisation matérielle faciles à utiliser.
Écorce par Suno Ai : ? Modèle audio génératif proposé par texte.
Pytorch: tenseurs et réseaux de neurones dynamiques en python avec une forte accélération du GPU.
Ces projets ont considérablement contribué au développement et aux fonctionnalités de Autotalker, et nous étendons notre gratitude à leurs développeurs et maintenseurs respectifs.