Téléchargement AutoTalker du code source AutoTalker

AutoTalker

Code Source AI

1.0.0

Télécharger

Autotalker?

Vidéo de démonstration de projet

Découvrez la vidéo de démonstration pour voir Autotalker en action!

Whatsapp.video.2024-02-26.at.2.29.16.am.mp4

Exemple

Invite d'entrée

"Expliquez Python et leurs applications en 30 secondes"

Image d'entrée

Vidéo de sortie

output_video.mp4

Description du projet

Le projet d'apprenti (TAP)

Dans le paysage rapide en évolution du 21e siècle, une éducation complète est primordiale pour préparer les étudiants ayant les compétences nécessaires pour prospérer dans la société moderne. Le projet d'apprenti (TAP) se consacre à cultiver ces compétences essentielles du 21e siècle parmi les enfants mal desservis inscrits dans des écoles privées gouvernementales ou à faible revenu.

TAP fonctionne sous l'égide de la Mentorme Foundation, une société enregistrée en vertu de la section 8, et est fièrement soutenu par des institutions estimées telles que Harvard University, IIM Bangalore et la Fondation Nudge. Alors que les partenaires officiels des gouvernements du Maharashtra et de Delhi ont un impact significatif, atteignant plus de 31 000 enfants grâce à son chatbot innovant.

Déclaration de problème

Un nombre stupéfiant d'élèves du collège et du secondaire - plus de 100 millions - des communautés à faible revenu à travers l'Inde manquent de compétences essentielles du 21e siècle, y compris l'apprentissage social et émotionnel (SEL) et la littératie financière. Le système d'enseignement public traditionnel axé sur l'examen exacerbe ce problème, conduisant à la statistique alarmante selon laquelle 1 enfant sur 2 diplômé du système éducatif indien est jugé indisposable en raison de l'absence de ces compétences cruciales.

Statistiques de littératie financière:
- Seuls 16,7% des étudiants adolescents indiens possèdent une littératie financière de base.
- À peine 27% de la population adulte indienne est considérée comme une alphabétisation financière.

Objectifs de développement durable de l'ONU (ODD)

Tap aligne sa mission avec plusieurs ODD de l'ONU:

Objectif 1: Pas de pauvreté
Objectif 2: Zéro faim
Objectif 3: Bonne santé et bien-être
Objectif 4: Éducation de qualité
Objectif 8: Travail décent et croissance économique

Système actuel

Le projet Apprentice (TAP), opérant sous la Fondation Mentorme, autorise les étudiants mal desservains par le biais de Tap Buddy - un chatbot WhatsApp alimenté par l'intelligence artificielle. Tap Buddy propose des cours au choix vidéo, guidant les étudiants à travers des projets indépendants utilisant des coups de pied et du contenu personnalisés (ML appartis par ML) et basés sur les bots. Les vidéos du projet d'auto-apprentissage favorisent des compétences telles que la créativité, la confiance, la conscience de soi, la communication et la résolution de problèmes, la rupture des barrières mentales et l'instille d'un état d'esprit de croissance.

Défis et innovations

Alors que l'utilisation du chatbot de TAP continue de croître, le projet fait face à des défis et recherche des solutions innovantes:

Création de cours: tirant parti de l'IA pour générer du contenu à travers divers choix tels que le codage et les arts visuels, visant à surmonter les limites de la création de vidéos en vrac en raison des contraintes de temps manuelles.
Apprentissage personnalisé: employer une IA pour créer des tutoriels de codage personnalisés ou des guides de projet artistique adaptés aux styles d'apprentissage et aux niveaux de compétence individuels. L'analyse avancée ML / IA ouverte adapte le contenu basé sur les progrès d'un apprenant, assurant une expérience d'apprentissage personnalisée.
Création de contenu: L'utilisation de l'IA pour générer des extraits de code, des modèles ou des idées de conception pour des projets artistiques, guidant les étudiants à leur niveau de compétence et suggérant des options d'exploration.
Exploration artistique: recommander des techniques et des styles basés sur le niveau de compétence d'un enfant, en élargissant les horizons artistiques en comparant leur travail à des artistes célèbres ou à des mouvements artistiques.
Codage créatif: utiliser l'IA pour réfléchir aux idées et vous inspirer pour des projets de codage innovants et artistiques.

Approche et solution

Mon approche pour relever les défis rencontrés par TAP consiste à tirer parti des technologies de pointe, y compris le traitement du langage naturel (PNL), l'intelligence artificielle (IA) et l'apprentissage automatique (ML), pour développer l'autotalker - une composante du TAP visant à améliorer l'expérience éducative pour les étudiants.

Autotalker utilise des modèles et des bibliothèques AI avancées, tels que Suno Bark TTS pour la conversion de texte-vocation, le SDK généatif AI Python de Google (Gemini Pro) pour la génération de texte et Sadtalker pour le syndicat aux lèvres avec des mouvements faciaux dans des vidéos. En intégrant ces technologies, Autotalker permet la création d'un contenu vidéo engageant et informatif à partir d'invites et d'images de texte.

En outre, le projet intègre des fonctionnalités telles que l'apprentissage personnalisé, l'assistance à la création de contenu et le soutien linguistique pour répondre à divers besoins et préférences d'apprentissage. En exploitant le pouvoir de l'IA, Autotalker autorise les éducateurs et les étudiants à accéder à un contenu éducatif de haute qualité adapté à leurs exigences individuelles, favorisant ainsi le développement de compétences essentielles du 21e siècle.

Grâce à cette solution innovante, TAP vise à révolutionner le paysage de l'éducation, à combler l'écart dans l'accès à des ressources d'apprentissage de qualité et à autonomiser les étudiants des communautés mal desservies pour réaliser leur plein potentiel à l'ère numérique.

Table des matières

À propos
Caractéristiques
Commencer
- Condition préalable
- Installation
Usage
Contributif
Licence
Remerciements

À propos

Le projet se concentre sur la mise à profit de la technologie pour créer de nouveaux cours, personnaliser ceux existants et améliorer le processus d'évaluation, contribuant finalement au développement des compétences du 21e siècle chez les étudiants. Autotalker, un composant de TAP, met en valeur les capacités de l'IA dans la génération de vidéos synchronisées à partir des invites et des images de texte, en améliorant l'expérience éducative globale des étudiants.

Il utilise plusieurs bibliothèques, notamment:

SUNO BARK TTS: Une bibliothèque de conversion de texte vocale utilisée pour générer l'audio à partir d'invites de texte.
Pydub: une bibliothèque de manipulation audio pour gérer les fichiers et formats audio.
Google.GeneratiVeai (Gemini Pro): le SDK générateur AI Python de Google utilisé pour la génération de texte.
Sadtalker: un modèle de synchronisation des lèvres utilisé pour synchroniser l'audio avec des mouvements faciaux dans des vidéos.
Openai Whisper: une bibliothèque pour la conversion de la parole en texte, permettant la personnalisation des caractéristiques vocales.
Pédalboard Spotify: une bibliothèque d'amélioration audio pour améliorer la qualité et les effets des fichiers audio.
MoviePy: une bibliothèque d'édition vidéo qui facilite les tâches de traitement vidéo et d'édition.
Pytorch: un cadre d'apprentissage en profondeur utilisé pour diverses tâches d'apprentissage automatique, y compris la fonctionnalité de Sadtalker.
FFMPEG: un cadre multimédia utilisé pour gérer les données multimédias telles que les fichiers audio et vidéo.
Transformers de face étreintes: une bibliothèque qui fournit des modèles pré-formés et divers utilitaires pour les tâches de traitement du langage naturel.
BetterTransformateur: un chemin rapide prêt pour la production pour accélérer le déploiement de modèles de transformateurs à haute performance sur CPU et GPU. La fonction de chemin rapide fonctionne de manière transparente pour les modèles basés directement sur Pytorch Core NN.
Numpy: une bibliothèque de calcul numérique puissante pour gérer de grands tableaux et matrices multidimensionnels.
Gradio: une bibliothèque conviviale pour la création de composants d'interface utilisateur personnalisables autour des modèles d'apprentissage automatique, permettant un déploiement facile et une interaction avec les modèles via des interfaces Web.

Caractéristiques

Conversion de texte vocale: utilise Suno Bark TTS pour convertir les invites de texte en fichiers audio (format WAV).
Manipulation audio: utilise Pydub pour les tâches de manipulation audio, améliorant la qualité de l'audio et appliquant les effets souhaités.
Texte de l'IA génératif: exploite le SDK générateur AI Python de Google (Gemini Pro) pour la génération de texte, fournissant des invites diverses et contextuellement pertinentes.
Synchronisation des lèvres: intègre Sadtalker, un modèle de synchronisation des lèvres, pour synchroniser l'audio généré avec des mouvements faciaux dans des vidéos.
Conversion de la parole à texte: intègre Openai Whisper pour la conversion de la parole à texte, permettant la personnalisation des caractéristiques vocales.
Amélioration de l'audio: utilise le pédalboard Spotify pour améliorer et appliquer des effets aux fichiers audio, améliorant la qualité audio globale.
Édition vidéo: implémente MoviePy, une bibliothèque d'édition vidéo, pour les tâches de traitement vidéo et d'édition, y compris la création de vidéos finales synchronisées.
Frame d'apprentissage en profondeur: tire parti de Pytorch pour ses capacités d'apprentissage en profondeur, essentiels pour exécuter la fonctionnalité de Sadtalker.
Manipulation multimédia: utilise FFMPEG, un cadre multimédia, pour gérer les données multimédias telles que les fichiers audio et vidéo pendant le traitement.
Traitement du langage naturel: intègre des transformateurs à face étreintes, offrant des modèles pré-formés et des services publics pour les tâches de traitement du langage naturel.
Chemin rapide pour les modèles de transformateurs: incorpore BetterTransforrer, un chemin rapide prêt pour la production pour le déploiement accéléré de modèles de transformateurs sur CPU et GPU.
Calcul numérique: s'appuie sur Numpy pour un calcul numérique puissant, en particulier pour gérer de grands tableaux et matrices multidimensionnels.
Composants d'interface utilisateur conviviaux: intègre Gradio, une bibliothèque conviviale, pour créer des composants d'interface utilisateur personnalisables autour des modèles d'apprentissage automatique, facilitant le déploiement et l'interaction faciles via des interfaces Web.
Support linguistique: prend en charge plusieurs langues, y compris l'anglais, le chinois (simplifié), le français, l'allemand, l'hindi, l'italien, le japonais, le coréen, le polonais, le portugais, le russe, l'espagnol et le turc.
Support des sous-titres: actuellement disponible uniquement pour la langue anglaise.

Ces fonctionnalités contribuent collectivement à la génération de vidéos synchronisées à partir des invites et d'images de texte d'entrée, avec la prise en charge de diverses langues et sous-titres en anglais.

Commencer

Condition préalable

Python 3.10.6
Clé API de Google AI.
ffmpeg installé.
Pytorch installé. Assurez-vous que votre système prend en charge CUDA.
ImageMagick installé. Ceci est requis pour MoviePy.
Sadtalker installé.
Remarque: Assurez-vous que votre GPU a un minimum de 4 Go de VRAM avec le soutien de CUDA.

Installation

Installez Python 3.10.6:
- Téléchargez et installez Python 3.10.6. Notez que les versions 3.11 et 3.12 ne sont pas prises en charge.
Installer FFMPEG:
- Suivez les instructions appropriées pour votre système.
Installez ImageMagick:
- Téléchargez et installez ImageMagick.

Clone Le référentiel Autotalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Téléchargez Sadtalker avec des modèles et des poids:
```
python download_models.py
```
Exécutez la commande ci-dessus et attendez qu'il affiche "les téléchargements terminés". Cela téléchargera Sadtalker avec les modèles et les poids requis.
Créer un environnement virtuel:
```
python -m venv venv
```
Activez l'environnement virtuel:
- Sur Linux / Mac:
```
 source venv/bin/activate
```
- Sur Windows:
```
. v env S cripts a ctivate
```
Installez les dépendances:
```
pip install -r requirements.txt
```

Installez Pytorch avec Cuda:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Maintenant, vous avez réussi à configurer l'environnement du projet, en vous assurant que votre GPU répond aux exigences spécifiées.

Usage

Structure du projet

Le projet a la structure suivante:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Étapes pour exécuter Autotalker et ouvrir une interface utilisateur Web:

Activer l'environnement virtuel:
- Activez l'environnement virtuel créé plus tôt.
Configurer la clé de l'API Gemini Pro:
- Ouvrez le fichier main.py
- Localisez la ligne: genai.configure(api_key="add your key here") .
- Remplacez "add your key here" par votre clé API Gemini Pro réelle.
Exécutez l'interface utilisateur du script principal et de la gamme:
- Copiez le code Gradio fourni ( iface.launch() ) du script.
Exécutez Autotalker et lancez Gradio:
- Dans le même terminal où votre environnement virtuel est actif, exécutez le script Autotalker avec l'interface utilisateur Web Gradio.
```
python main.py
```
Access Gradio Web UI:
- Après avoir exécuté le script, Gradio fournira un lien (généralement localhost) où l'interface utilisateur Web est hébergée. Ouvrez ce lien dans votre navigateur Web.
Explorez l'interface:
- Vous aurez désormais accès à l'interface de l'interface utilisateur Web Gradio.
- Interagissez avec les composants d'entrée fournis tels que les zones de texte, les boutons radio, les curseurs et les options de téléchargement d'images.
Soumettre et attendre:
- Cliquez sur le bouton "Lancement de l'interface" ou similaire pour soumettre votre entrée.
- Gradio traitera votre entrée, générera la sortie et affichera les résultats dans l'interface utilisateur Web.
Examiner la sortie:
- La sortie peut être une vidéo avec ou sans sous-titres, selon votre configuration.
Explorez les sous-titres (si activé):
- Si vous avez activé la prise en charge des sous-titres, explorez les sous-titres générés pour la vidéo.
Répéter et expérimenter:
- N'hésitez pas à expérimenter différentes entrées, invites et paramètres pour générer diverses sorties.
Fermer UI Gradio:
- Une fois que vous avez terminé, fermez l'interface utilisateur de Gradio.

En suivant ces étapes combinées, vous pouvez exécuter de manière transparente Autotalker, interagir avec l'interface utilisateur Web Gradio et découvrir les vidéos générées par les lèvres.

Contributif

Nous apprécions votre intérêt à contribuer à notre projet! Pour assurer une expérience en douceur et collaborative, veuillez suivre ces directives:

Fourchez le référentiel:
- Commencez par fournir ce référentiel sur votre compte GitHub.

Clone le référentiel:

git clone https://github.com/YourUsername/AutoTalker.git

Créer une branche:
- Pour chaque contribution, créez une nouvelle branche avec un nom descriptif.
```
git checkout -b feature/your-feature-name
```
Apporter des modifications:
- Implémentez vos améliorations ou correctifs. Assurez-vous que vos modifications s'alignent sur les objectifs du projet.
Commettre des changements:
- Engagez vos modifications avec des messages de validation clairs et concis.
```
git commit -m " Add your commit message here "
```
Poussez les changements:
- Poussez vos modifications à votre référentiel à fourche.
```
git push origin feature/your-feature-name
```
Créer une demande de traction:
- Ouvrez une demande de traction de votre référentiel à fourche vers le référentiel principal.
- Fournissez des informations détaillées sur vos modifications, décrivant l'objectif et l'impact.
Examiner et collaborer:
- Engagez des discussions, répondez aux commentaires et collaborez avec la communauté pour affiner votre contribution.
Squash Commits (si nécessaire):
- Si votre demande de traction contient plusieurs engins, envisagez de les écraser en un seul engagement bien structuré.
Fusionner:
- Une fois votre demande de traction approuvée, elle sera fusionnée dans le référentiel principal.
Zones ayant besoin d'aide: la mise en œuvre de TTS de type humain

Si vous êtes intéressé à avoir un impact significatif, envisagez de contribuer à la mise en œuvre d'un texte à dispection de type humain (TTS) pour un ensemble diversifié de langues, y compris des langues régionales indiennes. Concentrez-vous sur l'amélioration des capacités TTS pour les voix masculines et féminines.

Langues prises en charge pour la mise en œuvre de TTS de type humain:

Arabe (AR)
Bengali (BN)
Bulgare (BG)
Croate (HR)
Tchèque (CS)
Danois (DA)
Néerlandais (NL)
Estonien (ET)
Finlandais (fi)
Grec (EL)
Hébreu (IW)
Hongrois (HU)
Indonésien (ID)
Letton (LV)
Lituanien (LT)
Norvégien (non)
Roumain (RO)
Serbe (SR)
Slovaque (SK)
Slovène (SL)
Swahili (SW)

Focus supplémentaire sur les langues régionales indiennes:

Compte tenu du paysage linguistique diversifié en Inde, les contributions à soutenir les langues régionales indiennes dans les TT sont très appréciées. Ces langues peuvent inclure, sans s'y limiter:

hindi
Tamoul
Telugu
Kannada
Malayalam
Punjabi
Gujarati
Marathi
bengali
Odia
Assamais
Ourdou

Vos efforts dans la mise en œuvre de TTS pour ces langues contribueront considérablement à rendre le contenu éducatif accessible à un public plus large, en particulier dans des régions avec des horizons linguistiques divers.

Merci d'avoir examiné ces contributions importantes à la mise en œuvre de TTS de type humain! Votre travail jouera un rôle essentiel pour rendre le contenu éducatif inclusif et accessible aux apprenants de divers horizons linguistiques. ?

Licence

Ce projet est autorisé sous la licence du MIT.

Remerciements

Ce projet reconnaît les projets open source suivants et leurs contributeurs:

Google AI Python SDK: le SDK Google AI Python permet aux développeurs d'utiliser des modèles d'IA génératifs de pointe de Google (comme Gemini et Palm) pour créer des fonctionnalités et des applications alimentées par l'IA.
SADTALKER: [CVPR 2023] Sadtalker: Apprendre des coefficients de mouvement 3D réalistes pour l'animation de visage parlant à image unique audio stylisée. Un projet d'Opentalker.
Pedalboard: une bibliothèque Python pour travailler avec l'audio, développée par Spotify.
Whisper: Robust Recognition vocale via une faible supervision à grande échelle, un projet open source d'Openai.
Transformers en étreignant le visage : ? Transformers: Apprentissage automatique de pointe pour Pytorch, TensorFlow et Jax.
Accélérer en étreignant le visage: un moyen simple de s'entraîner et d'utiliser des modèles Pytorch avec multi-GPU, TPU, précision mixte.
Optimum en étreignant le visage: accélérer la formation et l'inférence? Transformers et? Diffuseurs avec des outils d'optimisation matérielle faciles à utiliser.
Écorce par Suno Ai : ? Modèle audio génératif proposé par texte.
Pytorch: tenseurs et réseaux de neurones dynamiques en python avec une forte accélération du GPU.

Ces projets ont considérablement contribué au développement et aux fonctionnalités de Autotalker, et nous étendons notre gratitude à leurs développeurs et maintenseurs respectifs.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-24
taille 438.64KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout