¡Mira el video de demostración para ver Autotalker en acción!
Información de entrada
"Explique a Python y sus aplicaciones en 30 segundos"
Imagen de entrada

Video de salida
En el paisaje en rápida evolución del siglo XXI, una educación integral es primordial para preparar a los estudiantes con las habilidades necesarias para prosperar en la sociedad moderna. El Proyecto de Aprendiz (TAP) se dedica a cultivar estas habilidades esenciales del siglo XXI entre los niños desatendidos inscritos en el gobierno o las escuelas privadas de bajos ingresos.
TAP opera bajo el paraguas de la Fundación Mentorme, una empresa registrada de la Sección 8, y recibe orgullo el apoyo de instituciones estimadas como la Universidad de Harvard, IIM Bangalore y la Fundación Nudge. Como oficial se asocia con los gobiernos de Maharashtra y Delhi, TAP tiene un impacto significativo, alcanzando a más de 31,000 niños a través de su innovador chatbot.
Un número asombroso de estudiantes de secundaria y secundaria, más de 100 millones, desde comunidades de bajos ingresos en toda la India carecen de habilidades críticas del siglo XXI, incluido el aprendizaje social y emocional (SEL) y la educación financiera. El tradicional sistema de educación pública centrada en el examen exacerba este problema, lo que lleva a la estadística alarmante de que 1 de cada 2 niños que se gradúan del sistema educativo indio se considera desempleado debido a la ausencia de estas habilidades cruciales.
Tap alinea su misión con varios ODS de la ONU:
El Proyecto de Aprendiz (TAP), que opera bajo la Fundación Mentorme, empodera a los estudiantes desatendidos a través de TAP Buddy, un chatbot de WhatsApp de inteligencia artificial. Tap Buddy ofrece asignaturas optativas basadas en video, guiando a los estudiantes a través de proyectos independientes utilizando empujones y contenido personalizados (Learned) y AI Bot. Los videos de proyectos de autoaprendizaje fomentan habilidades como creatividad, confianza, autoconciencia, comunicación y resolución de problemas, rompiendo barreras mentales e inculcar una mentalidad de crecimiento.
A medida que el uso del chatbot de Tap continúa creciendo, el proyecto enfrenta desafíos y busca soluciones innovadoras:
Creación del curso: aprovechar la IA para generar contenido en varias asignaturas optativas, como la codificación y las artes visuales, con el objetivo de superar las limitaciones en la creación de video a granel debido a las limitaciones de tiempo manual.
Aprendizaje personalizado: emplear la IA para crear tutoriales de codificación personalizados o guías de proyectos de arte adaptados a estilos de aprendizaje individuales y niveles de habilidades. El análisis avanzado de ML/AI Open adapta el contenido basado en el progreso de un alumno, asegurando una experiencia de aprendizaje personalizada.
Creación de contenido: utilizando IA para generar fragmentos de código, plantillas o ideas de diseño para proyectos de arte, guiar a los estudiantes en sus niveles de habilidad y sugerir opciones de exploración.
Exploración artística: recomendando técnicas y estilos basados en el nivel de habilidad de un niño, ampliando horizontes artísticos comparando su trabajo con artistas famosos o movimientos artísticos.
Codificación creativa: el uso de IA para hacer una lluvia de ideas y proporcionar inspiración para proyectos de codificación innovadores y artísticos.
Mi enfoque para abordar los desafíos que enfrentan TAP implica aprovechar las tecnologías de vanguardia, incluido el procesamiento del lenguaje natural (PNL), la inteligencia artificial (IA) y el aprendizaje automático (ML), para desarrollar Autotalker, un componente de TAP dirigido a mejorar la experiencia educativa para los estudiantes.
AutoTalker utiliza modelos y bibliotecas de IA avanzados, como Suno Bark TTS para la conversión de texto a voz, el SDK generativo de AI Python de Google (Gemini Pro) para la generación de texto y Sadtalker para el audio de sincronización de labios con movimientos faciales en videos. Al integrar estas tecnologías, AutoTalker permite la creación de contenido de video atractivo e informativo a partir de indicaciones e imágenes de texto.
Además, el proyecto incorpora características como aprendizaje personalizado, asistencia de creación de contenido y apoyo lingüístico para satisfacer diversas necesidades y preferencias de aprendizaje. Al aprovechar el poder de la IA, Autotalker permite a los educadores y estudiantes por igual para acceder a contenido educativo de alta calidad adaptado a sus requisitos individuales, fomentando así el desarrollo de habilidades esenciales del siglo XXI.
A través de esta solución innovadora, TAP tiene como objetivo revolucionar el panorama educativo, cerrando la brecha en el acceso a los recursos de aprendizaje de calidad y capacitar a los estudiantes de las comunidades desatendidas para realizar todo su potencial en la era digital.
El proyecto se centra en aprovechar la tecnología para crear nuevos cursos, personalizar los existentes y mejorar el proceso de evaluación, contribuyendo en última instancia al desarrollo de habilidades del siglo XXI en los estudiantes. AutoTalker, un componente de TAP, muestra las capacidades de la IA en la generación de videos sincronizados con labios a partir de indicaciones e imágenes de texto, mejorando la experiencia educativa general para los estudiantes.
Utiliza varias bibliotecas, incluidas:
Estas características contribuyen colectivamente a la generación de videos sincronizados con labios a partir de indicaciones e imágenes de texto de entrada, con soporte para varios idiomas y subtítulos en inglés.
Python 3.10.6
Clave API de Google AI.
FFMPEG instalado.
Pytorch instalado. Asegúrese de que su sistema admita CUDA.
ImageMagick instalado. Esto se requiere para Picmentpy.
Sadtalker instalado.
Nota: Asegúrese de que su GPU tenga un mínimo de 4 GB de VRAM con soporte para CUDA.
Instale Python 3.10.6:
Instalar ffmpeg:
Instalar ImageMagick:
Clone El repositorio de AutoTalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerDescargue Sadtalker con modelos y pesos:
python download_models.pyEjecute el comando anterior y espere hasta que muestre "Descargas completadas". Esto descargará Sadtalker junto con los modelos y pesos requeridos.
Crear un entorno virtual:
python -m venv venvActive el entorno virtual:
source venv/bin/activate. v env S cripts a ctivateInstalar dependencias:
pip install -r requirements.txtInstale Pytorch con CUDA:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Ahora, ha configurado con éxito el entorno para el proyecto, asegurando que su GPU cumpla con los requisitos especificados.
El proyecto tiene la siguiente estructura:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Active el entorno virtual:
Configurar la tecla API de Gemini Pro:
main.pygenai.configure(api_key="add your key here") ."add your key here" con su clave Gemini Pro API real.Ejecute el script principal y la interfaz de usuario web de Gradio:
iface.launch() parte) del script.Ejecute Autotalker y lanza Gradio:
python main.pyAcceso a la interfaz de usuario web de Gradio:
Explore la interfaz:
Enviar y esperar:
Salida de revisión:
Explore los subtítulos (si está habilitado):
Repita y experimente:
Cerrar la interfaz de usuario de Gradio:
Siguiendo estos pasos combinados, puede ejecutar a la perfección AutoTalker, interactuar con la interfaz de usuario web de Gradio y experimentar los videos generados sincronizados con labios.
¡Apreciamos su interés en contribuir a nuestro proyecto! Para garantizar una experiencia suave y colaborativa, siga estas pautas:
Bifurca el repositorio:
Clon el repositorio:
git clone https://github.com/YourUsername/AutoTalker.gitCrear una rama:
git checkout -b feature/your-feature-nameHacer cambios:
Cambios de confirmación:
git commit -m " Add your commit message here "Cambios de empuje:
git push origin feature/your-feature-nameCrear solicitud de extracción:
Revisar y colaborar:
Squash se compromete (si es necesario):
Unir:
Áreas que necesitan ayuda: implementación de TTS similar a los humanos
Si está interesado en tener un impacto significativo, considere contribuir a la implementación de texto a voz (TTS) humano (TTS) para un conjunto diverso de idiomas, incluidos los idiomas regionales indios. Concéntrese en mejorar las capacidades de TTS para las voces masculinas y femeninas.
Dado el paisaje lingüístico diverso en la India, las contribuciones para apoyar los idiomas regionales indios en TTS son muy valoradas. Estos idiomas pueden incluir, pero no se limitan a:
Sus esfuerzos en la implementación de TTS para estos idiomas contribuirán significativamente a hacer que el contenido educativo sea accesible para una audiencia más amplia, particularmente en regiones con diversos antecedentes lingüísticos.
¡Gracias por considerar estas importantes contribuciones a la implementación de TTS como humano! Su trabajo desempeñará un papel vital en hacer que el contenido educativo sea inclusivo y accesible para los alumnos de diversos orígenes lingüísticos. ?
Este proyecto tiene licencia bajo la licencia MIT.
Este proyecto reconoce los siguientes proyectos de código abierto y sus contribuyentes:
Google AI Python SDK: el SDK de Google Ai Python permite a los desarrolladores usar los modelos de IA generativos de última generación de Google (como Gemini y Palm) para construir características y aplicaciones que funcionan con IA.
Sadtalker: [CVPR 2023] Sadtalker: Aprender coeficientes de movimiento 3D realistas para la animación de la cara parada de imagen única estilizada. Un proyecto de OpenTalker.
Pedalboard: una biblioteca de Python para trabajar con audio, desarrollada por Spotify.
Whisper: robusto reconocimiento de voz a través de una supervisión débil a gran escala, un proyecto de código abierto de OpenAI.
Transformadores abrazando la cara : ? Transformadores: aprendizaje automático de última generación para Pytorch, TensorFlow y Jax.
Acelere abrazando la cara: una forma simple de entrenar y usar modelos Pytorch con múltiples GPU, TPU, precisión mixta.
Óptimo al abrazar la cara: acelerar el entrenamiento y la inferencia de? Transformadores y? Difusores con herramientas de optimización de hardware fáciles de usar.
Corteza de Suno AI : ? Modelo de audio generativo prometido por texto.
Pytorch: tensores y redes neuronales dinámicas en Python con una fuerte aceleración de GPU.
Estos proyectos han contribuido significativamente al desarrollo y la funcionalidad de Autotalker, y extendemos nuestra gratitud a sus respectivos desarrolladores y mantenedores.