Descarga de AutoTalker - Descargar el código fuente AutoTalker

AutoTalker

Código Fuente de IA

1.0.0

Descargar

¿Autotalker?

Video de demostración del proyecto

¡Mira el video de demostración para ver Autotalker en acción!

Whatsapp.video.2024-02-26.at.2.29.16.am.mp4

Ejemplo

Información de entrada

"Explique a Python y sus aplicaciones en 30 segundos"

Imagen de entrada

Video de salida

output_video.mp4

Descripción del proyecto

El Proyecto de Aprendiz (TAP)

En el paisaje en rápida evolución del siglo XXI, una educación integral es primordial para preparar a los estudiantes con las habilidades necesarias para prosperar en la sociedad moderna. El Proyecto de Aprendiz (TAP) se dedica a cultivar estas habilidades esenciales del siglo XXI entre los niños desatendidos inscritos en el gobierno o las escuelas privadas de bajos ingresos.

TAP opera bajo el paraguas de la Fundación Mentorme, una empresa registrada de la Sección 8, y recibe orgullo el apoyo de instituciones estimadas como la Universidad de Harvard, IIM Bangalore y la Fundación Nudge. Como oficial se asocia con los gobiernos de Maharashtra y Delhi, TAP tiene un impacto significativo, alcanzando a más de 31,000 niños a través de su innovador chatbot.

Declaración del problema

Un número asombroso de estudiantes de secundaria y secundaria, más de 100 millones, desde comunidades de bajos ingresos en toda la India carecen de habilidades críticas del siglo XXI, incluido el aprendizaje social y emocional (SEL) y la educación financiera. El tradicional sistema de educación pública centrada en el examen exacerba este problema, lo que lleva a la estadística alarmante de que 1 de cada 2 niños que se gradúan del sistema educativo indio se considera desempleado debido a la ausencia de estas habilidades cruciales.

Estadísticas de educación financiera:
- Solo el 16.7% de los estudiantes adolescentes indios poseen educación financiera básica.
- Solo el 27% de la población de adultos indios se considera con alfabetización financiera.

Objetivos de desarrollo de la ONU sostenible (SDG)

Tap alinea su misión con varios ODS de la ONU:

Objetivo 1: Sin pobreza
Objetivo 2: cero hambre
Objetivo 3: Buena salud y bienestar
Objetivo 4: Educación de calidad
Objetivo 8: Trabajo decente y crecimiento económico

Sistema actual

El Proyecto de Aprendiz (TAP), que opera bajo la Fundación Mentorme, empodera a los estudiantes desatendidos a través de TAP Buddy, un chatbot de WhatsApp de inteligencia artificial. Tap Buddy ofrece asignaturas optativas basadas en video, guiando a los estudiantes a través de proyectos independientes utilizando empujones y contenido personalizados (Learned) y AI Bot. Los videos de proyectos de autoaprendizaje fomentan habilidades como creatividad, confianza, autoconciencia, comunicación y resolución de problemas, rompiendo barreras mentales e inculcar una mentalidad de crecimiento.

Desafíos e innovaciones

A medida que el uso del chatbot de Tap continúa creciendo, el proyecto enfrenta desafíos y busca soluciones innovadoras:

Creación del curso: aprovechar la IA para generar contenido en varias asignaturas optativas, como la codificación y las artes visuales, con el objetivo de superar las limitaciones en la creación de video a granel debido a las limitaciones de tiempo manual.
Aprendizaje personalizado: emplear la IA para crear tutoriales de codificación personalizados o guías de proyectos de arte adaptados a estilos de aprendizaje individuales y niveles de habilidades. El análisis avanzado de ML/AI Open adapta el contenido basado en el progreso de un alumno, asegurando una experiencia de aprendizaje personalizada.
Creación de contenido: utilizando IA para generar fragmentos de código, plantillas o ideas de diseño para proyectos de arte, guiar a los estudiantes en sus niveles de habilidad y sugerir opciones de exploración.
Exploración artística: recomendando técnicas y estilos basados en el nivel de habilidad de un niño, ampliando horizontes artísticos comparando su trabajo con artistas famosos o movimientos artísticos.
Codificación creativa: el uso de IA para hacer una lluvia de ideas y proporcionar inspiración para proyectos de codificación innovadores y artísticos.

Enfoque y solución

Mi enfoque para abordar los desafíos que enfrentan TAP implica aprovechar las tecnologías de vanguardia, incluido el procesamiento del lenguaje natural (PNL), la inteligencia artificial (IA) y el aprendizaje automático (ML), para desarrollar Autotalker, un componente de TAP dirigido a mejorar la experiencia educativa para los estudiantes.

AutoTalker utiliza modelos y bibliotecas de IA avanzados, como Suno Bark TTS para la conversión de texto a voz, el SDK generativo de AI Python de Google (Gemini Pro) para la generación de texto y Sadtalker para el audio de sincronización de labios con movimientos faciales en videos. Al integrar estas tecnologías, AutoTalker permite la creación de contenido de video atractivo e informativo a partir de indicaciones e imágenes de texto.

Además, el proyecto incorpora características como aprendizaje personalizado, asistencia de creación de contenido y apoyo lingüístico para satisfacer diversas necesidades y preferencias de aprendizaje. Al aprovechar el poder de la IA, Autotalker permite a los educadores y estudiantes por igual para acceder a contenido educativo de alta calidad adaptado a sus requisitos individuales, fomentando así el desarrollo de habilidades esenciales del siglo XXI.

A través de esta solución innovadora, TAP tiene como objetivo revolucionar el panorama educativo, cerrando la brecha en el acceso a los recursos de aprendizaje de calidad y capacitar a los estudiantes de las comunidades desatendidas para realizar todo su potencial en la era digital.

Tabla de contenido

Acerca de
Características
Empezando
- Requisitos previos
- Instalación
Uso
Que contribuye
Licencia
Expresiones de gratitud

Acerca de

El proyecto se centra en aprovechar la tecnología para crear nuevos cursos, personalizar los existentes y mejorar el proceso de evaluación, contribuyendo en última instancia al desarrollo de habilidades del siglo XXI en los estudiantes. AutoTalker, un componente de TAP, muestra las capacidades de la IA en la generación de videos sincronizados con labios a partir de indicaciones e imágenes de texto, mejorando la experiencia educativa general para los estudiantes.

Utiliza varias bibliotecas, incluidas:

Suno Bark TTS: una biblioteca de conversión de texto a voz utilizada para generar audio a partir de indicaciones de texto.
Pydub: una biblioteca de manipulación de audio para manejar archivos y formatos de audio.
Google.Generativeai (Gemini Pro): el SDK generativo de Ai Python de Google utilizado para la generación de texto.
Sadtalker: un modelo de sincronización de labios utilizado para sincronizar el audio con movimientos faciales en videos.
Operai Whisper: una biblioteca para la conversión de voz a texto, que permite la personalización de las características de voz.
Spotify Pedalboard: una biblioteca de mejora de audio para mejorar la calidad y los efectos de los archivos de audio.
Moviepy: una biblioteca de edición de video que facilita las tareas de procesamiento y edición de videos.
Pytorch: un marco de aprendizaje profundo utilizado para varias tareas de aprendizaje automático, incluida la funcionalidad de Sadtalker.
FFMPEG: un marco multimedia utilizado para manejar datos multimedia, como archivos de audio y video.
Abrazando los transformadores faciales: una biblioteca que proporciona modelos previamente capacitados y diversas utilidades para tareas de procesamiento del lenguaje natural.
BetterTransformer: una ruta rápida preparada para la producción para acelerar el despliegue de modelos de transformadores con alto rendimiento en CPU y GPU. La función de ruta rápida funciona de manera transparente para los modelos basados directamente en Pytorch Core NN.
Numpy: una poderosa biblioteca de cálculo numérico para manejar matrices y matrices multidimensionales grandes.
Gradio: una biblioteca fácil de usar para crear componentes de IU personalizables en torno a modelos de aprendizaje automático, lo que permite una implementación e interacción fácil con modelos a través de interfaces web.

Características

Conversión de texto a voz: utiliza Suno Bark TTS para convertir las indicaciones de texto en archivos de audio (formato WAV).
Manipulación de audio: emplea Pydub para tareas de manipulación de audio, mejora la calidad de audio y aplica los efectos deseados.
Texto de IA generativo: aprovecha el SDK generativo de AI Python de Google (Gemini Pro) para la generación de texto, proporcionando indicaciones diversas y contextualmente relevantes.
Sincronización de labios: integra Sadtalker, un modelo de sincronización de labios, para sincronizar el audio generado con movimientos faciales en los videos.
Conversión de voz a texto: Incorpora OpenAI Whisper para la conversión de voz a texto, lo que permite la personalización de las características de voz.
Mejora de audio: utiliza Spotify Pedalboard para mejorar y aplicar efectos a los archivos de audio, mejorando la calidad general de audio.
Edición de video: Implementa Moviepy, una biblioteca de edición de video, para tareas de procesamiento y edición de videos, incluida la creación de videos finales sincronizados con labios.
Marco de aprendizaje profundo: aprovecha a Pytorch por sus capacidades de aprendizaje profundo, esencial para ejecutar la funcionalidad de Sadtalker.
Manejo multimedia: utiliza FFMPEG, un marco multimedia, para manejar datos multimedia como archivos de audio y video durante el procesamiento.
Procesamiento del lenguaje natural: integra los refugios de los transformadores faciales, que ofrece modelos y utilidades previamente capacitados para las tareas de procesamiento del lenguaje natural.
Ruta rápida para modelos de transformadores: incorpora BetterTransformer, una ruta rápida lista para la producción para el despliegue acelerado de modelos de transformadores en CPU y GPU.
Cálculo numérico: se basa en Numpy para un potente cálculo numérico, particularmente para manejar grandes matrices y matrices multidimensionales.
Componentes de la interfaz de usuario fáciles de usar: Integra Gradio, una biblioteca fácil de usar, para crear componentes de IU personalizables en torno a modelos de aprendizaje automático, facilitando la implementación e interacción fácil a través de las interfaces web.
Apoyo del idioma: apoya múltiples idiomas, incluidos inglés, chino (simplificado), francés, alemán, hindi, italiano, japonés, coreano, polaco, portugués, ruso, español y turco.
Soporte de subtítulos: actualmente disponible solo para el idioma inglés.

Estas características contribuyen colectivamente a la generación de videos sincronizados con labios a partir de indicaciones e imágenes de texto de entrada, con soporte para varios idiomas y subtítulos en inglés.

Empezando

Requisitos previos

Python 3.10.6
Clave API de Google AI.
FFMPEG instalado.
Pytorch instalado. Asegúrese de que su sistema admita CUDA.
ImageMagick instalado. Esto se requiere para Picmentpy.
Sadtalker instalado.
Nota: Asegúrese de que su GPU tenga un mínimo de 4 GB de VRAM con soporte para CUDA.

Instalación

Instale Python 3.10.6:
- Descargue e instale Python 3.10.6. Tenga en cuenta que las versiones 3.11 y 3.12 no son compatibles.
Instalar ffmpeg:
- Siga las instrucciones apropiadas para su sistema.
Instalar ImageMagick:
- Descargue e instale ImageMagick.

Clone El repositorio de AutoTalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Descargue Sadtalker con modelos y pesos:
```
python download_models.py
```
Ejecute el comando anterior y espere hasta que muestre "Descargas completadas". Esto descargará Sadtalker junto con los modelos y pesos requeridos.
Crear un entorno virtual:
```
python -m venv venv
```

Active el entorno virtual:

En Linux/Mac:
```
 source venv/bin/activate
```
En Windows:
```
. v env S cripts a ctivate
```

Instalar dependencias:
```
pip install -r requirements.txt
```

Instale Pytorch con CUDA:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Ahora, ha configurado con éxito el entorno para el proyecto, asegurando que su GPU cumpla con los requisitos especificados.

Uso

Estructura de proyectos

El proyecto tiene la siguiente estructura:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Pasos para ejecutar AutoTalker y abrir la interfaz de usuario web de Gradio:

Active el entorno virtual:
- Active el entorno virtual creado anteriormente.
Configurar la tecla API de Gemini Pro:
- Abra el archivo main.py
- Localice la línea: genai.configure(api_key="add your key here") .
- Reemplace "add your key here" con su clave Gemini Pro API real.
Ejecute el script principal y la interfaz de usuario web de Gradio:
- Copie el código de Gradio proporcionado ( iface.launch() parte) del script.
Ejecute Autotalker y lanza Gradio:
- En el mismo terminal donde su entorno virtual está activo, ejecute el script de AutoTalker junto con la interfaz de usuario web de Gradio.
```
python main.py
```
Acceso a la interfaz de usuario web de Gradio:
- Después de ejecutar el script, Gradio proporcionará un enlace (generalmente localhost) donde se aloja la interfaz de usuario web. Abra ese enlace en su navegador web.
Explore la interfaz:
- Ahora tendrá acceso a la interfaz de UI web de Gradio.
- Interactúe con los componentes de entrada proporcionados como cuadros de texto, botones de radio, controles deslizantes y opciones de carga de imágenes.
Enviar y esperar:
- Haga clic en la "Interfaz de inicio" o un botón similar para enviar su entrada.
- Gradio procesará su entrada, generará la salida y mostrará los resultados en la interfaz de usuario web.
Salida de revisión:
- La salida puede ser un video con o sin subtítulos, dependiendo de su configuración.
Explore los subtítulos (si está habilitado):
- Si habilitó el soporte de subtítulos, explore los subtítulos generados para el video.
Repita y experimente:
- Siéntase libre de experimentar con diferentes entradas, indicaciones y parámetros para generar varias salidas.
Cerrar la interfaz de usuario de Gradio:
- Una vez que haya terminado, cierre la interfaz de usuario web de Gradio.

Siguiendo estos pasos combinados, puede ejecutar a la perfección AutoTalker, interactuar con la interfaz de usuario web de Gradio y experimentar los videos generados sincronizados con labios.

Que contribuye

¡Apreciamos su interés en contribuir a nuestro proyecto! Para garantizar una experiencia suave y colaborativa, siga estas pautas:

Bifurca el repositorio:
- Comience bifurcando este repositorio a su cuenta de GitHub.

Clon el repositorio:

git clone https://github.com/YourUsername/AutoTalker.git

Crear una rama:
- Para cada contribución, cree una nueva rama con un nombre descriptivo.
```
git checkout -b feature/your-feature-name
```
Hacer cambios:
- Implemente sus mejoras o correcciones. Asegúrese de que sus cambios se alineen con los objetivos del proyecto.
Cambios de confirmación:
- Comprometer sus cambios con mensajes de confirmación claros y concisos.
```
git commit -m " Add your commit message here "
```
Cambios de empuje:
- Empuje sus cambios a su repositorio bifurcado.
```
git push origin feature/your-feature-name
```
Crear solicitud de extracción:
- Abra una solicitud de extracción de su repositorio bifurcado al repositorio principal.
- Proporcione información detallada sobre sus cambios, describiendo el propósito y el impacto.
Revisar y colaborar:
- Participe en discusiones, responda a los comentarios y colabore con la comunidad para refinar su contribución.
Squash se compromete (si es necesario):
- Si su solicitud de extracción contiene múltiples confirmaciones, considere aplastarlos en una sola confirmación bien estructurada.
Unir:
- Una vez que se apruebe su solicitud de extracción, se fusionará en el repositorio principal.
Áreas que necesitan ayuda: implementación de TTS similar a los humanos

Si está interesado en tener un impacto significativo, considere contribuir a la implementación de texto a voz (TTS) humano (TTS) para un conjunto diverso de idiomas, incluidos los idiomas regionales indios. Concéntrese en mejorar las capacidades de TTS para las voces masculinas y femeninas.

Idiomas compatibles para la implementación de TTS tipo humano:

Árabe (AR)
Bengalí (BN)
Búlgaro (BG)
Croata (recursos humanos)
Checo (CS)
Danés (DA)
Holandés (NL)
Estonia (ET)
Finlandés (FI)
Griego (El)
Hebreo (IW)
Húngaro (Hu)
Indonesio (ID)
Letón (LV)
Lituano (LT)
Noruego (no)
Rumano (ro)
Serbio (SR)
Eslovaco (SK)
Esloveniano (SL)
Swahili (SW)

Enfoque adicional en idiomas regionales indios:

Dado el paisaje lingüístico diverso en la India, las contribuciones para apoyar los idiomas regionales indios en TTS son muy valoradas. Estos idiomas pueden incluir, pero no se limitan a:

hindi
Tamil
Telugu
Kannada
Malayalam
punjabi
Gujarati
Marathi
bengalí
Odia
Assamese
Urdu

Sus esfuerzos en la implementación de TTS para estos idiomas contribuirán significativamente a hacer que el contenido educativo sea accesible para una audiencia más amplia, particularmente en regiones con diversos antecedentes lingüísticos.

¡Gracias por considerar estas importantes contribuciones a la implementación de TTS como humano! Su trabajo desempeñará un papel vital en hacer que el contenido educativo sea inclusivo y accesible para los alumnos de diversos orígenes lingüísticos. ?

Licencia

Este proyecto tiene licencia bajo la licencia MIT.

Expresiones de gratitud

Este proyecto reconoce los siguientes proyectos de código abierto y sus contribuyentes:

Google AI Python SDK: el SDK de Google Ai Python permite a los desarrolladores usar los modelos de IA generativos de última generación de Google (como Gemini y Palm) para construir características y aplicaciones que funcionan con IA.
Sadtalker: [CVPR 2023] Sadtalker: Aprender coeficientes de movimiento 3D realistas para la animación de la cara parada de imagen única estilizada. Un proyecto de OpenTalker.
Pedalboard: una biblioteca de Python para trabajar con audio, desarrollada por Spotify.
Whisper: robusto reconocimiento de voz a través de una supervisión débil a gran escala, un proyecto de código abierto de OpenAI.
Transformadores abrazando la cara : ? Transformadores: aprendizaje automático de última generación para Pytorch, TensorFlow y Jax.
Acelere abrazando la cara: una forma simple de entrenar y usar modelos Pytorch con múltiples GPU, TPU, precisión mixta.
Óptimo al abrazar la cara: acelerar el entrenamiento y la inferencia de? Transformadores y? Difusores con herramientas de optimización de hardware fáciles de usar.
Corteza de Suno AI : ? Modelo de audio generativo prometido por texto.
Pytorch: tensores y redes neuronales dinámicas en Python con una fuerte aceleración de GPU.

Estos proyectos han contribuido significativamente al desarrollo y la funcionalidad de Autotalker, y extendemos nuestra gratitud a sus respectivos desarrolladores y mantenedores.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 438.64KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo