Confira o vídeo da demonstração para ver o AutoTalker em ação!
Prompt de entrada
"Explique Python e suas aplicações em 30 segundos"
Imagem de entrada

Vídeo de saída
Na paisagem em rápida evolução do século XXI, uma educação abrangente é fundamental para a preparação dos alunos com as habilidades necessárias para prosperar na sociedade moderna. O Projeto Aprendiz (TAP) é dedicado a cultivar essas habilidades essenciais do século XXI entre crianças carentes matriculadas em escolas particulares do governo ou de baixa renda.
A TAP opera sob o guarda -chuva da Fundação Mento, uma empresa registrada da Seção 8, e é orgulhosamente apoiada por instituições estimadas como a Universidade de Harvard, o IIM Bangalore e a Nudge Foundation. Como parceiros oficiais dos governos de Maharashtra e Delhi, a TAP tem um impacto significativo, alcançando mais de 31.000 crianças através de seu inovador chatbot.
Um número impressionante de estudantes do ensino médio e médio-acima de 100 milhões-de comunidades de baixa renda em toda a Índia não possuem habilidades críticas do século XXI, incluindo aprendizado social e emocional (SEL) e alfabetização financeira. O sistema de educação pública centrada no exame tradicional exacerba essa questão, levando à estatística alarmante de que 1 em cada 2 crianças se formando no sistema educacional indiano é considerado desempregado devido à ausência dessas habilidades cruciais.
Toque em alinhar sua missão com vários ONDs da ONU:
O Projeto Aprendiz (TAP), operando sob a Fundação Mentormme, capacita os alunos carentes através do Tap Buddy-um chatbot de WhatsApp de Inteligência Artificial. A Tap Buddy oferece eletivas baseadas em vídeo, orientando os alunos por meio de projetos independentes usando cutucadas e conteúdo personalizados (apreciados por ML) e baseados em AI. Os vídeos de auto-aprendizado de auto-aprendizado promovem habilidades como criatividade, confiança, autoconsciência, comunicação e solução de problemas, quebra de barreiras mentais e instilando uma mentalidade de crescimento.
À medida que o uso do chatbot da TAP continua a crescer, o projeto enfrenta desafios e busca soluções inovadoras:
Criação do curso: Aproveitando a IA para gerar conteúdo em várias eletivas, como codificação e artes visuais, com o objetivo de superar as limitações na criação de vídeo em massa devido a restrições de tempo manuais.
Aprendizagem personalizada: empregando IA para criar tutoriais de codificação personalizados ou guias de projeto de arte adaptados a estilos de aprendizagem e níveis de habilidade individuais. A análise avançada do ML/Open AI adapta o conteúdo com base no progresso de um aluno, garantindo uma experiência de aprendizado personalizada.
Criação de conteúdo: Utilizando a IA para gerar trechos de código, modelos ou idéias de design para projetos de arte, orientando os alunos em seus níveis de habilidade e sugerindo opções de exploração.
Exploração artística: recomendando técnicas e estilos com base no nível de habilidade de uma criança, ampliando os horizontes artísticos comparando seu trabalho a artistas ou movimentos de arte famosos.
Codificação criativa: usando a IA para debater idéias e fornecer inspiração para projetos de codificação inovadores e artísticos.
Minha abordagem para enfrentar os desafios enfrentados pela TAP envolve alavancar as tecnologias de ponta, incluindo processamento de linguagem natural (PNL), inteligência artificial (AI) e aprendizado de máquina (ML), desenvolver o AutoTalker-um componente da TAP destinada a melhorar a experiência educacional para os alunos.
O AutoTalker utiliza modelos e bibliotecas de IA avançados, como o SUNO Bark TTS para conversão de texto em fala, o generativo AI Python SDK do Google (Gemini Pro) para geração de texto e SadTalker para áudio com sincronização labial com movimentos faciais em vídeos. Ao integrar essas tecnologias, o AutoTalker permite a criação de conteúdo de vídeo envolvente e informativo a partir de avisos e imagens de texto.
Além disso, o projeto incorpora recursos como aprendizado personalizado, assistência à criação de conteúdo e suporte ao idioma para atender a diversas necessidades e preferências de aprendizado. Ao aproveitar o poder da IA, o AutoTalker capacita educadores e estudantes para acessar conteúdo educacional de alta qualidade adaptado aos seus requisitos individuais, promovendo assim o desenvolvimento de habilidades essenciais do século XXI.
Por meio dessa solução inovadora, a TAP visa revolucionar o cenário da educação, a ponte da lacuna no acesso a recursos de aprendizagem de qualidade e capacitando os alunos de comunidades carentes a realizar todo o seu potencial na era digital.
O projeto se concentra na alavancagem da tecnologia para criar novos cursos, personalizar os existentes e aprimorar o processo de avaliação, contribuindo para o desenvolvimento de habilidades do século XXI nos alunos. O AutoTalker, um componente da TAP, mostra os recursos da IA na geração de vídeos sincronizados por lábios a partir de prompts e imagens de texto, aprimorando a experiência educacional geral para os alunos.
Utiliza várias bibliotecas, incluindo:
Esses recursos contribuem coletivamente para a geração de vídeos sincronizados por lábios a partir de prompts e imagens de texto de entrada, com suporte para vários idiomas e legendas em inglês.
Python 3.10.6
Chave da API do Google AI.
FFMPEG instalado.
Pytorch instalado. Verifique se o seu sistema suporta CUDA.
ImageMagick instalado. Isso é necessário para o Moviepy.
SadTalker instalado.
NOTA: Verifique se a sua GPU possui no mínimo 4 GB de VRAM com suporte ao CUDA.
Instale o Python 3.10.6:
Instale o ffmpeg:
Instale o ImageMagick:
Clone o repositório do AutoTalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerFaça o download do SadTalker com modelos e pesos:
python download_models.pyExecute o comando acima e aguarde até mostrar "Downloads concluídos". Isso baixará o SadTalker junto com os modelos e pesos necessários.
Crie um ambiente virtual:
python -m venv venvAtive o ambiente virtual:
source venv/bin/activate. v env S cripts a ctivateInstale dependências:
pip install -r requirements.txtInstale Pytorch com CUDA:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Agora, você configurou com sucesso o ambiente para o projeto, garantindo que sua GPU atenda aos requisitos especificados.
O projeto tem a seguinte estrutura:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Ative o ambiente virtual:
Configure a chave da API Gemini Pro:
main.pygenai.configure(api_key="add your key here") ."add your key here" pela sua chave de API Gemini Pro.Execute o script principal e a interface da usuário da Web Gradio:
iface.launch() ) do script.Execute o AutoTalker e inicie o Gradio:
python main.pyAccess Gradio Web UI:
Explore a interface:
Envie e espere:
Revisão da saída:
Explore as legendas (se ativado):
Repita e experimente:
Fechar a interface do graduação:
Seguindo essas etapas combinadas, você pode executar perfeitamente o AutoTalker, interagir com a interface da web gradio e experimentar os vídeos sincronizados por lábios gerados.
Agradecemos o seu interesse em contribuir para o nosso projeto! Para garantir uma experiência suave e colaborativa, siga estas diretrizes:
Fork o repositório:
Clone o repositório:
git clone https://github.com/YourUsername/AutoTalker.gitCrie uma filial:
git checkout -b feature/your-feature-nameFazer alterações:
Cometer mudanças:
git commit -m " Add your commit message here "Push mudanças:
git push origin feature/your-feature-nameCrie solicitação de tração:
Revise e colabore:
Squash começos (se necessário):
Mesclar:
Áreas que precisam de ajuda: implementação do TTS do tipo humano
Se você estiver interessado em causar um impacto significativo, considere contribuir para a implementação de texto em fala humano (TTS) para um conjunto diversificado de idiomas, incluindo idiomas regionais indianos. Concentre -se em aprimorar os recursos do TTS para vozes masculinas e femininas.
Dado o cenário linguístico diversificado na Índia, são altamente valorizadas contribuições para apoiar os idiomas regionais indianos no TTS. Esses idiomas podem incluir, mas não estão limitados a:
Seus esforços na implementação do TTS para esses idiomas contribuirão significativamente para tornar o conteúdo educacional acessível a um público mais amplo, principalmente em regiões com diversas origens linguísticas.
Obrigado por considerar essas importantes contribuições para a implementação do TTS do tipo humano! Seu trabalho desempenhará um papel vital em tornar o conteúdo educacional inclusivo e acessível a alunos de várias origens linguísticas. ?
Este projeto está licenciado sob a licença do MIT.
Este projeto reconhece os seguintes projetos de código aberto e seus colaboradores:
Google AI Python SDK: O Google AI Python SDK permite que os desenvolvedores usem os modelos generativos de IA de ponta do Google (como Gêmeos e Palm) para criar recursos e aplicativos movidos a IA.
SadTalker: [CVPR 2023] SadTalker: Aprendendo coeficientes de movimento 3D realistas para uma imagem única estilizada de imagem de imagem única. Um projeto da Optentalker.
Pedalboard: uma biblioteca Python para trabalhar com áudio, desenvolvida pelo Spotify.
Whisper: Reconhecimento robusto de fala por meio de supervisão fraca em larga escala, um projeto de código aberto da OpenAI.
Transformadores abraçando o rosto : ? Transformadores: aprendizado de máquina de última geração para Pytorch, Tensorflow e Jax.
Acelere, abraçando o rosto: uma maneira simples de treinar e usar modelos Pytorch com precisão multi-GPU, TPU, mista.
Ideal, abraçando o rosto: acelerar o treinamento e a inferência? Transformadores e? Difusores com ferramentas de otimização de hardware fáceis de usar.
Casca de Solo AI : ? Modelo de áudio generativo promovido por texto.
Pytorch: Tensores e redes neurais dinâmicas em Python com forte aceleração da GPU.
Esses projetos contribuíram significativamente para o desenvolvimento e funcionalidade do AutoTalker, e estendemos nossa gratidão aos seus respectivos desenvolvedores e mantenedores.