Download do AutoTalker - Download do código fonte AutoTalker

AutoTalker

Código-Fonte de IA

1.0.0

Baixar

AutoTalker?

Vídeo de demonstração do projeto

Confira o vídeo da demonstração para ver o AutoTalker em ação!

Whatsapp.video.2024-02-26.at.2.29.16.am.mp4

Exemplo

Prompt de entrada

"Explique Python e suas aplicações em 30 segundos"

Imagem de entrada

Vídeo de saída

output_video.mp4

Descrição do projeto

O projeto do aprendiz (TAP)

Na paisagem em rápida evolução do século XXI, uma educação abrangente é fundamental para a preparação dos alunos com as habilidades necessárias para prosperar na sociedade moderna. O Projeto Aprendiz (TAP) é dedicado a cultivar essas habilidades essenciais do século XXI entre crianças carentes matriculadas em escolas particulares do governo ou de baixa renda.

A TAP opera sob o guarda -chuva da Fundação Mento, uma empresa registrada da Seção 8, e é orgulhosamente apoiada por instituições estimadas como a Universidade de Harvard, o IIM Bangalore e a Nudge Foundation. Como parceiros oficiais dos governos de Maharashtra e Delhi, a TAP tem um impacto significativo, alcançando mais de 31.000 crianças através de seu inovador chatbot.

Declaração de problemas

Um número impressionante de estudantes do ensino médio e médio-acima de 100 milhões-de comunidades de baixa renda em toda a Índia não possuem habilidades críticas do século XXI, incluindo aprendizado social e emocional (SEL) e alfabetização financeira. O sistema de educação pública centrada no exame tradicional exacerba essa questão, levando à estatística alarmante de que 1 em cada 2 crianças se formando no sistema educacional indiano é considerado desempregado devido à ausência dessas habilidades cruciais.

Estatísticas de alfabetização financeira:
- Apenas 16,7% dos estudantes adolescentes indianos possuem alfabetização financeira básica.
- Apenas 27% da população adulta indiana é considerada financeiramente alfabetizada.

Objetivos de Desenvolvimento Sustentável da ONU (ODS)

Toque em alinhar sua missão com vários ONDs da ONU:

Objetivo 1: Sem pobreza
Objetivo 2: Zero Hunger
Objetivo 3: Boa saúde e bem-estar
Objetivo 4: Educação de Qualidade
Objetivo 8: trabalho decente e crescimento econômico

Sistema atual

O Projeto Aprendiz (TAP), operando sob a Fundação Mentormme, capacita os alunos carentes através do Tap Buddy-um chatbot de WhatsApp de Inteligência Artificial. A Tap Buddy oferece eletivas baseadas em vídeo, orientando os alunos por meio de projetos independentes usando cutucadas e conteúdo personalizados (apreciados por ML) e baseados em AI. Os vídeos de auto-aprendizado de auto-aprendizado promovem habilidades como criatividade, confiança, autoconsciência, comunicação e solução de problemas, quebra de barreiras mentais e instilando uma mentalidade de crescimento.

Desafios e inovações

À medida que o uso do chatbot da TAP continua a crescer, o projeto enfrenta desafios e busca soluções inovadoras:

Criação do curso: Aproveitando a IA para gerar conteúdo em várias eletivas, como codificação e artes visuais, com o objetivo de superar as limitações na criação de vídeo em massa devido a restrições de tempo manuais.
Aprendizagem personalizada: empregando IA para criar tutoriais de codificação personalizados ou guias de projeto de arte adaptados a estilos de aprendizagem e níveis de habilidade individuais. A análise avançada do ML/Open AI adapta o conteúdo com base no progresso de um aluno, garantindo uma experiência de aprendizado personalizada.
Criação de conteúdo: Utilizando a IA para gerar trechos de código, modelos ou idéias de design para projetos de arte, orientando os alunos em seus níveis de habilidade e sugerindo opções de exploração.
Exploração artística: recomendando técnicas e estilos com base no nível de habilidade de uma criança, ampliando os horizontes artísticos comparando seu trabalho a artistas ou movimentos de arte famosos.
Codificação criativa: usando a IA para debater idéias e fornecer inspiração para projetos de codificação inovadores e artísticos.

Abordagem e solução

Minha abordagem para enfrentar os desafios enfrentados pela TAP envolve alavancar as tecnologias de ponta, incluindo processamento de linguagem natural (PNL), inteligência artificial (AI) e aprendizado de máquina (ML), desenvolver o AutoTalker-um componente da TAP destinada a melhorar a experiência educacional para os alunos.

O AutoTalker utiliza modelos e bibliotecas de IA avançados, como o SUNO Bark TTS para conversão de texto em fala, o generativo AI Python SDK do Google (Gemini Pro) para geração de texto e SadTalker para áudio com sincronização labial com movimentos faciais em vídeos. Ao integrar essas tecnologias, o AutoTalker permite a criação de conteúdo de vídeo envolvente e informativo a partir de avisos e imagens de texto.

Além disso, o projeto incorpora recursos como aprendizado personalizado, assistência à criação de conteúdo e suporte ao idioma para atender a diversas necessidades e preferências de aprendizado. Ao aproveitar o poder da IA, o AutoTalker capacita educadores e estudantes para acessar conteúdo educacional de alta qualidade adaptado aos seus requisitos individuais, promovendo assim o desenvolvimento de habilidades essenciais do século XXI.

Por meio dessa solução inovadora, a TAP visa revolucionar o cenário da educação, a ponte da lacuna no acesso a recursos de aprendizagem de qualidade e capacitando os alunos de comunidades carentes a realizar todo o seu potencial na era digital.

Índice

Sobre
Características
Começando
- Pré -requisitos
- Instalação
Uso
Contribuindo
Licença
Agradecimentos

Sobre

O projeto se concentra na alavancagem da tecnologia para criar novos cursos, personalizar os existentes e aprimorar o processo de avaliação, contribuindo para o desenvolvimento de habilidades do século XXI nos alunos. O AutoTalker, um componente da TAP, mostra os recursos da IA na geração de vídeos sincronizados por lábios a partir de prompts e imagens de texto, aprimorando a experiência educacional geral para os alunos.

Utiliza várias bibliotecas, incluindo:

SUNO Bark TTS: Uma biblioteca de conversão de texto em fala usada para gerar áudio a partir de prompts de texto.
PyDub: Uma biblioteca de manipulação de áudio para lidar com arquivos e formatos de áudio.
Google.GenerativeAi (Gemini Pro): o generativo AI Python SDK do Google utilizado para geração de texto.
SadTalker: Um modelo de sincronização labial usado para sincronizar o áudio com movimentos faciais em vídeos.
Openai Whisper: uma biblioteca para conversão de fala em texto, permitindo a personalização das características de voz.
Pedalboard do Spotify: uma biblioteca de aprimoramento de áudio para melhorar a qualidade e os efeitos dos arquivos de áudio.
Moviepy: uma biblioteca de edição de vídeo que facilita as tarefas de processamento e edição de vídeo.
Pytorch: Uma estrutura de aprendizado profundo usado para várias tarefas de aprendizado de máquina, incluindo a funcionalidade do Sadtalker.
FFMPEG: Uma estrutura multimídia usada para lidar com dados multimídia, como arquivos de áudio e vídeo.
Abraçando transformadores de rosto: uma biblioteca que fornece modelos pré-treinados e vários utilitários para tarefas de processamento de linguagem natural.
BETETRANSFORMER: Um caminho rápido pronto para produção para acelerar a implantação de modelos de transformadores com alto desempenho na CPU e GPU. O recurso Fast Path funciona de forma transparente para modelos baseados diretamente no Pytorch Core NN.
Numpy: Uma poderosa biblioteca de computação numérica para lidar com grandes matrizes e matrizes multidimensionais.
Gradio: uma biblioteca fácil de usar para criar componentes de interface do usuário personalizáveis em torno de modelos de aprendizado de máquina, permitindo fácil implantação e interação com modelos por meio de interfaces da Web.

Características

Conversão de texto em fala: utiliza TTS SUNO LACT para converter prompts de texto em arquivos de áudio (formato WAV).
Manipulação de áudio: emprega tarefas de manipulação de áudio, aprimorando a qualidade do áudio e aplicando efeitos desejados.
Texto generativo da IA: aproveita o generativo AI Python SDK do Google (Gemini Pro) para geração de texto, fornecendo avisos diversos e contextualmente relevantes.
Sincronização labial: integra o Sadtalker, um modelo de sincronização labial, para sincronizar o áudio gerado com movimentos faciais em vídeos.
Conversão de fala para texto: incorpora o Whisper OpenAI para a conversão de fala em texto, permitindo a personalização das características de voz.
Aprimoramento do áudio: utiliza o Pedalboard do Spotify para aprimorar e aplicar efeitos aos arquivos de áudio, melhorando a qualidade geral do áudio.
Edição de vídeo: implementa o MoviePy, uma biblioteca de edição de vídeo, para tarefas de processamento e edição de vídeo, incluindo a criação de vídeos sincronizados por lábios finais.
Estrutura de aprendizagem profunda: aproveita a Pytorch para suas capacidades de aprendizado profundo, essenciais para executar a funcionalidade de Sadtalker.
Manuseio multimídia: usa o FFMPEG, uma estrutura multimídia, para lidar com dados multimídia, como arquivos de áudio e vídeo durante o processamento.
Processamento de linguagem natural: integra os transformadores de rosto abraçados, oferecendo modelos e serviços públicos pré-treinados para tarefas de processamento de linguagem natural.
Caminho rápido para modelos de transformadores: incorpora o BEDETRANSFORMER, um caminho rápido pronto para produção para a implantação acelerada de modelos de transformadores na CPU e na GPU.
Computação numérica: depende do Numpy para computação numérica poderosa, principalmente para lidar com grandes matrizes e matrizes multidimensionais.
Componentes da UI amigável: integra Gradio, uma biblioteca fácil de usar, para criar componentes de interface do usuário personalizáveis em torno de modelos de aprendizado de máquina, facilitando a fácil implantação e interação através de interfaces da Web.
Suporte ao idioma: suporta vários idiomas, incluindo inglês, chinês (simplificado), francês, alemão, hindi, italiano, japonês, coreano, polonês, português, russo, espanhol e turco.
Suporte de legenda: atualmente disponível apenas para o idioma inglês.

Esses recursos contribuem coletivamente para a geração de vídeos sincronizados por lábios a partir de prompts e imagens de texto de entrada, com suporte para vários idiomas e legendas em inglês.

Começando

Pré -requisitos

Python 3.10.6
Chave da API do Google AI.
FFMPEG instalado.
Pytorch instalado. Verifique se o seu sistema suporta CUDA.
ImageMagick instalado. Isso é necessário para o Moviepy.
SadTalker instalado.
NOTA: Verifique se a sua GPU possui no mínimo 4 GB de VRAM com suporte ao CUDA.

Instalação

Instale o Python 3.10.6:
- Faça o download e instale o Python 3.10.6. Observe que as versões 3.11 e 3.12 não são suportadas.
Instale o ffmpeg:
- Siga as instruções apropriadas para o seu sistema.
Instale o ImageMagick:
- Faça o download e instale o ImageMagick.

Clone o repositório do AutoTalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Faça o download do SadTalker com modelos e pesos:
```
python download_models.py
```
Execute o comando acima e aguarde até mostrar "Downloads concluídos". Isso baixará o SadTalker junto com os modelos e pesos necessários.
Crie um ambiente virtual:
```
python -m venv venv
```

Ative o ambiente virtual:

No Linux/Mac:
```
 source venv/bin/activate
```
No Windows:
```
. v env S cripts a ctivate
```

Instale dependências:
```
pip install -r requirements.txt
```

Instale Pytorch com CUDA:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Agora, você configurou com sucesso o ambiente para o projeto, garantindo que sua GPU atenda aos requisitos especificados.

Uso

Estrutura do projeto

O projeto tem a seguinte estrutura:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Passos para executar o AutoTalker e a abertura da UI da Web Gradio:

Ative o ambiente virtual:
- Ative o ambiente virtual criado anteriormente.
Configure a chave da API Gemini Pro:
- Abra o arquivo main.py
- Localize a linha: genai.configure(api_key="add your key here") .
- Substitua "add your key here" pela sua chave de API Gemini Pro.
Execute o script principal e a interface da usuário da Web Gradio:
- Copie o código Gradio fornecido (parte iface.launch() ) do script.
Execute o AutoTalker e inicie o Gradio:
- No mesmo terminal em que seu ambiente virtual está ativo, execute o script do AutoTalker junto com a interface da interface do graduação da web.
```
python main.py
```
Access Gradio Web UI:
- Depois de executar o script, o Gradio fornecerá um link (geralmente localhost) onde a interface da web está hospedada. Abra esse link no seu navegador da web.
Explore a interface:
- Agora você terá acesso à interface da interface do grau de graduação da web.
- Interaja com os componentes de entrada fornecidos, como caixas de texto, botões de rádio, controles deslizantes e opções de upload de imagens.
Envie e espere:
- Clique no botão "Iniciar interface" ou similar para enviar sua entrada.
- Gradio processará sua entrada, gerará a saída e exibirá os resultados na interface do usuário da web.
Revisão da saída:
- A saída pode ser um vídeo com ou sem legendas, dependendo da sua configuração.
Explore as legendas (se ativado):
- Se você ativou o suporte à legenda, explore as legendas geradas para o vídeo.
Repita e experimente:
- Sinta -se à vontade para experimentar diferentes entradas, avisos e parâmetros para gerar várias saídas.
Fechar a interface do graduação:
- Depois de terminar, feche a interface da usuário da Web Gradio.

Seguindo essas etapas combinadas, você pode executar perfeitamente o AutoTalker, interagir com a interface da web gradio e experimentar os vídeos sincronizados por lábios gerados.

Contribuindo

Agradecemos o seu interesse em contribuir para o nosso projeto! Para garantir uma experiência suave e colaborativa, siga estas diretrizes:

Fork o repositório:
- Comece comprando esse repositório para sua conta do GitHub.

Clone o repositório:

git clone https://github.com/YourUsername/AutoTalker.git

Crie uma filial:
- Para cada contribuição, crie um novo ramo com um nome descritivo.
```
git checkout -b feature/your-feature-name
```
Fazer alterações:
- Implemente seus aprimoramentos ou correções. Garanta que suas alterações alinhem com os objetivos do projeto.
Cometer mudanças:
- Compreenda suas alterações com mensagens de confirmação claras e concisas.
```
git commit -m " Add your commit message here "
```
Push mudanças:
- Empurre suas alterações no seu repositório bifurcado.
```
git push origin feature/your-feature-name
```
Crie solicitação de tração:
- Abra uma solicitação de tração do seu repositório bifurcado para o repositório principal.
- Forneça informações detalhadas sobre suas alterações, descrevendo o objetivo e o impacto.
Revise e colabore:
- Envolva -se em discussões, responda ao feedback e colabore com a comunidade para refinar sua contribuição.
Squash começos (se necessário):
- Se a sua solicitação de tração contiver vários compromissos, considere esmagá-los em um único compromisso bem estruturado.
Mesclar:
- Depois que sua solicitação de tração for aprovada, ela será mesclada no repositório principal.
Áreas que precisam de ajuda: implementação do TTS do tipo humano

Se você estiver interessado em causar um impacto significativo, considere contribuir para a implementação de texto em fala humano (TTS) para um conjunto diversificado de idiomas, incluindo idiomas regionais indianos. Concentre -se em aprimorar os recursos do TTS para vozes masculinas e femininas.

Idiomas suportados para a implementação do TTS do tipo humano:

Árabe (AR)
Bengali (BN)
Búlgaro (BG)
Croata (RH)
Tcheco (CS)
Dinamarquês (da)
Holandês (NL)
Estoniano (ET)
Finlandês (fi)
Grego (el)
Hebraico (IW)
Húngaro (HU)
Indonésio (ID)
Letão (LV)
Lituano (LT)
Norueguês (não)
Romeno (RO)
Sérvio (SR)
Eslovaco (SK)
Esloveno (SL)
Suaíli (SW)

Foco adicional nos idiomas regionais indianos:

Dado o cenário linguístico diversificado na Índia, são altamente valorizadas contribuições para apoiar os idiomas regionais indianos no TTS. Esses idiomas podem incluir, mas não estão limitados a:

hindi
tâmil
Telugu
Kannada
Malaiala
Punjabi
Gujarati
Marathi
bengali
Odia
Assamês
urdu

Seus esforços na implementação do TTS para esses idiomas contribuirão significativamente para tornar o conteúdo educacional acessível a um público mais amplo, principalmente em regiões com diversas origens linguísticas.

Obrigado por considerar essas importantes contribuições para a implementação do TTS do tipo humano! Seu trabalho desempenhará um papel vital em tornar o conteúdo educacional inclusivo e acessível a alunos de várias origens linguísticas. ?

Licença

Este projeto está licenciado sob a licença do MIT.

Agradecimentos

Este projeto reconhece os seguintes projetos de código aberto e seus colaboradores:

Google AI Python SDK: O Google AI Python SDK permite que os desenvolvedores usem os modelos generativos de IA de ponta do Google (como Gêmeos e Palm) para criar recursos e aplicativos movidos a IA.
SadTalker: [CVPR 2023] SadTalker: Aprendendo coeficientes de movimento 3D realistas para uma imagem única estilizada de imagem de imagem única. Um projeto da Optentalker.
Pedalboard: uma biblioteca Python para trabalhar com áudio, desenvolvida pelo Spotify.
Whisper: Reconhecimento robusto de fala por meio de supervisão fraca em larga escala, um projeto de código aberto da OpenAI.
Transformadores abraçando o rosto : ? Transformadores: aprendizado de máquina de última geração para Pytorch, Tensorflow e Jax.
Acelere, abraçando o rosto: uma maneira simples de treinar e usar modelos Pytorch com precisão multi-GPU, TPU, mista.
Ideal, abraçando o rosto: acelerar o treinamento e a inferência? Transformadores e? Difusores com ferramentas de otimização de hardware fáceis de usar.
Casca de Solo AI : ? Modelo de áudio generativo promovido por texto.
Pytorch: Tensores e redes neurais dinâmicas em Python com forte aceleração da GPU.

Esses projetos contribuíram significativamente para o desenvolvimento e funcionalidade do AutoTalker, e estendemos nossa gratidão aos seus respectivos desenvolvedores e mantenedores.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 438.64KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos