Reader de notícias generativo-AI
Apresentando a você, Keezum AI News Reader !
Bem -vindo ao repositório de leitor de notícias da AI! Este projeto é uma demonstração de como as ferramentas generativas de IA podem ser usadas juntas para criar um Avatar sofisticado e dinâmico.
️ Isenção de responsabilidade: apenas brincando, sinta -se à vontade para usá -lo de acordo com o seu conforto.
Visite este link para assistir ao vídeo da demonstração para ver Macy em ação, onde ela fala brevemente sobre dois medicamentos comumente prescritos.
O resultado é bastante impressionante e só vai melhorar com o tempo, dada a velocidade com que a IA generativa está melhorando. Para criar essa demonstração, levei 0 dólares e apenas 25 minutos.
Aqui estão as ferramentas que usei:
- Midjourney para gerar uma imagem de uma farmacêutica feminina
- O Chatgpt da OpenAI para gerar script para linhas de novo
- O vídeo principal da Elevenlabs para gerar áudio a partir do script chatgpt
- O Creative Reality Studio do D-ID para gerar vídeo de avatar animado realista sincronizado com áudio (teste gratuito)
Guia passo a passo
(1) Midjourney - geração de imagens
- Precisamos de um rosto para representar nosso avatar, e podemos usar ferramentas de geração de imagens como o Midjourney para fazer exatamente isso
- Midjourney é um serviço de IA gratuito do OpenAI que cria imagens de descrições textuais
- Configurar:
- O Midjourney trabalha inteiramente na Discord, portanto, não se esqueça de se inscrever em uma conta Discord (que é gratuita).
- Visite este link do site Midjourney, que o leva automaticamente a um convite da discórdia.
- Aceite o convite de discórdia para Midjourney. Escolha continuar a discórdia.
- Clique no botão Midjourney (com o ícone do navio) e selecione qualquer um dos quartos recém-cheios, por exemplo,
newbies-24 - Na linha de bate -papo, digite
/imagine seguido pelo seu prompt de descrição. Por exemplo, o prompt que eu usei foi "foto profissional de alta qualidade do corpo de uma repórter de notícias de mídia feminina em um casaco vermelho com fundo de redação". Pressione Enter depois de digitá -lo e dê a Midjourney algum tempo para gerar as imagens. - Uma vez feito, você verá uma saída de quatro imagens. Abaixo do conjunto de imagens, você verá um conjunto de botões U1-U4 e V1-V4.
- As quatro imagens são numeradas indo no sentido horário do canto superior esquerdo. Para obter uma nova variação de que você gosta, selecione "V1" (ou V2, V3 ou V4) e obter uma cópia de alta resolução, selecione "U1" (ou U2, U3 ou U4).
- Depois de obter sua variante de alta resolução selecionada selecionando um dos botões U, clique na imagem e selecione 'Abrir no navegador'. Você pode salvar a imagem de alta resolução em sua máquina local
(2) Chatgpt de playground - geração de texto
- Como todos que usam o ChatGPT, ele ficou um pouco lento nos dias de hoje e nem todos interessados em pagar dinheiro para que possamos usar o ChatGPTPlayground para executar nossa tarefa muito rapidamente. Precisamos de um script de manchetes de notícias que possa fornecer notícias. Para fazer isso, podemos usar chatgptplayground.
- O ChatGPT é um chatbot desenvolvido pelo OpenAI e lançado em novembro de 2022. Ele é construído no topo da família GPT-3 de grandes modelos de idiomas do OpenAI.
- Configurar:
- Visite este link para acessar o ChatGPT (você precisará fazer o login de acordo)
- Na seção Prompt, insira a descrição relevante para o script de aconselhamento. Por exemplo, o prompt que usei é o seguinte: "Crie um script que primeiro se apresente como um leitor de notícias chamado Keezum e depois fala sobre as manchetes das notícias com pontos no início e dê algumas informações de notícias com o limite de duas a três linhas Max".
- A partir da saída na tela ChatGPT, copie e salve o texto gerado em um arquivo de texto em sua máquina local.
(3) Elevenlabs-geração de texto em fala
- Em seguida, queremos converter o texto do script chatgpt em um clipe de áudio de som natural. Podemos fazer isso com ferramentas gratuitas como a Voice Prime AI (por Elevenlabs)
- O Prime Voice AI é um software de fala realista e versátil de IA que traz as vozes mais atraentes, ricas e realistas para criadores e editores que buscam as ferramentas finais para contar histórias.
- Configurar:
- Visite a página Elevenlabs e crie uma conta gratuitamente.
- Na página de síntese de fala, selecione uma voz específica nas configurações, cole o script de texto na seção de texto e clique em gerar. A voz que eu escolhi foi
premade/Domi , pois achei a mais animada e natural. As configurações também podem ser ajustadas de acordo para coisas como estabilidade e clareza. - Encurtei levemente o script removendo a seção sobre a amlodipina da droga porque não queria que a demonstração fosse muito longa.
- Há um limite de crédito para a conta gratuita, portanto, use -os com sabedoria para o áudio que deseja gerar.
- Faça o download e salve o arquivo .mp3 (intitulado 'Synthesized_audio.mp3') em sua máquina local.
(4) D -ID - Avatar falante fotorrealista (e sincronização de áudio) geração
- Por fim, é hora de juntar a imagem do farmacêutico e aconselhar o áudio em um vídeo fotorrealista. Para fazer isso, podemos usar ferramentas como o D-ID.
- A tecnologia de IA criativa da D-ID pega imagens de rostos e as transforma em vídeos fotorrealistas de alta qualidade. Com o clique de um botão, ele pode combinar imagens com áudio ou texto para dar a eles expressão e fala.
- Configurar:
- Visite o site D-ID e crie uma conta de avaliação gratuita
- Selecione o botão Criar vídeo para começar a criar um novo vídeo
- Adicione sua imagem do farmacêutico Midjourney como uma imagem de apresentador
- Carregue nosso áudio com script com chatgpt na seção de
Upload your own voice à direita. - Clique no botão
Generate Video no canto superior direito e aguarde a sua obra -prima pronta para download!
Dependências
Este projeto requer as seguintes dependências:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
Trabalho futuro
Planejamos continuar a refinar e melhorar esse projeto, integrando ferramentas mais generativas de IA e expandindo a funcionalidade do Avatar do Reader. Também damos as boas -vindas a quaisquer contribuições ou sugestões da comunidade. Agradecimentos
Gostaríamos de agradecer aos desenvolvedores e pesquisadores em Midjourney, Openai, Elevenlabs e D-ID por suas excelentes ferramentas generativas de IA, o que tornou esse projeto possível.
Licença
Este projeto está licenciado sob a licença do MIT - consulte o arquivo de licença para obter detalhes.