Desenhado em fazer as mais recentes ferramentas generativas de IA à prova, criei esse avatar animado capaz de fornecer aconselhamento de medicamentos de maneira realista e com som profissional.
️ Isenção de responsabilidade: Este vídeo é puramente para fins de demonstração como parte de um projeto de hobby pessoal e não se destina a fornecer nenhuma forma de aconselhamento médico. Este não é um produto real, e as visões expressas são minhas.
Clique na miniatura abaixo (ou visite este link) para assistir ao vídeo de demonstração para ver Macy em ação, onde ela fala brevemente sobre dois medicamentos comumente prescritos.
O resultado é bastante impressionante e só vai melhorar com o tempo, dada a velocidade com que a IA generativa está melhorando. Para criar essa demonstração, levei 0 dólares e apenas 25 minutos.
Aqui estão as ferramentas que usei:
Precisamos de um rosto para representar nosso avatar, e podemos usar ferramentas de geração de imagens como o Midjourney para fazer exatamente isso
Midjourney é um serviço de IA gratuito do OpenAI que cria imagens de descrições textuais
Configurar:
newbies-24 
/imagine seguido pelo seu prompt de descrição. Por exemplo, o prompt que eu usei foi "foto profissional de alta qualidade do corpo de uma farmacêutica chinesa em um casaco de laboratório branco com fundo de farmácia". Pressione Enter depois de digitá -lo e dê a Midjourney algum tempo para gerar as imagens. 


Também tentei outras ferramentas como Dall-E e difusão estável, mas seus resultados não foram realistas o suficiente (por exemplo, olhos desalinhados e características faciais).
NOTA : O Midjourney fez uma pausa no programa de avaliação gratuita em abril de 2023. Para gerar imagens faciais realistas, você pode usar um dos seguintes seguintes:
Precisamos de um script de aconselhamento que possa dar conselhos relevantes sobre um conjunto de medicamentos. Para fazer isso, podemos usar o ChatGPT.
O ChatGPT é um chatbot desenvolvido pelo OpenAI e lançado em novembro de 2022. Ele é construído no topo da família GPT-3 de grandes modelos de idiomas do OpenAI.
Configurar:

Eu tive que regenerar a resposta várias vezes porque achei que parte da produção era excessivamente teórica e acadêmica, e não está no formato leigo esperado para explicar medicamentos aos pacientes.
Em seguida, queremos converter o texto do script chatgpt em um clipe de áudio de som natural. Podemos fazer isso com ferramentas gratuitas como a Voice Prime AI (por Elevenlabs)
O Prime Voice AI é um software de fala realista e versátil de IA que traz as vozes mais atraentes, ricas e realistas para criadores e editores que buscam as ferramentas finais para contar histórias.
Configurar:
premade/Domi , pois achei a mais animada e natural. As configurações também podem ser ajustadas de acordo para coisas como estabilidade e clareza. 
Encurtei levemente o script removendo a seção sobre a amlodipina da droga porque não queria que a demonstração fosse muito longa.
Há um limite de crédito para a conta gratuita, portanto, use -os com sabedoria para o áudio que deseja gerar.
Faça o download e salve o arquivo .mp3 (intitulado 'Synthesized_audio.mp3') em sua máquina local.
Dica de bônus: o Elevenlabs também vem com os recursos de clonagem de voz (sob o recurso Lab Lab): https://beta.elevenlabs.io/voice-lab. Se você tiver> 1 min.
Por fim, é hora de juntar a imagem do farmacêutico e aconselhar o áudio em um vídeo fotorrealista. Para fazer isso, podemos usar ferramentas como o D-ID.
A tecnologia de IA criativa da D-ID pega imagens de rostos e as transforma em vídeos fotorrealistas de alta qualidade. Com o clique de um botão, ele pode combinar imagens com áudio ou texto para dar a eles expressão e fala.
Configurar:
Upload your own voice à direita. 
Generate Video no canto superior direito e aguarde a sua obra -prima pronta para download!