Lector de noticias generativo
¡Presentándolo, Keezum Ai News Reader !
¡Bienvenido al repositorio de lector de noticias AI! Este proyecto es una demostración de cómo las herramientas de IA generativas se pueden usar juntas para crear un avatar sofisticado y dinámico de lector de noticias.
️ Descargo de responsabilidad: solo bromear, no dude en usarlo según su comodidad.
Visite este enlace para ver el video de demostración para ver a Macy en acción, donde habla brevemente de dos medicamentos comúnmente prescritos.
El resultado es bastante impresionante y solo mejorará con el tiempo, dada la velocidad a la que está mejorando la IA generativa. Para crear esta demostración, me tomó 0 dólares y solo 25 minutos.
Aquí están las herramientas que utilicé:
- Midjourney para generar una imagen de una farmacéutica
- Chatgpt de Openai para generar script para NewsHeadLines
- Elevenlabs 's Prime Video AI para generar audio desde el script de chatgpt
- Creative Reality Studio de D-ID para generar video de avatar animado realista sincronizado con audio (prueba gratuita)
Guía paso a paso
(1) Midjourney - Generación de imágenes
- Necesitamos una cara para representar a nuestro avatar, y podemos usar herramientas de generación de imágenes como MidJourney para hacer exactamente eso
- MidJourney es un servicio de IA gratuito de OpenAI que crea imágenes de descripciones textuales
- Configuración:
- MidJourney funciona completamente en Discord, así que asegúrese de registrarse en una cuenta de Discord (que es gratuita).
- Visite este enlace del sitio de MidJourney, que lo lleva automáticamente a una invitación de Discord.
- Acepte la invitación de Discord a MidJourney. Elija continuar discordamente.
- Haga clic en el botón MidJourney (con el icono del barco) y seleccione cualquiera de las habitaciones de los recién llegados, por ejemplo,
newbies-24 - En la línea de chat, escriba
/imagine seguido de su mensaje de descripción. Por ejemplo, el aviso que utilicé fue "foto profesional de alta calidad de la parte superior del cuerpo de una reportera de noticias de medios femeninos con un abrigo rojo con antecedentes de redacción". Presione ENTER después de escribirlo y dale a Midjourney algo de tiempo para generar las imágenes. - Una vez hecho esto, verá una salida de cuatro imágenes. Debajo del conjunto de imágenes, verá un conjunto de botones U1-U4 y V1-V4.
- Las cuatro imágenes están numeradas en sentido horario desde la esquina superior izquierda. Para obtener una nueva variación de uno que desee, seleccione "V1" (o V2, V3 o V4), y para obtener una copia de alta resolución, seleccione "U1" (o U2, U3 o U4).
- Una vez que haya obtenido su variante seleccionada de alta resolución seleccionando uno de los botones U, haga clic en la imagen y seleccione 'Abrir en el navegador'. Luego puede guardar la imagen de alta resolución en su máquina local
(2) Chatgpt de juegos - Generación de texto
- Dado que todos los que usan ChatGPT, se hizo un poco lento en estos días y no todos los interesados en pagar dinero para que podamos usar ChatGptPlayground para realizar nuestra tarea muy rápidamente. Necesitamos un guión de titulares de noticias que pueda proporcionar noticias. Para hacer eso, podemos usar chatgptplayground.
- ChatGPT es un chatbot desarrollado por OpenAI y se lanzó en noviembre de 2022. Está construido sobre la familia GPT-3 de modelos de idiomas grandes de Openai.
- Configuración:
- Visite este enlace para acceder a chatgpt (deberá iniciar sesión en consecuencia)
- En la sección de solicitud, ingrese la descripción relevante para el script de asesoramiento. Por ejemplo, el aviso que utilicé es el siguiente: "Cree un guión que primero se presente como un lector de noticias llamado Keezum, y luego habla sobre los titulares de las noticias con puntos en el inicio y le da información a noticias con el límite de dos a tres líneas máximas".
- Desde la salida de la pantalla ChatGPT, copie y guarde el texto generado en un archivo de texto en su máquina local.
(3) ElevenLabs-Generación de texto a voz
- A continuación, queremos convertir el texto del script ChatGPT en un clip de audio de sonido natural. Podemos hacerlo con herramientas gratuitas como Prime Voice Ai (de Elevenlabs)
- Prime Voice AI es un software de habla AI realista y versátil que brinda las voces más convincentes, ricas y realistas a los creadores y editores que buscan las herramientas finales para la narración de historias.
- Configuración:
- Visite la página ElevenLabs y cree una cuenta gratis.
- En la página de síntesis de discurso, seleccione una voz específica en la configuración, pegue el script de texto en la sección de texto y haga clic en Generar. La voz que elegí fue
premade/Domi ya que me pareció la más animada y natural. La configuración también se puede ajustar en consecuencia para cosas como la estabilidad y la claridad. - Acorté el guión ligeramente quitando la sección sobre la droga de amlodipino porque no quería que la demostración fuera demasiado larga.
- Hay un límite de crédito para la cuenta gratuita, así que asegúrese de usarlos sabiamente para el audio que desea generar.
- Descargue y guarde el archivo .mp3 (titulado 'Synthesized_audio.mp3') en su máquina local.
(4) D -ID - Generación de Avatar de Talking PhotoreRealistic (y sincronización de audio)
- Por último, es hora de reunir la imagen farmacéutica y aconsejar audio en un video fotorrealista. Para hacerlo, podemos usar herramientas como D-ID.
- La tecnología AI creativa de D-ID toma imágenes de caras y las convierte en videos fotorrealistas de alta calidad. Con un clic de un botón, puede combinar imágenes con audio o texto para darles expresión y discurso.
- Configuración:
- Visite el sitio web de D-ID y cree una cuenta de prueba gratuita
- Seleccione el botón Crear video para comenzar a crear un nuevo video
- Agregue su imagen farmacéutica de Midjourney como imagen presentadora
- Sube nuestro audio con guión de chatgpt en la sección
Upload your own voice a la derecha. - ¡Haga clic en el botón
Generate Video en la parte superior derecha y espere a que su obra maestra esté lista para descargar!
Dependencias
Este proyecto requiere las siguientes dependencias:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
Trabajo futuro
Planeamos continuar refinando y mejorando este proyecto integrando herramientas de IA más generativas y ampliando la funcionalidad del avatar de lector de noticias. También damos la bienvenida a cualquier contribución o sugerencia de la comunidad. Expresiones de gratitud
Nos gustaría agradecer a los desarrolladores e investigadores de MidJourney, OpenAI, Elevenlabs y D-ID por sus excelentes herramientas generativas de IA, que hicieron posible este proyecto.
Licencia
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles.