Lecteur de journal génératif-ai
Vous présentant, Keezum AI NewsReader !
Bienvenue dans le référentiel AI NewsReader! Ce projet est une démonstration de la façon dont les outils d'IA génératrices peuvent être utilisés ensemble pour créer un avatar de lecteur de presse sophistiqué et dynamique.
️ Avertissement: je plaisante, n'hésitez pas à l'utiliser selon votre confort.
Visitez ce lien pour regarder la vidéo de démonstration pour voir Macy en action, où elle parle brièvement de deux médicaments couramment prescrits.
Le résultat est assez impressionnant et ne fera que s'améliorer avec le temps, étant donné la vitesse à laquelle l'IA génératrice s'améliore. Pour créer cette démo, il m'a fallu 0 dollars et seulement 25 minutes.
Voici les outils que j'ai utilisés:
- MidJourney pour générer une image d'une pharmacienne
- Openai Chatgpt pour générer un script pour Newsheadlines
- ElevenLabs Prime Video IA pour générer l'audio à partir du script Chatgpt
- D-ID Creative Reality Studio pour générer une vidéo d'avatar animée réaliste synchronisée avec l'audio (essai gratuit)
Guide étape par étape
(1) MidJourney - Génération d'images
- Nous avons besoin d'un visage pour représenter notre avatar, et nous pouvons utiliser des outils de génération d'images comme MidJourney pour faire exactement cela
- MidJourney est un service d'IA gratuit d'OpenAI qui crée des images à partir de descriptions textuelles
- Installation:
- MidJourney fonctionne entièrement sur Discord, alors assurez-vous de vous inscrire à un compte Discord (qui est gratuit).
- Visitez ce lien du site MidJourney, qui vous emmène automatiquement à une invitation Discord.
- Acceptez l'invitation Discord à MidJourney. Choisissez de continuer à Discord.
- Cliquez sur le bouton MidJourney (avec l'icône du navire) et sélectionnez l'une des nouvelles salles, par exemple,
newbies-24 - Dans la ligne de chat, tapez
/imagine suivi de votre invite de description. Par exemple, l'invite que j'ai utilisée était "une photo professionnelle du haut du corps de haute qualité d'un journaliste de l'information des médias dans un manteau rouge avec une salle de rédaction". Appuyez sur Entrée après l'avoir tapé et donnez à MidJourney un peu de temps pour générer les images. - Une fois terminé, vous verrez une sortie de quatre images. En dessous de l'ensemble d'images, vous verrez un ensemble de boutons U1-U4 et V1-V4.
- Les quatre images sont numérotées dans le sens des aiguilles d'une montre depuis le haut à gauche. Pour obtenir une nouvelle variation sur celle que vous aimez, sélectionnez "V1" (ou V2, V3 ou V4), et pour obtenir une copie haute résolution, sélectionnez "U1" (ou U2, U3 ou U4).
- Une fois que vous avez obtenu votre variante haute résolution sélectionnée en sélectionnant l'un des boutons U, cliquez sur l'image et sélectionnez «Ouvrir dans le navigateur». Vous pouvez ensuite enregistrer l'image haute résolution sur votre machine locale
(2) Playground Chatgpt - Génération de texte
- Étant donné que tout le monde utilise Chatgpt, il est devenu un peu lent ces jours-ci et que tout le monde ne soit pas intéressé à payer de l'argent afin que nous puissions utiliser ChatGptPlayground pour effectuer notre tâche très rapidement. Nous avons besoin d'un script de nouvelles qui peut fournir des nouvelles. Pour ce faire, nous pouvons utiliser ChatGptPlayground.
- Chatgpt est un chatbot développé par Openai et lancé en novembre 2022. Il est construit au-dessus de la famille GPT-3 d'Openai de modèles de grande langue.
- Installation:
- Visitez ce lien pour accéder à Chatgpt (vous devrez vous connecter en conséquence)
- Dans la section invite, entrez la description pertinente du script de conseil. Par exemple, l'invite que j'ai utilisée est la suivante: "Créez un script qui se présente d'abord comme un lecteur de journaux appelé Keezum, puis parle des titres des nouvelles avec des points de départ et donnez des informations sur la limite de deux à trois lignes max".
- À partir de la sortie sur l'écran ChatGPT, copiez et enregistrez le texte généré dans un fichier texte sur votre machine locale.
(3) Elevenlabs - Génération de texte à dispection
- Ensuite, nous voulons convertir le texte du script Chatgpt en un clip audio naturel. Nous pouvons le faire avec des outils gratuits comme Prime Voice AI (par ElevenLabs)
- Prime Voice AI est un logiciel de discours d'IA réaliste et polyvalent qui apporte les voix les plus convaincantes, les plus riches et les plus réalistes aux créateurs et aux éditeurs qui recherchent les outils ultimes pour la narration.
- Installation:
- Visitez la page ElevenLabs et créez un compte gratuitement.
- Sur la page de synthèse de la parole, sélectionnez une voix spécifique dans les paramètres, collez le script texte dans la section texte et cliquez sur Générer. La voix que j'ai choisie était
premade/Domi car je l'ai trouvé la plus vivante et la plus naturelle. Les paramètres peuvent également être ajustés en conséquence pour des choses comme la stabilité et la clarté. - J'ai légèrement raccourci le script en supprimant la section sur l'amlodipine médicamenteuse parce que je ne voulais pas que la démo soit trop longue.
- Il y a une limite de crédit pour le compte gratuit, alors assurez-vous de les utiliser judicieusement pour l'audio que vous souhaitez générer.
- Téléchargez et enregistrez le fichier .mp3 (intitulé 'synthétisé_audio.mp3') sur votre machine locale.
(4) D-ID - génération d'avatar parlant photoréaliste (et synchronisation audio)
- Enfin, il est temps de reconstituer l'image du pharmacien et de conseiller l'audio dans une vidéo photoréaliste. Pour ce faire, nous pouvons utiliser des outils comme D-ID.
- La technologie créative de l'ID de D-ID prend des images de visages et les transforme en vidéos photoréalistes de haute qualité. Au clic sur un bouton, il peut combiner des images avec l'audio ou le texte pour leur donner l'expression et la parole.
- Installation:
- Visitez le site Web D-ID et créez un compte d'essai gratuit
- Sélectionnez le bouton Créer une vidéo pour commencer à créer une nouvelle vidéo
- Ajoutez votre image de pharmacien MidJourney comme image de présentateur
- Téléchargez notre audio scripté ChatGPT dans la section
Upload your own voice à droite. - Cliquez sur le bouton
Generate Video en haut à droite et attendez que votre chef-d'œuvre soit prêt à télécharger!
Dépendances
Ce projet nécessite les dépendances suivantes:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
Travail futur
Nous prévoyons de continuer à affiner et à améliorer ce projet en intégrant des outils d'IA plus génératifs et en élargissant les fonctionnalités de l'Avatar NewsReader. Nous accueillons également toutes les contributions ou suggestions de la communauté. Remerciements
Nous tenons à remercier les développeurs et les chercheurs de MidJourney, Openai, ElevenLabs et D-ID pour leurs excellents outils d'IA génératifs, ce qui a rendu ce projet possible.
Licence
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails.