À quoi ressemblera l’intelligence artificielle (IA) de demain ? Imaginez qu'ils puissent comprendre et effectuer des tâches complexes avec une simple commande ; ils peuvent également capturer visuellement les expressions et les mouvements de l'utilisateur pour déterminer son état émotionnel. Il ne s’agit plus d’une scène d’un film de science-fiction hollywoodien, mais d’une « IA multimodale » qui entre progressivement dans la réalité.
Selon un récent rapport du site Web américain « Forbes », des géants tels que Metaverse Platform Company, OpenAI et Google ont tous lancé leurs propres systèmes d'IA multimodaux et n'épargnent aucun effort pour accroître les investissements dans la recherche et le développement de tels systèmes et s'efforcent pour améliorer divers modèles pour améliorer la précision de la sortie de contenu dynamique, améliorant ainsi l'expérience interactive entre l'IA et les utilisateurs.
L’IA multimodale marque un changement de paradigme. Cela changera profondément le visage de nombreuses industries et remodèlera le monde numérique.
Donner à l’IA des capacités « multisensorielles »
Comment les humains comprennent-ils le monde ? Nous comptons sur plusieurs sens tels que la vue, l’ouïe et le toucher pour recevoir des informations provenant d’innombrables sources. Le cerveau humain intègre ces modèles de données complexes pour dessiner une « image » vivante de la réalité.
Le site officiel d'IBM définit l'IA multimodale comme suit : elle peut intégrer et traiter des modèles d'apprentissage automatique à partir de plusieurs modalités (types de données), y compris des entrées sous forme de texte, d'images, d'audio, de vidéo, etc. C’est comme donner à l’IA tout un ensemble de sens afin qu’elle puisse percevoir et comprendre les informations saisies sous plusieurs angles.
Cette capacité à comprendre et à créer des informations selon différentes modalités a surpassé la précédente IA monomodale axée sur l’intégration et le traitement de sources de données spécifiques, et a gagné la faveur des grands géants de la technologie.
Lors de la Mobile Communications Conference de cette année, Qualcomm a déployé pour la première fois le grand modèle multimodal qu'il a développé sur un téléphone Android. Que les utilisateurs saisissent des photos, de la voix ou d'autres informations, ils peuvent communiquer en douceur avec l'assistant IA. Par exemple, les utilisateurs peuvent prendre une photo d'un aliment et demander à l'assistant IA : Quels sont ces ingrédients ? Quels plats peut-on réaliser ? Combien de calories y a-t-il dans chaque plat ? L'assistant IA peut donner des réponses détaillées basées sur les informations de la photo.
En mai de cette année, OpenAI a publié le modèle multimodal GPT-4o, qui prend en charge l'entrée et la sortie de toute combinaison de texte, d'audio et d'images. Par la suite, Google a également lancé le lendemain son dernier produit d’IA multimodale Gemini 1.5 Pro.
Le 25 septembre, Metaverse Platform Company a publié son dernier modèle de grand langage open source Llama 3.2. Le PDG de la société, Mark Zuckerberg, a déclaré dans le discours d'ouverture qu'il s'agissait du premier modèle multimodal open source de la société capable de traiter simultanément des données textuelles et visuelles, marquant ainsi un progrès significatif de l'IA dans la compréhension de scénarios d'application plus complexes.
Promouvoir tranquillement les changements dans divers domaines
L’IA multimodale change discrètement le visage de nombreux domaines.
Dans le domaine des soins de santé, « Watson Health » d'IBM analyse de manière approfondie les données d'imagerie des patients, les textes des dossiers médicaux et les données génétiques pour aider les médecins à diagnostiquer les maladies avec plus de précision et les soutient fortement dans la formulation de plans de traitement personnalisés pour les patients.
Les industries créatives subissent également une transformation. Les experts en marketing numérique et les cinéastes exploitent cette technologie pour créer du contenu personnalisé. Imaginez simplement qu'avec une simple invite ou un simple concept, un système d'IA puisse écrire un script convaincant, générer un storyboard (une série d'illustrations disposées ensemble pour former une histoire visuelle), créer une bande sonore et même produire des coupes de scène préliminaires.
Le domaine de l’éducation et de la formation évolue également vers un apprentissage personnalisé grâce à l’IA multimodale. La plateforme d'apprentissage adaptatif développée par Newton Company aux États-Unis peut utiliser l'IA multimodale pour analyser en profondeur les comportements d'apprentissage, les expressions et les voix des élèves, et ajuster le contenu et les difficultés pédagogiques en temps réel. Les données expérimentales montrent que cette méthode peut améliorer l'efficacité de l'apprentissage des étudiants de 40 %.
Le service client est également l’une des applications passionnantes des systèmes d’IA multimodaux. Non seulement les chatbots peuvent répondre aux requêtes textuelles, mais ils peuvent également comprendre le ton de la voix d'un client, analyser ses expressions faciales et répondre avec un langage et des indices visuels appropriés. Cette communication plus humaine promet de révolutionner la façon dont les entreprises interagissent avec les clients.
Les défis de l’éthique technologique doivent encore être surmontés
Cependant, le développement de l’IA multimodale se heurte également à de nombreux défis.
Henry Idel, fondateur de la société de conseil en IA Hidden Space, a déclaré que la puissance de l'IA multimodale réside dans sa capacité à intégrer plusieurs types de données. Cependant, la manière d’intégrer efficacement ces données reste un problème technique.
De plus, les modèles d’IA multimodaux consomment souvent une grande quantité de ressources informatiques pendant leur fonctionnement, ce qui augmente sans aucun doute leurs coûts d’application.
Plus particulièrement, les données multimodales contiennent davantage d’informations personnelles. Alors que les systèmes d’IA multimodaux peuvent facilement identifier les visages, les voix et même les états émotionnels, comment garantir que la vie privée est respectée et protégée ? Et comment prendre des mesures efficaces pour empêcher qu’ils soient utilisés pour créer des « deepfakes » ou d’autres contenus trompeurs ? Ce sont toutes des questions qui méritent réflexion.