Como será a inteligência artificial (IA) no futuro? Imagine que eles podem compreender e executar tarefas complexas com apenas um simples comando; eles também podem capturar visualmente as expressões e movimentos do usuário para determinar seu estado emocional. Esta não é mais uma cena de um filme de ficção científica de Hollywood, mas uma “IA multimodal” que está gradualmente entrando na realidade.
De acordo com um relatório recente do site "Forbes" dos EUA, gigantes como Metaverse Platform Company, OpenAI e Google lançaram seus próprios sistemas de IA multimodais e não estão poupando esforços para aumentar o investimento em pesquisa e desenvolvimento de tais sistemas e se esforçam para melhorar vários modelos para melhorar a precisão da saída de conteúdo dinâmico, melhorando assim a experiência interativa entre IA e usuários.
A IA multimodal marca uma mudança de paradigma. Mudará profundamente a face de muitas indústrias e remodelará o mundo digital.
Dando capacidades “multissensoriais” à IA
Como os humanos entendem o mundo? Contamos com múltiplos sentidos, como visão, audição e tato, para receber informações de inúmeras fontes. O cérebro humano integra esses padrões de dados complexos para desenhar uma “imagem” vívida da realidade.
O site oficial da IBM define IA multimodal da seguinte forma: ela pode integrar e processar modelos de aprendizado de máquina de múltiplas modalidades (tipos de dados), incluindo entrada na forma de texto, imagens, áudio, vídeo, etc. É como dar à IA todo um conjunto de sentidos para que ela possa perceber e compreender as informações de entrada de vários ângulos.
Esta capacidade de compreender e criar informações através de diferentes modalidades ultrapassou a anterior IA monomodal, que se concentrava na integração e no processamento de fontes de dados específicas, e conquistou o favor dos principais gigantes da tecnologia.
Na Conferência de Comunicações Móveis deste ano, a Qualcomm implantou pela primeira vez o grande modelo multimodal que desenvolveu em um telefone Android. Quer os usuários insiram fotos, voz ou outras informações, eles podem se comunicar facilmente com o assistente de IA. Por exemplo, os usuários podem tirar uma foto de um alimento e perguntar ao assistente de IA: Quais são esses ingredientes? Que pratos podem ser feitos? Quantas calorias tem cada prato? O assistente de IA pode dar respostas detalhadas com base nas informações da foto.
Em maio deste ano, a OpenAI lançou o modelo multimodal GPT-4o, que suporta entrada e saída de qualquer combinação de texto, áudio e imagens. Posteriormente, o Google também lançou seu mais recente produto de IA multimodal Gemini 1.5 Pro no dia seguinte.
Em 25 de setembro, a Metaverse Platform Company lançou seu mais recente modelo de linguagem grande de código aberto, Llama 3.2. O CEO da empresa, Mark Zuckerberg, disse no discurso de abertura que este é o primeiro modelo multimodal de código aberto da empresa que pode processar texto e dados visuais simultaneamente, marcando o progresso significativo da IA na compreensão de cenários de aplicativos mais complexos.
Promovendo silenciosamente mudanças em vários campos
A IA multimodal está silenciosamente mudando a face de muitos campos.
No campo da saúde, o "Watson Health" da IBM está analisando exaustivamente os dados de imagem dos pacientes, textos de registros médicos e dados genéticos para ajudar os médicos a diagnosticar doenças com mais precisão e apoiar fortemente os médicos na formulação de planos de tratamento personalizados para os pacientes.
As indústrias criativas também estão passando por uma transformação. Especialistas em marketing digital e cineastas estão aproveitando essa tecnologia para criar conteúdo personalizado. Imagine só, com apenas um simples prompt ou conceito, um sistema de IA pode escrever um roteiro convincente, gerar um storyboard (uma série de ilustrações organizadas juntas para formar uma história visual), criar uma trilha sonora e até mesmo produzir cortes preliminares de cena.
O domínio da educação e da formação também está a evoluir no sentido da aprendizagem personalizada com a ajuda da IA multimodal. A plataforma de aprendizagem adaptativa desenvolvida pela Newton Company nos Estados Unidos pode usar IA multimodal para analisar profundamente os comportamentos, expressões e vozes de aprendizagem dos alunos, e ajustar o conteúdo e a dificuldade do ensino em tempo real. Dados experimentais mostram que este método pode melhorar a eficiência de aprendizagem dos alunos em 40%.
O atendimento ao cliente também é uma das aplicações interessantes dos sistemas multimodais de IA. Os chatbots não só podem responder a perguntas de texto, como também podem compreender o tom de voz de um cliente, analisar as suas expressões faciais e responder com linguagem e sinais visuais apropriados. Esta comunicação mais humana promete revolucionar a forma como as empresas interagem com os clientes.
Desafios de ética tecnológica ainda precisam ser superados
No entanto, o desenvolvimento da IA multimodal também enfrenta muitos desafios.
Henry Idel, fundador da empresa de consultoria de IA Hidden Space, disse que o poder da IA multimodal reside na sua capacidade de integrar vários tipos de dados. No entanto, como integrar eficazmente estes dados ainda é um problema técnico.
Além disso, os modelos de IA multimodais muitas vezes consomem uma grande quantidade de recursos computacionais durante a operação, o que sem dúvida aumenta os custos de aplicação.
Mais notavelmente, os dados multimodais contêm mais informações pessoais. Quando os sistemas multimodais de IA conseguem identificar facilmente rostos, vozes e até estados emocionais, como garantir que a privacidade pessoal é respeitada e protegida? E como podem ser tomadas medidas eficazes para evitar que sejam utilizados para criar “deepfakes” ou outros conteúdos enganosos? Todas essas são questões que valem a pena ponderar.