Quando aparecerão os superaplicativos? Esta pode ser a ansiedade mais comum na indústria de IA no ano passado.
É fácil para as pessoas compararem a inteligência artificial com a Internet do PC ou a Internet móvel. Alguns anos após o surgimento de ambas, elas têm superaplicativos populares. No entanto, a inteligência artificial é uma onda tecnológica de nível de revolução industrial. O tempo de surgimento das superaplicações da inteligência artificial é mais comparável ao tempo de surgimento das superaplicações após o surgimento das máquinas a vapor e da eletricidade.
Em 1776, a primeira máquina a vapor com valor prático foi fabricada e tornou-se um motor principal universal, levando a sociedade humana à "era do vapor". Somente em 1800 as máquinas a vapor foram amplamente utilizadas em ferrovias e na navegação. setores. A segunda lei da termodinâmica apareceu quase 100 anos depois; a revolução elétrica também foi um processo evolutivo. A invenção da energia elétrica deu início ao clímax da segunda revolução industrial. . Um novo formato de negócios que evoluiu gradualmente ao longo das décadas.
Portanto, com certeza aparecerão superaplicativos na era da inteligência artificial, mas a hora ainda não chegou. No ano passado, a indústria de IA tem buscado as chamadas "superaplicações", que parecem estar um pouco ansiosas por um sucesso rápido.
Como tecnologia básica, os modelos grandes não produzem valor prático diretamente. As diversas aplicações construídas com base no grande modelo básico são o significado da existência do modelo. Para desenvolvedores e empreendedores de aplicativos de IA, a melhor estratégia obviamente não é se limitar a AGI ou “superaplicativos”, mas dar pequenos passos e continuar a iterar para criar aplicativos superúteis.
Recentemente, na Conferência Mundial Baidu de 2024, o Baidu anunciou os dados mais recentes para seu Wenxin Big Model: há meio ano, as chamadas diárias de API do Wenxin Big Model eram de 200 milhões, e agora ultrapassa 1,5 bilhão, um aumento de 7,5 vezes em apenas seis meses. Isto não é apenas um microcosmo da explosão de aplicações de IA na China, mas também mostra que grandes modelos produziram verdadeiramente valor prático para as aplicações.
Por muito tempo, foi difícil vender grandes modelos domésticos para outras indústrias. Um membro da indústria disse certa vez a 36Kr: “Seja hardware inteligente ou agentes de IA, a demanda na indústria é muito forte, mas poucas pessoas estão realmente dispostas. . Pague a conta porque a grande geração modelo é muito pobre e há ilusões por toda parte”. Limitada pelo desenvolvimento de capacidades multimodais, a experiência inicial do utilizador da inteligência artificial generativa está mais próxima da de um simples bot conversacional. Inicialmente, os utilizadores têm necessidade de adoptantes iniciais, mas devido à experiência medíocre, a retenção é fraca.
No ano passado, a maior mudança nos grandes modelos é que a “ilusão” foi basicamente eliminada e os modelos tornaram-se utilizáveis. O modelo grande é essencialmente um modelo probabilístico Na geração de texto, o próximo texto mais provável é gerado automaticamente, o que faz com que a IA experimente frequentemente "alucinações", o que é o chamado "absurdo sério".
Se você deseja desenvolver aplicações baseadas em modelos grandes, deve eliminar “ilusões”. A indústria de IA geralmente usa tecnologia de aprimoramento de recuperação (RAG, Retrieval-augmented Generation) para basicamente eliminar a ilusão de texto gerado por modelos grandes, fazendo com que modelos grandes tenham valor prático. Para ser prática, a tecnologia multimodal também precisa de precisão e controlabilidade para expandir o espaço de aplicação de IA.
O Baidu lançou um novo iRAG (RAG baseado em imagem) nesta conferência mundial - tecnologia baseada em imagem aprimorada de recuperação. No início deste ano, o Baidu decidiu resolver o problema da geração multimodal de “ilusões”, para que as imagens de Vincent também possam eliminar ilusões, aterrissando assim nas áreas de obras de cinema e televisão, obras de quadrinhos, histórias em quadrinhos, cartazes produção e outros campos.
Por exemplo, a indústria automobilística depende muito do marketing e muitas vezes requer um grande número de fotografias de alta qualidade. Para produzir uma imagem perfeita, são necessários muitos recursos humanos, financeiros e materiais. Utilizando a tecnologia iRAG, as montadoras podem obter uma fotografia com notável desempenho visual a um custo muito baixo e em menor tempo. Pode até ser mais deslumbrante visualmente.
Atualmente, a rota técnica da inteligência artificial generativa está basicamente dividida em duas escolas. Uma é a escola AGI, que sonha em alcançar a inteligência artificial geral em poucos anos por meio de grandes modelos básicos; das necessidades e usos da aplicação. Aplicar modelos de feedback para inovar.
Com base na pesquisa e desenvolvimento contínuos de modelos subjacentes em grande escala, o Baidu dá mais ênfase ao desenvolvimento orientado a aplicativos. Entende-se que o iRAG é usado porque os aplicativos precisam gerar imagens precisas. Por exemplo, o logotipo de uma empresa não pode ser deformado ou distorcido em cores, o que requer recursos multimodais precisos. Depois de quase um ano de trabalho árduo, esta tecnologia tornou-se prática. O progresso da aplicação também pode contribuir para a pesquisa e o desenvolvimento do próprio modelo.
Depois de dois anos, a IA generativa está num período crítico de mudança de marcha. 36Kr divulgou anteriormente que duas startups nacionais de IA suspenderam o pré-treinamento de grandes modelos. Nos últimos dois dias, o debate da indústria sobre se a Lei de Escala atingiu "retornos decrescentes sobre o investimento" se intensificou.
Na verdade, à escala global, as mudanças já começaram. Gigantes globais da tecnologia como OpenAI, Microsoft e Google renunciaram sucessivamente e implantaram agentes inteligentes. Em meados de setembro, o pesquisador da OpenAI, Noam Brown, anunciou nas redes sociais que estava recrutando engenheiros de aprendizado de máquina para a nova equipe de pesquisa multiagente. O CEO e presidente da Microsoft, Nadella, anunciou pessoalmente o novo progresso de sua própria IA, lançou 10 novos agentes de inteligência de negócios de uma só vez e formou um grupo para estrear. Quase ao mesmo tempo, houve notícias de que o Google também lançaria um agente inteligente. Em breve, o Google "acidentalmente" vazou uma "versão de visualização interna" do último resultado do desenvolvimento de IA, Jarvis, que é uma inteligência artificial do tipo agente que pode. navegue na Internet e pesquise inteligência de informação de forma independente.
O Baidu está liderando a tendência de agentes inteligentes na China. Neste evento da Conferência Mundial do Baidu, o agente inteligente tornou-se o protagonista. O Baidu se concentra em quatro tipos de agentes: tipo de empresa, tipo de função, tipo de ferramenta e tipo de setor.
Por exemplo, o agente semelhante a uma ferramenta "Free Canvas": baseado no acúmulo de longo prazo de negócios de bibliotecas do Baidu nos primeiros anos e sobreposto à tecnologia de inteligência artificial generativa, ele alcançou um grande salto na criação.
Nos primeiros anos, a necessidade das pessoas em usar bibliotecas era encontrar documentos prontos. No entanto, quando surgiu a tecnologia de inteligência artificial generativa, o Baidu descobriu que a necessidade mais fundamental das pessoas não é encontrar um documento pronto, mas criar conteúdo que seja mais adequado para elas.
Para atender a essas necessidades, o Baidu começou a pensar em como permitir que as pessoas criassem melhor com base em documentos prontos ou sem base material. Seguindo esse caminho, a primeira biblioteca do Baidu foi reconstruída. Mais tarde, o Baidu lançou um produto independente, Orange Pian, que pode gerar artigos longos com um clique. O nascimento do Free Canvas também se baseia nessa lógica, permitindo que as pessoas “comuniquem suas ideias” de maneira mais conveniente. para expressar seus pensamentos íntimos de forma mais conveniente e precisa.
Robin Li, fundador do Baidu, acredita que “os agentes são a forma mais popular de aplicações de IA e estão prestes a inaugurar seu ponto de explosão”. A analogia de criar agentes é construir um site na era do PC ou construir uma mídia própria. conta na era móvel. A diferença é que o agente é mais humano, mais inteligente e mais parecido com suas vendas, atendimento ao cliente e assistente. Os agentes podem se tornar os novos portadores de conteúdo, informações e serviços na era nativa da IA.
O CEO da OpenAI, Sam Altman, também expressou a possibilidade de recorrer a desenvolvedores de agentes de IA ao responder a uma pergunta no Reddit no mês passado. “Teremos modelos cada vez melhores, mas acho que o próximo grande avanço serão os agentes de IA.” Jen-Hsun Huang da NVIDIA também disse que a NVIDIA terá 100 milhões de agentes inteligentes no futuro.
A característica de um agente inteligente é que o limite é baixo o suficiente e o teto é alto o suficiente, e ele pode se tornar uma empresa muito poderosa. Assim como o Google e o Meta, que foram fundados por estudantes universitários há muitos anos, eles se tornaram. os gigantes da tecnologia mais poderosos do mundo. Até certo ponto, não construir um agente inteligente agora é como não construir um site há vinte anos ou um APP há dez anos.
Existem poucas empresas chinesas que desempenharam um papel tão importante nos nós de talentos, recursos e tecnologia do desenvolvimento global da inteligência artificial como o Baidu. Por trás disso, é inseparável da crença e persistência do fundador na IA. Na indústria, Robin Li tem um ditado clássico: "Quando eu tiver 1 yuan, investirei em tecnologia; quando tiver 100 milhões, investirei em tecnologia; quando tiver 10 bilhões, ainda investirei em tecnologia". .

O trabalho de IA do Baidu remonta ao famoso leilão de mais de dez anos atrás. Um dia, em dezembro de 2012, um leilão secreto foi realizado no sopé de uma montanha de esqui ao sul do Lago Tahoe, em Nevada, EUA. Os ativos leiloados eram na verdade “três pessoas” – o professor Geoffrey E. Hinton, o “padrinho da IA” e dois de seus alunos.
Representantes do Baidu, Google, Microsoft e DeepMind aumentaram frequentemente as suas propostas, e a oferta subiu para 44 milhões de dólares. Neste ponto, apenas o Baidu e o Google permaneceram entre os participantes. Embora o Baidu tenha participado do leilão sem limite máximo, ele acabou não tendo sucesso.
Isso também fez com que Robin Li percebesse que ele deveria desenvolver aprendizado profundo, direção autônoma e outras tecnologias por conta própria. Depois disso, ele fundou o Baidu America Research Institute e começou a recrutar vigorosamente talentos globais. Desde então, atraiu talentos com sucesso, incluindo Ng Enda. , Dario Amodei, etc. Os maiores talentos de todo o mundo participam.
Nos dez anos seguintes, o Baidu iniciou seu período de autopesquisa full-stack em tecnologia de inteligência artificial, desde chips, estruturas, modelos até camadas de aplicativos, derrotando-os um por um. O Baidu lançou sucessivamente a plataforma aberta de direção autônoma Apollo, abriu o código-fonte da estrutura de aprendizado profundo PaddlePaddle e até lançou a versão 1.0 do grande modelo Wenxin no início de 2019.
No entanto, até o nascimento do ChatGPT, a aplicação da tecnologia de IA não havia encontrado um ponto de inflexão. Ela era considerada pela indústria como um poço sem fundo de dinheiro e sua aplicação prática ainda estava longe.
A persistência sempre compensa. A reversão ocorreu em março de 2023. Baseado na versão 3.0 do modelo grande Wenxin, o Baidu foi o primeiro no mundo a lançar um produto que comparava o ChatGPT, o Wenxin Yiyan. Neste ponto, dez anos de investimento silencioso finalmente valeram a pena.
A partir do segundo semestre de 2023, ao mesmo tempo que assegurava que o modelo básico continuasse a liderar, o Baidu de repente percebeu que a competição homogênea de grandes modelos causou um enorme desperdício de recursos. Robin Li apelou publicamente muitas vezes para "revolucionar aplicativos, não". modelos." , e solicitou dentro da empresa para ser a primeira empresa a reconstruir todos os produtos usando modelos grandes. Na Conferência Mundial de 2023, o Baidu mostrou ao mundo exterior os resultados da reconstrução de aplicações importantes, como pesquisa, mapas e discos de rede. Na Conferência Mundial deste ano, o tema do Baidu foi definido diretamente como "Aplicativos estão chegando", permitindo que o mundo exterior o faça. veja o modelo em grande escala em O enorme valor criado nas áreas de corpos inteligentes, aplicações industriais e outras áreas.
Olhando para o passado, não é difícil ver que o Baidu fez as escolhas certas em todos os nós importantes do desenvolvimento da inteligência artificial global na última década. Num futuro a longo prazo, Robin Li espera que a IA possa realmente ser usada por todas as pessoas comuns, para que todos possam ter a capacidade de um programador.
Na Conferência Mundial do Baidu, Robin Li também lançou One More Thing - Miaida, um software sem programação de código, colaboração multiagente e invocação de múltiplas ferramentas.
Miaida é muito diferente de qualquer ferramenta auxiliar de geração de código anterior, pois não exige que os usuários entendam o código. Em contraste, as ferramentas anteriores de IA, como ferramentas de produtividade, visavam mais o fortalecimento das capacidades das elites no topo da pirâmide. Por exemplo, no Vale do Silício, a geração de código auxiliar é muito importante porque há uma escassez de engenheiros nos Estados Unidos. e os salários por hora dos engenheiros também são muito caros. Ferramentas auxiliares. Podem melhorar a eficiência e tornar mais poderosos os que estão no topo da pirâmide.
Mas a IA deve ser algo de que todos possam beneficiar, em vez de ser uma patente utilizada por poucos.
À medida que as capacidades dos modelos e agentes básicos melhoram gradualmente, o Baidu integra essas capacidades técnicas para permitir que pessoas comuns reais, que não conseguem entender uma linha de código, tenham as capacidades de programadores.
Imagine só, quando centenas de milhões ou mais de um bilhão de pessoas tiverem essa capacidade, isso corresponderá a um enorme espaço de mercado, especialmente a explosão de criatividade, que não é igualada por tecnologias como ferramentas auxiliares de geração de código. O Baidu espera que cada pessoa comum possa ter as habilidades daqueles que estão no topo da pirâmide, e seu significado é naturalmente mais profundo.
Robin Li disse durante a conferência: "O Baidu não vai lançar um 'superaplicativo', mas continuará a ajudar mais pessoas e mais empresas a criar milhões de aplicativos 'superúteis'."
Imagine que na era da IA, mais e mais pessoas podem aprender a criar novos produtos e serviços e usar a programação em linguagem natural, uma ação criativa e de baixo limiar, para concretizar algumas ideias malucas e criar incontáveis produtos valiosos. esta é a verdadeira inclusão da tecnologia.