¿Cuándo aparecerán las súper aplicaciones? Esta puede ser la ansiedad más común en la industria de la IA durante el último año.
Es fácil para la gente comparar la inteligencia artificial con Internet para PC o Internet móvil. Unos años después de la aparición de ambos, tienen súper aplicaciones populares. Sin embargo, la inteligencia artificial es una ola tecnológica a nivel de revolución industrial. El momento de aparición de las súper aplicaciones de inteligencia artificial es más comparable al momento de aparición de las súper aplicaciones después de la aparición de las máquinas de vapor y la electricidad.
En 1776, se fabricó la primera máquina de vapor con valor práctico y se convirtió en un motor universal, lo que llevó a la sociedad humana a la "era del vapor". No fue hasta el siglo XIX que las máquinas de vapor se utilizaron ampliamente en los ferrocarriles y el transporte marítimo. sectores. La segunda ley de la termodinámica apareció casi 100 años después; la revolución eléctrica también fue un proceso evolutivo. La invención de la energía eléctrica desencadenó el clímax de la segunda revolución industrial. Las centrales eléctricas, la luz eléctrica, las líneas de montaje, etc., aparecieron después de la electricidad. Un nuevo formato de negocio que ha ido evolucionando a lo largo de décadas.
Por lo tanto, definitivamente aparecerán súper aplicaciones en la era de la inteligencia artificial, pero aún no ha llegado el momento. El año pasado, la industria de la IA ha estado buscando las llamadas "súper aplicaciones", que parecen estar un poco ansiosas por lograr un éxito rápido.
Como tecnología básica, los modelos grandes no producen valor práctico directamente. Las diversas aplicaciones creadas en base al modelo grande básico son el significado de la existencia del modelo. Para los desarrolladores y emprendedores de aplicaciones de IA, la mejor estrategia es obviamente no ceñirse a AGI o "súper aplicaciones", sino dar pequeños pasos y continuar iterando para crear aplicaciones súper útiles.
Recientemente, en la Conferencia Mundial Baidu 2024, Baidu anunció los últimos datos de su Wenxin Big Model: hace medio año, las llamadas API diarias de Wenxin Big Model eran 200 millones, y ahora supera los 1.500 millones, un aumento de 7,5 veces en sólo seis meses. Esto no es sólo un microcosmos de la explosión de las aplicaciones de IA en China, sino que también muestra que los modelos grandes realmente han producido valor práctico para las aplicaciones.
Durante mucho tiempo, ha sido difícil vender modelos nacionales grandes a otras industrias. Un experto de la industria dijo una vez a 36Kr: “Ya sea hardware inteligente o agentes de inteligencia artificial, la demanda en la industria es muy fuerte, pero pocas personas están realmente dispuestas. Pagar la cuenta porque la generación de modelos grandes es muy pobre y hay ilusiones por todas partes”. Limitada por el desarrollo de capacidades multimodales, la experiencia inicial del usuario de la inteligencia artificial generativa es más cercana a la de un simple robot conversacional. Inicialmente, los usuarios necesitan usuarios pioneros, pero debido a la experiencia mediocre, la retención es deficiente.
El año pasado, el mayor cambio en los modelos grandes es que la “ilusión” básicamente se eliminó y los modelos se volvieron utilizables. El modelo grande es esencialmente un modelo probabilístico. En la generación de texto, el siguiente texto más probable se genera automáticamente, lo que hace que la IA a menudo experimente "alucinaciones", lo que se conoce como "tonterías graves".
Si quieres desarrollar aplicaciones basadas en modelos grandes, debes eliminar las "ilusiones". La industria de la IA generalmente utiliza tecnología de mejora de la recuperación (RAG, generación aumentada de recuperación) para eliminar básicamente la ilusión de texto generado por modelos grandes, lo que hace que los modelos grandes tengan valor práctico. Para ser práctica, la tecnología multimodal también necesita precisión y controlabilidad para expandir el espacio de aplicaciones de IA.
Baidu lanzó un nuevo iRAG (RAG basado en imágenes) en esta conferencia mundial: tecnología de recuperación mejorada de imágenes. A principios de este año, Baidu decidió resolver el problema de la generación multimodal de "ilusiones", de modo que las imágenes de Vincent también puedan eliminar las ilusiones, aterrizando así en los campos de las obras de cine y televisión, obras de cómic, libros de historietas y carteles. producción y otros campos.
Por ejemplo, la industria del automóvil depende en gran medida del marketing y, a menudo, requiere una gran cantidad de fotografías de alta calidad. Para producir una imagen perfecta, se necesitan muchos recursos humanos, financieros y materiales. Utilizando la tecnología iRAG, las empresas automovilísticas pueden obtener una fotografía con un rendimiento visual notable a un coste muy bajo y en un tiempo más rápido. Puede que incluso sea más impresionante visualmente.
En la actualidad, la ruta técnica de la inteligencia artificial generativa se divide básicamente en dos escuelas: una es la escuela AGI, que sueña con lograr inteligencia artificial general a través de grandes modelos básicos y la otra es la escuela impulsada por aplicaciones; desde las necesidades y usos de las aplicaciones Aplicar modelos de retroalimentación para innovar.
Sobre la base de la investigación y el desarrollo continuos de modelos subyacentes a gran escala, Baidu pone más énfasis en el desarrollo impulsado por aplicaciones. Se entiende que iRAG se utiliza porque las aplicaciones necesitan generar imágenes precisas. Por ejemplo, el logotipo de una empresa no puede deformarse ni distorsionarse el color, lo que requiere capacidades multimodales precisas. Después de casi un año de arduo trabajo, esta tecnología se ha vuelto práctica. El progreso de la aplicación también puede retroalimentar la investigación y el desarrollo del propio modelo.
Después de dos años, la IA generativa se encuentra en un período crítico de cambio de marcha. 36Kr reveló anteriormente que dos nuevas empresas nacionales de IA suspendieron el entrenamiento previo de modelos grandes. En los últimos dos días, se ha intensificado el debate de la industria sobre si la Ley de Escalamiento ha alcanzado "rendimientos decrecientes de la inversión".
De hecho, a escala global, los cambios ya han comenzado. Gigantes tecnológicos globales como OpenAI, Microsoft y Google han dimitido sucesivamente y han desplegado agentes inteligentes. A mediados de septiembre, el investigador de OpenAI, Noam Brown, anunció en las redes sociales que estaba reclutando ingenieros de aprendizaje automático para el nuevo equipo de investigación multiagente. El director ejecutivo y presidente de Microsoft, Nadella, anunció personalmente el nuevo progreso de su propia IA, lanzó 10 nuevos agentes de inteligencia empresarial de una sola vez y formó un grupo para debutar. Casi al mismo tiempo, hubo noticias de que Google también iba a lanzar un agente inteligente. Pronto, Google filtró "accidentalmente" una "versión preliminar interna" del último resultado del desarrollo de IA, Jarvis, que es una inteligencia artificial de tipo agente que puede. navegar por Internet y buscar inteligencia de información de forma independiente.
Baidu lidera la tendencia de los agentes inteligentes en China. En este evento de la Conferencia Mundial de Baidu, el agente inteligente se convirtió en protagonista. Baidu se centra en cuatro tipos de agentes: tipo de empresa, tipo de función, tipo de herramienta y tipo de industria.
Por ejemplo, el agente similar a una herramienta "Free Canvas": basado en la acumulación a largo plazo de negocios bibliotecarios de Baidu en los primeros años y superpuesto a la tecnología de inteligencia artificial generativa, ha logrado un gran salto en la creación.
En los primeros años, la necesidad de la gente de utilizar las bibliotecas era encontrar documentos ya preparados. Sin embargo, cuando surgió la tecnología de inteligencia artificial generativa, Baidu descubrió que la necesidad más fundamental de las personas no es encontrar un documento ya preparado, sino crear contenido que sea más adecuado para ellas.
Para satisfacer tales necesidades, Baidu comenzó a pensar en cómo permitir que las personas crearan mejor basándose en documentos ya preparados o sin una base material. Siguiendo este camino, se reconstruyó la primera biblioteca de Baidu. Más tarde, Baidu lanzó un producto independiente, Orange Pian, que puede generar artículos largos con un solo clic. El nacimiento de Free Canvas también se basa en esta lógica, lo que permite a las personas "comunicar sus ideas" de manera más conveniente. Expresar tus pensamientos internos de forma más cómoda y precisa.
Robin Li, fundador de Baidu, cree que "los agentes son la forma más común de aplicaciones de IA y están a punto de marcar el comienzo de su punto de explosión. La analogía de crear agentes es crear un sitio web en la era de las PC o crear un medio de comunicación propio". cuenta en la era móvil. La diferencia es que el agente es más humano, más inteligente y más parecido a sus ventas, servicio al cliente y asistente. Los agentes pueden convertirse en los nuevos portadores de contenidos, información y servicios en la era nativa de la IA.
El director ejecutivo de OpenAI, Sam Altman, también expresó la posibilidad de recurrir a los desarrolladores de agentes de IA cuando respondió una pregunta en Reddit el mes pasado. "Vamos a tener modelos cada vez mejores, pero creo que el próximo gran avance serán los agentes de IA". Jen-Hsun Huang de NVIDIA también dijo que NVIDIA tendrá 100 millones de agentes inteligentes en el futuro.
La característica de un agente inteligente es que el umbral es lo suficientemente bajo y el techo lo suficientemente alto, y puede convertirse en una empresa muy poderosa. Al igual que Google y Meta, que fueron fundadas por estudiantes universitarios hace muchos años, se han convertido. los gigantes tecnológicos más poderosos del mundo. Hasta cierto punto, no crear un agente inteligente ahora es como no crear un sitio web hace veinte años o una aplicación hace diez años.
Hay pocas empresas chinas que hayan desempeñado un papel tan importante en los nodos de talento, recursos y tecnología del desarrollo global de la inteligencia artificial como Baidu. Detrás de esto, es inseparable de la creencia y la perseverancia del fundador en la IA. En la industria, Robin Li tiene un dicho clásico: "Cuando tenga 1 yuan, invertiré en tecnología; cuando tenga 100 millones, invertiré en tecnología; cuando tenga 10 mil millones, seguiré invirtiendo en tecnología". .

El trabajo de Baidu en materia de IA se remonta a la famosa subasta de hace más de diez años. Un día de diciembre de 2012, se llevó a cabo una subasta secreta al pie de una montaña de esquí al sur del lago Tahoe en Nevada, Estados Unidos. Los activos subastados eran en realidad "tres personas": el profesor Geoffrey E. Hinton, el "padrino de la IA" y dos de sus alumnos.
Los representantes de Baidu, Google, Microsoft y DeepMind aumentaron con frecuencia sus ofertas, y la oferta se disparó a 44 millones de dólares. En ese momento, sólo Baidu y Google quedaban entre los participantes. Aunque Baidu participó en la subasta sin límite superior, finalmente no tuvo éxito.
Esto también hizo que Robin Li se diera cuenta de que debía desarrollar el aprendizaje profundo, la conducción autónoma y otras tecnologías por su cuenta. Después de eso, estableció el Instituto de Investigación Baidu America y comenzó a reclutar vigorosamente talentos globales. Desde entonces, ha atraído con éxito talentos como Ng Enda. , Dario Amodei, etc. Se unen los mejores talentos de todo el mundo.
En los siguientes diez años, Baidu comenzó su período de autoinvestigación completa en tecnología de inteligencia artificial, desde chips, marcos, modelos hasta capas de aplicaciones, venciéndolas una por una. Baidu lanzó sucesivamente la plataforma abierta de conducción autónoma Apollo, abrió el marco de aprendizaje profundo PaddlePaddle e incluso lanzó la versión 1.0 del modelo grande Wenxin a principios de 2019.
Sin embargo, hasta el nacimiento de ChatGPT, la aplicación de la tecnología de inteligencia artificial no había encontrado un punto de inflexión. La industria la consideraba un pozo sin fondo y su aplicación práctica aún está lejos.
La perseverancia siempre da sus frutos. La reversión se produjo en marzo de 2023. Basado en la versión 3.0 del modelo grande Wenxin, Baidu fue el primero en el mundo en lanzar un producto que comparó ChatGPT, Wenxin Yiyan. En este punto, diez años de inversión silenciosa finalmente dieron sus frutos.
A partir de la segunda mitad de 2023, mientras se aseguraba de que el modelo básico siguiera liderando, Baidu de repente se dio cuenta de que la competencia homogénea de los modelos grandes había provocado un enorme desperdicio de recursos. Robin Li ha pedido públicamente muchas veces "girar aplicaciones, no". models." , y solicitó dentro de la empresa ser la primera empresa en reconstruir todos los productos utilizando modelos de gran tamaño. En la Conferencia Mundial de 2023, Baidu mostró al mundo exterior los resultados de la reconstrucción de aplicaciones importantes como búsqueda, mapas y discos de red. En la Conferencia Mundial de este año, el tema de Baidu se estableció directamente como "Las aplicaciones están llegando", lo que permite al mundo exterior. vea el modelo a gran escala en El enorme valor creado en los campos de los cuerpos inteligentes, aplicaciones industriales y otros campos.
Mirando hacia atrás, no es difícil ver que Baidu ha tomado las decisiones correctas en cada nodo importante del desarrollo de la inteligencia artificial global durante la última década. En el futuro a largo plazo, Robin Li espera que la IA realmente pueda ser utilizada por todas las personas comunes y corrientes, de modo que todos puedan tener la capacidad de ser programadores.
En la Conferencia Mundial de Baidu, Robin Li también lanzó One More Thing: Miaida, un software sin programación de código, colaboración de múltiples agentes e invocación de múltiples herramientas.
Miaida es muy diferente de cualquier herramienta auxiliar de generación de código anterior en que no requiere que los usuarios comprendan el código. Por el contrario, las herramientas de IA anteriores, como herramientas de productividad, tenían más que ver con fortalecer las capacidades de las élites en la cima de la pirámide. Por ejemplo, en Silicon Valley, la generación de código auxiliar es muy importante porque hay escasez de ingenieros en los Estados Unidos. y los salarios por hora de los ingenieros también son muy caros. Las herramientas auxiliares pueden mejorar la eficiencia y hacer que los que están en la cima de la pirámide sean más poderosos.
Pero la IA debería ser algo de lo que todos puedan beneficiarse, en lugar de ser una patente utilizada por unos pocos.
A medida que las capacidades de los modelos y agentes básicos mejoran gradualmente, Baidu integra estas capacidades técnicas para permitir que personas reales y comunes, que no pueden entender una línea de código, tengan las capacidades de los programadores.
Imagínese, cuando cientos de millones o más de mil millones de personas tengan esta capacidad, corresponderá a un enorme espacio de mercado, especialmente la explosión de creatividad, que no puede ser igualada por tecnologías como las herramientas auxiliares de generación de código. Baidu espera que cada persona común y corriente pueda tener las habilidades de quienes están en la cima de la pirámide, y su significado es, naturalmente, más profundo.
Robin Li dijo durante la conferencia: "Baidu no va a lanzar una 'superaplicación', pero seguirá ayudando a más personas y a más empresas a crear millones de aplicaciones 'súper útiles'".
Imagínese que en la era de la IA, cada vez más personas pueden aprender a crear nuevos productos y servicios y utilizar la programación en lenguaje natural, una acción creativa y de bajo umbral, para realizar algunas ideas descabelladas y crear innumerables productos valiosos. Ésta es la verdadera inclusividad de la tecnología.