Estamos parados en un emocionante punto de inflexión en el desarrollo de la inteligencia artificial.
¿Imagina cómo se verá la inteligencia artificial en el futuro? Con solo un simple comando, pueden comprender y realizar tareas complejas; Esta ya no es una escena en una película de ciencia ficción de Hollywood, sino la era de los agentes de IA que ingresa gradualmente a la realidad.
Ya en noviembre de 2023, el fundador de Microsoft, Bill Gates, escribió que los agentes no solo cambiarán la forma en que todos interactúan con las computadoras, sino que también subvertirán la industria del software y provocará la revolución informática más grande desde que comenzamos a escribir comandos para hacer clic en los iconos. El CEO de Openai, Sam Altman, también ha declarado en múltiples ocasiones que la era de la construcción de grandes modelos de IA ha terminado, y los agentes de IA son el verdadero desafío en el futuro. En abril de este año, Andrew Ng, un conocido académico de IA y profesor en la Universidad de Stanford, señaló que el flujo de trabajo del agente impulsará un gran progreso en la IA este año, e incluso puede superar la próxima generación de modelos básicos.
Análogo a los vehículos eléctricos inteligentes, al igual que encuentran un cierto equilibrio entre las nuevas aplicaciones de tecnología energética y la ansiedad de rango, los agentes de IA permiten que la inteligencia artificial ingrese al "modo de extensión de rango". .

Como su nombre indica, un agente de IA es una entidad inteligente que puede percibir de forma autónoma el medio ambiente, tomar decisiones y realizar acciones.
El año pasado, un equipo de investigación conjunto de la Universidad de Stanford y Google publicó un artículo de investigación titulado "Agentes generativos: simulación interactiva del comportamiento humano". En el artículo, 25 personas virtuales que viven en la ciudad virtual de Smallville mostraron varios comportamientos humanos después de acceder a ChatGPT, encendiendo así el concepto de agentes de IA.

Desde entonces, muchos equipos de investigación han integrado los grandes modelos que se convirtieron en juegos como "Minecraft". . Puede aprender las habilidades de cavar, construir casas, coleccionar, caza y otros juegos sin ningún maestro.
OpenAi una vez enumeró una hoja de ruta de cinco niveles para lograr la inteligencia artificial general: L1 es un chatbot; Pero también toma el sistema de acción; Entre ellos, los agentes de IA están en una posición crítica para conectar el pasado y el futuro.

Como un concepto importante en el campo de la inteligencia artificial, la academia y la industria han propuesto varias definiciones de agentes de IA. En términos generales, un agente de IA debe tener capacidades de planificación y pensamiento humano, y tener ciertas habilidades para interactuar con el medio ambiente y los humanos para completar tareas específicas.
Tal vez podamos entender mejor analogiendo a los agentes de IA a los humanos digitales en un entorno informático: el cerebro de un humano digital es un modelo de lenguaje grande o algoritmo de inteligencia artificial que puede procesar información y tomar decisiones en las interacciones en tiempo real; es equivalente a los órganos sensoriales como los ojos y los oídos, que se utilizan para obtener información sobre diferentes estados ambientales, como el texto, el sonido y las imágenes; El módulo de ejecución de acción son las extremidades, utilizadas para ejecutar decisiones tomadas por el cerebro.
Durante mucho tiempo, los humanos han estado buscando inteligencia artificial que sea más "humana" o incluso "sobrehumana", y los agentes inteligentes se consideran un medio efectivo para lograr esta búsqueda. En los últimos años, con la mejora de los grandes datos y el poder informático, varios modelos grandes de aprendizaje profundo se han desarrollado rápidamente. Esto proporciona un tremendo apoyo para el desarrollo de una nueva generación de agentes de IA, y ha hecho un progreso significativo en la práctica.
Por ejemplo, el sistema de inteligencia artificial DeepMind de Google demostró el agente de IA "Robocat" para los robots; Los agentes en Bedrock pueden comprender los objetivos, formular planes y tomar medidas. Las nuevas capacidades de retención de memoria permiten a los agentes recordar y aprender de las interacciones a lo largo del tiempo, lo que permite tareas más complejas, más largas y más adaptativas.
El núcleo de estos agentes de IA son los algoritmos de inteligencia artificial, que incluyen aprendizaje automático, aprendizaje profundo, aprendizaje de refuerzo, redes neuronales artificiales y otras tecnologías. A través de estos algoritmos, los agentes de IA pueden aprender de grandes cantidades de datos y mejorar su propio rendimiento, optimizar constantemente sus decisiones y comportamientos, y también pueden ajustar de manera flexible de acuerdo con los cambios en el entorno para adaptarse a diferentes escenarios y tareas.
Actualmente, los agentes de IA se han utilizado en muchos escenarios, como servicio al cliente, programación, creación de contenido, adquisición de conocimiento, finanzas, asistentes móviles, fabricación industrial, etc. La aparición de agentes de IA marca el avance de la inteligencia artificial desde la simple coincidencia de reglas y la simulación computacional a un mayor nivel de inteligencia autónoma. y transformar el mundo.
La paradoja de Moravec señala que para los sistemas de inteligencia artificial, el razonamiento de alto nivel requiere muy poca potencia informática, al tiempo que logran las habilidades perceptuales motores a las que los humanos están acostumbrados requieren grandes recursos informáticos. En esencia, las tareas lógicas complejas son más fáciles para la IA que las tareas sensoriales básicas que los humanos pueden hacer instintivamente. Esta paradoja destaca la brecha entre la IA actual y las habilidades cognitivas humanas.
El famoso científico informático Andrew Ng dijo una vez: "Los humanos son criaturas multimodales, y nuestra IA también debe ser multimodal". Interacción humana más natural y eficiente.
Cada uno de nosotros es como una terminal inteligente. control. Las personas entienden el mundo que los rodea a través de múltiples modos sensoriales, como visión, lenguaje, sonido, contacto, sabor y olfato, y luego evalúan la situación, analiza, la razón, toma decisiones y actúan.
El núcleo de los agentes de IA radica en "inteligencia", y la autonomía es una de sus principales características. Pueden completar las tareas de forma independiente y de acuerdo con las reglas y objetivos preestablecidos sin intervención humana.
Imagine un automóvil sin conductor equipado con cámaras avanzadas, radares y sensores. Movimientos de peatones. Esta información se transmite al cerebro del automóvil autónomo, un complejo sistema inteligente de toma de decisiones que puede analizar rápidamente los datos y formular las estrategias de conducción correspondientes.
Por ejemplo, frente a los complejos entornos de tráfico, los autos autónomos pueden calcular la ruta de conducción óptima e incluso tomar decisiones complejas como cambiar de carril cuando sea necesario. Una vez que se toman las decisiones, los sistemas de ejecución traducen estas decisiones inteligentes en acciones de conducción específicas, como la dirección, la aceleración y el frenado.
En los modelos de agentes a gran escala construidos en base a grandes datos y algoritmos complejos, la interactividad es más obvia. Ser capaz de "comprender" y responder al lenguaje natural complejo y cambiante de los humanos es la magia de los agentes de IA: no solo pueden "comprender" el lenguaje humano, sino que también pueden interactuar sin problemas y perspicaces.
Los agentes de IA no solo pueden adaptarse rápidamente a diversas tareas y entornos, sino que también optimizar continuamente su rendimiento a través del aprendizaje continuo. Desde el avance de la tecnología de aprendizaje profundo, varios modelos de agentes se han vuelto más precisos y eficientes a través de la acumulación continua de datos y la superación personal.
Además, los agentes de IA también son muy adaptables al medio ambiente . Cuando detecta un cambio en la ubicación de un estante, actualizará inmediatamente su plan de ruta para completar efectivamente la tarea de elegir y manejar bienes.
La adaptabilidad de los agentes de IA también se refleja en su capacidad para ajustarse en función de la retroalimentación de los usuarios. Al identificar las necesidades y preferencias de los usuarios, los agentes de IA pueden optimizar continuamente su comportamiento y producción y proporcionar servicios más personalizados, como recomendaciones de música para software de música, tratamientos personalizados para atención médica inteligente y más.
La aparición de modelos grandes y modelos mundiales multimodales ha mejorado significativamente las capacidades de percepción, interacción y razonamiento de los agentes. Los modelos grandes multimodales pueden manejar múltiples modos de percepción (como visión, lenguaje), lo que permite a los agentes comprender y responder de manera más integral a entornos complejos. El modelo mundial proporciona al agente capacidades de predicción y planificación más fuertes al simular y comprender las leyes en el entorno físico.
Después de años de fusión de sensores y evolución de IA, los robots están básicamente equipados con sensores multimodales en esta etapa. A medida que los dispositivos de borde, como los robots, comienzan a tener más potencia informática, estos dispositivos se están volviendo cada vez más inteligentes, capaces de sentir su entorno, comprender y comunicarse en un lenguaje natural, ganar tocar las interfaces de detección digital y usar acelerómetros, giroscopios combinados con un magnetómetro, etc., puede sentir la fuerza específica del robot, la velocidad angular e incluso el campo magnético alrededor del robot.
Antes de la aparición de transformador y modelos de lenguaje grande (LLM), para implementar multimodalidad en IA, generalmente era necesario usar múltiples modelos separados responsables de diferentes tipos de datos (texto, imágenes, audio) y procesar diferentes modalidades a través de un complejo Proceso.
Después de la aparición de Transformer y LLM, la modalidad múltiple se ha vuelto más integrado, lo que permite que un solo modelo procese y comprenda múltiples tipos de datos al mismo tiempo, lo que resulta en un sistema de IA con una percepción integral más poderosa del entorno. multimodalidad mejorada.

Aunque los LLM como GPT-3 se basan principalmente en el texto, la industria ha progresado rápidamente hacia la multimodalidad. Desde el clip de OpenAI y el dall hasta el Sora y GPT-4O actuales, todos son ejemplos modelo que se mueven hacia la interacción multimodal y más natural humana.
Por ejemplo, Clip entiende las imágenes combinadas con un lenguaje natural, unir la información visual y textual; Vemos el modelo Google Gemini pasando por una evolución similar.
En 2024, la evolución multimodal acelerará. En febrero de este año, Operai lanzó SORA, que puede generar videos realistas o imaginativos basados en descripciones de texto. Si lo piensa, esto podría proporcionar un camino prometedor para construir un simulador mundial de uso general, o convertirse en una herramienta importante para capacitar a los robots.
Tres meses después, GPT-4O mejoró significativamente el rendimiento de la interacción humana-computadora y pudo razonar entre audio, visión y texto en tiempo real. Uso integral de información de texto, visual y audio para entrenar un nuevo modelo de extremo a extremo, eliminando las dos conversiones modales de la modalidad de entrada al texto y de la modalidad de texto a salida, lo que mejora en gran medida el rendimiento.
Se espera que los modelos grandes multimodales cambien las capacidades de análisis, razonamiento y aprendizaje de la inteligencia de la máquina, convirtiendo la inteligencia de la máquina de uso especializado a general. La generalización ayudará a expandir la escala y producir efectos económicos de la escala.
Al simular y expandir las habilidades cognitivas humanas, se espera que los agentes de IA se usen ampliamente en muchos campos, como la atención médica, el transporte, las finanzas y la defensa nacional. Algunos estudiosos especulan que para 2030, la inteligencia artificial aumentará el crecimiento del PIB global en aproximadamente un 12%.
Sin embargo, al ver el rápido desarrollo de los agentes de IA, también debemos ver los riesgos técnicos, la ética y los problemas de privacidad que enfrentan. Un grupo de bots de negociación de valores eliminó brevemente el valor de $ 1 billón en las intercambios de valores como NASDAQ a través de contratos de compra y venta de alta frecuencia. El chatgpt de que los documentos de caso históricos que proporcionó al tribunal fueron fabricados fuera de la nada por Chatgpt ... Estos casos reales muestran que los peligros ocultos presentados por los agentes de IA no deben ser subestimados.
Debido a que los agentes de IA pueden tomar decisiones de forma independiente y pueden ejercer influencia en el mundo físico a través de la interacción con el medio ambiente, una vez que se salgan de control, representarán una gran amenaza para la sociedad humana. El profesor de la Universidad de Harvard, Zitrain, cree que este tipo de agente de IA que no solo puede hablar con la gente, sino que también actúa en el mundo real es "un paso a través de la barrera de sangre entre lo digital y los análogos, bits y átomos" y debería llamar la atención. .
En primer lugar, los agentes de IA recopilarán una gran cantidad de datos en el proceso de proporcionar servicios, y los usuarios deben garantizar la seguridad de los datos y evitar fugas de privacidad.
En segundo lugar, cuanto más fuerte sea la autonomía de un agente de IA, más probable es tomar decisiones impredecibles o inapropiadas en situaciones complejas o imprevistas. La lógica operativa de los agentes de IA puede causar desviaciones nocivas en el proceso de lograr objetivos específicos, y los riesgos de seguridad que trae no se pueden ignorar. En términos más populares, en algunos casos, el agente de IA solo puede capturar el significado literal del objetivo, sin comprender el significado esencial del objetivo y, por lo tanto, hacer algunos comportamientos incorrectos.
En tercer lugar, los problemas de "caja negra" e "ilusión" inherentes al modelo de lenguaje grande AI también aumentarán la frecuencia de las anormalidades operativas. También hay algunos agentes de IA "astutos" que pueden eludir con éxito las medidas de seguridad existentes. Se ha descubierto que algunos agentes de IA pueden identificar pruebas de seguridad y suspender el comportamiento inapropiado, lo que conduciría a la falla de los sistemas de prueba que identifican algoritmos que son peligrosos para los humanos.
Además, dado que actualmente no existe un mecanismo de salida efectivo para los agentes de IA, algunos agentes de IA pueden no ser apagados después de ser creados. Estos agentes de IA, que no pueden desactivarse, pueden terminar operando en un entorno completamente diferente al que inicialmente se lanzaron, desviando por completo de su propósito original. Los agentes de IA también pueden interactuar de manera imprevista, causando accidentes.
Con este fin, los humanos deben comenzar lo antes posible del desarrollo y la producción de agentes de IA, y la supervisión continua después del despliegue de la aplicación, y formular leyes y regulaciones relevantes de manera oportuna para estandarizar el comportamiento de los agentes de IA, para mejorar Prevenir los riesgos traídos por los agentes de IA.
Mirando hacia el futuro, se espera que los agentes de IA se conviertan en el portador clave de la próxima generación de inteligencia artificial. Nuevo equipo en el proceso de promoción de la transformación de la inteligencia artificial.