La Universidad de Tokio colaboró con Alternative Machine Company para desarrollar un sistema de robot humanoide llamado Alter3 que puede asignar directamente comandos del lenguaje natural a las acciones del robot. Se trata de un avance significativo en la investigación basada en la combinación de modelos básicos y sistemas robóticos. El modelo de fondo de Alter3 utiliza la tecnología GPT-4, que le permite completar una serie de tareas complejas, desde simples selfies hasta comportamientos complejos como la simulación de fantasmas, lo que muestra un gran potencial de aplicación. Aunque todavía se encuentra en fase de investigación, esta tecnología marca el camino para el futuro desarrollo de la robótica.
Investigadores de la Universidad de Tokio en Japón han logrado un nuevo avance en su investigación colaborativa con Alternative Machine Company, desarrollando un sistema de robot humanoide Alter3 que puede asignar directamente comandos del lenguaje natural a acciones del robot. Su modelo de fondo utiliza tecnología GPT-4 y puede completar una serie de tareas complejas, como tomar selfies o jugar al fantasma.

Este es uno de los cada vez más numerosos resultados de investigación basados en la combinación de modelos básicos y sistemas robóticos. Aunque estos sistemas aún no han alcanzado soluciones comerciales escalables, han avanzado en la investigación en robótica en los últimos años y han demostrado un gran potencial.
Alter3 utiliza la tecnología GPT-4 como modelo de fondo para recibir instrucciones en lenguaje natural que describen acciones o situaciones en las que el robot necesita responder. Primero, el modelo utiliza un "marco de agente" para planificar la secuencia de pasos de acción que el robot debe seguir para completar su objetivo. En segundo lugar, al codificar el agente, se generan los comandos que el robot necesita para realizar cada paso. Debido a que GPT-4 no fue entrenado con los comandos de programación de Alter3, los investigadores utilizaron sus capacidades de aprendizaje contextual para adaptar su comportamiento a la API del robot.

Por lo tanto, el mensaje contiene una lista de comandos y un conjunto de ejemplos que muestran cómo utilizar cada comando. Luego, el modelo asigna cada paso a uno o más comandos API para enviarlos al robot para su ejecución.
Los investigadores agregaron funciones para que los humanos pudieran proporcionar retroalimentación, como "levantar el brazo un poco más". Estas instrucciones se envían a otro agente GPT-4, quien razona el código, realiza las correcciones necesarias y devuelve la secuencia de acciones al robot. Las recetas y códigos de acción mejorados se almacenan en una base de datos para uso futuro.

Los investigadores realizaron múltiples pruebas en el Alter3, incluidas acciones cotidianas, como tomarse selfies y beber té, así como acciones imitadas, como pretender ser un fantasma o una serpiente. También probaron la capacidad del modelo para afrontar situaciones que requieren acciones cuidadosamente planificadas. La amplia comprensión de GPT-4 sobre el comportamiento y el movimiento humanos permite la creación de planes de comportamiento más realistas para robots humanoides como Alter3. Los experimentos de los investigadores también demostraron que podían imitar emociones como la vergüenza y la alegría en el robot.
Destacar:
- Alter3 es el último robot humanoide que utiliza la tecnología GPT-4 para razonar, capaz de asignar instrucciones en lenguaje natural directamente a las acciones del robot.
- Los investigadores aprovecharon las capacidades de aprendizaje contextual de la tecnología GPT-4 para adaptar su comportamiento a la API del robot, permitiéndole realizar una serie de pasos de acción deseados.
- Agregar retroalimentación y memoria humanas podría mejorar el rendimiento de Alter3, y los experimentos de los investigadores también demostraron que eran capaces de imitar emociones como la vergüenza y la alegría en el robot.
El éxito de Alter3 demuestra el gran potencial de GPT-4 en el campo del control de robots, allanando el camino para sistemas robóticos más inteligentes y flexibles en el futuro. Este avance en la investigación presagia una nueva revolución en la interacción persona-computadora.