A Universidade de Tóquio colaborou com a Alternative Machine Company para desenvolver um sistema robótico humanóide chamado Alter3 que pode mapear diretamente comandos de linguagem natural para as ações do robô. Isto marca um progresso significativo na pesquisa baseada na combinação de modelos básicos e sistemas robóticos. O modelo de fundo do Alter3 utiliza a tecnologia GPT-4, que permite realizar uma série de tarefas complexas, desde simples selfies até comportamentos complexos, como simulação de fantasmas, apresentando grande potencial de aplicação. Embora ainda em fase de pesquisa, esta tecnologia aponta o caminho para o desenvolvimento futuro da robótica.
Pesquisadores da Universidade de Tóquio, no Japão, fizeram um novo avanço em sua pesquisa colaborativa com a Alternative Machine Company, desenvolvendo um sistema robótico humanóide Alter3 que pode mapear diretamente comandos de linguagem natural para ações de robôs. Seu modelo de fundo usa tecnologia GPT-4 e pode completar uma série de tarefas complexas, como tirar selfies ou brincar de fantasma.

Este é um dos resultados crescentes de pesquisas baseadas na combinação de modelos básicos e sistemas robóticos. Embora esses sistemas ainda não tenham alcançado soluções comerciais escaláveis, eles avançaram nas pesquisas em robótica nos últimos anos e mostraram grande potencial.
Alter3 usa a tecnologia GPT-4 como modelo de fundo para receber instruções em linguagem natural que descrevem ações ou situações nas quais o robô precisa responder. Primeiro, o modelo usa uma “estrutura de agente” para planejar a sequência de etapas de ação que o robô precisa realizar para completar seu objetivo. Em segundo lugar, ao codificar o agente, gere os comandos que o robô precisa para executar cada etapa. Como o GPT-4 não foi treinado nos comandos de programação do Alter3, os pesquisadores usaram seus recursos de aprendizagem contextual para adaptar seu comportamento à API do robô.

Portanto, prompt contém uma lista de comandos e um conjunto de exemplos mostrando como usar cada comando. O modelo então mapeia cada etapa para um ou mais comandos de API para enviar ao robô para execução.
Os pesquisadores adicionaram funcionalidades para que os humanos pudessem fornecer feedback, como “levante o braço um pouco mais alto”. Essas instruções são enviadas para outro agente GPT-4, que raciocina o código, faz as correções necessárias e retorna a sequência de ações ao robô. Receitas e códigos de ação aprimorados são armazenados em um banco de dados para uso futuro.

Os pesquisadores realizaram vários testes no Alter3, incluindo ações cotidianas, como tirar selfies e beber chá, bem como ações imitadas, como fingir ser um fantasma ou uma cobra. Testaram também a capacidade do modelo para lidar com situações que exigem ações cuidadosamente planeadas. A ampla compreensão do comportamento e movimento humano do GPT-4 permite a criação de planos de comportamento mais realistas para robôs humanóides como o Alter3. Os experimentos dos pesquisadores também mostraram que eles foram capazes de imitar emoções como vergonha e alegria no robô.
Destaque:
- Alter3 é o mais recente robô humanóide a usar a tecnologia GPT-4 para raciocínio, capaz de mapear instruções em linguagem natural diretamente para as ações do robô.
- Os pesquisadores aproveitaram os recursos de aprendizagem contextual da tecnologia GPT-4 para adaptar seu comportamento à API do robô, permitindo que o robô executasse uma série desejada de etapas de ação.
- Adicionar feedback humano e memória poderia melhorar o desempenho do Alter3, e os experimentos dos pesquisadores também mostraram que eles eram capazes de imitar emoções como vergonha e alegria no robô.
O sucesso do Alter3 comprova o grande potencial do GPT-4 na área de controle de robôs, abrindo caminho para sistemas robóticos mais inteligentes e flexíveis no futuro. Este avanço na pesquisa anuncia uma nova revolução na interação humano-computador.