Япония разрабатывает гуманоидного робота Alter3: он использует технологию GPT-4 для съемки селфи

Автор：Eve Cole Время обновления：2025-02-25 05:50:02

Токийский университет в сотрудничестве с компанией Alternative Machine разработал систему роботов-гуманоидов под названием Alter3, которая может напрямую сопоставлять команды естественного языка с действиями робота. Это знаменует собой значительный прогресс в исследованиях, основанных на сочетании базовых моделей и роботизированных систем. Фоновая модель Alter3 использует технологию GPT-4, которая позволяет ей выполнять ряд сложных задач, от простых селфи до сложных действий, таких как имитация призраков, что демонстрирует большой потенциал применения. Хотя эта технология все еще находится на стадии исследований, она указывает путь для будущего развития робототехники.

Исследователи из Токийского университета в Японии совершили новый прорыв в своих совместных исследованиях с компанией Alternative Machine, разработав гуманоидную роботизированную систему Alter3, которая может напрямую сопоставлять команды естественного языка с действиями робота. Его фоновая модель использует технологию GPT-4 и может выполнять ряд сложных задач, таких как съемка селфи или игра в привидения.

Это один из растущего числа результатов исследований, основанных на сочетании базовых моделей и роботизированных систем. Хотя эти системы еще не достигли масштабируемых коммерческих решений, в последние годы они продвинули исследования в области робототехники и продемонстрировали большой потенциал.

Alter3 использует технологию GPT-4 в качестве фоновой модели для получения инструкций на естественном языке, описывающих действия или ситуации, на которые робот должен реагировать. Во-первых, модель использует «структуру агента» для планирования последовательности действий, которые робот должен предпринять для достижения своей цели. Во-вторых, запрограммировав агента, сгенерируйте команды, необходимые роботу для выполнения каждого шага. Поскольку GPT-4 не был обучен командам программирования Alter3, исследователи использовали его возможности контекстного обучения, чтобы адаптировать его поведение к API робота.

Таким образом, приглашение содержит список команд и набор примеров, показывающих, как использовать каждую команду. Затем модель сопоставляет каждый шаг с одной или несколькими командами API, которые отправляются роботу для выполнения.

Исследователи добавили функцию, позволяющую людям оставлять обратную связь, например «поднимите руку немного выше». Эти инструкции передаются другому агенту GPT-4, который анализирует код, вносит необходимые исправления и возвращает роботу последовательность действий. Рецепты и коды улучшенных действий сохраняются в базе данных для дальнейшего использования.

Исследователи провели на Alter3 несколько тестов, включая повседневные действия, такие как съемка селфи и питье чая, а также имитацию действий, таких как притворство призраком или змеей. Они также проверили способность модели справляться с ситуациями, требующими тщательно спланированных действий. Обширное понимание GPT-4 человеческого поведения и движений позволяет создавать более реалистичные планы поведения для роботов-гуманоидов, таких как Alter3. Эксперименты исследователей также показали, что они смогли имитировать у робота такие эмоции, как стыд и радость.

Выделять:

- Alter3 — новейший робот-гуманоид, использующий для рассуждения технологию GPT-4, способный сопоставлять инструкции на естественном языке непосредственно с действиями робота.

- Исследователи использовали возможности контекстного обучения технологии GPT-4, чтобы адаптировать ее поведение к API робота, позволяя роботу выполнять желаемую серию действий.

- Добавление человеческой обратной связи и памяти могло бы улучшить производительность Alter3, а эксперименты исследователей также показали, что они способны имитировать такие эмоции, как стыд и радость, у робота.

Успех Alter3 доказывает большой потенциал GPT-4 в области управления роботами, открывая путь для более умных и гибких роботизированных систем в будущем. Этот прорыв в исследованиях знаменует собой новую революцию во взаимодействии человека и компьютера.