Die Universität Tokio arbeitete mit der Alternative Machine Company zusammen, um ein humanoides Robotersystem namens Alter3 zu entwickeln, das Befehle in natürlicher Sprache direkt den Aktionen des Roboters zuordnen kann. Dies stellt einen bedeutenden Fortschritt in der Forschung dar, die auf der Kombination von Basismodellen und Robotersystemen basiert. Das Hintergrundmodell von Alter3 nutzt die GPT-4-Technologie, die es ihm ermöglicht, eine Reihe komplexer Aufgaben zu erledigen, von einfachen Selfies bis hin zu komplexen Verhaltensweisen wie der Simulation von Geistern, was ein großes Anwendungspotenzial aufweist. Obwohl sich diese Technologie noch im Forschungsstadium befindet, weist sie den Weg für die zukünftige Entwicklung der Robotik.
Forscher der Universität Tokio in Japan haben in ihrer gemeinsamen Forschung mit der Alternative Machine Company einen neuen Durchbruch erzielt und ein humanoides Robotersystem Alter3 entwickelt, das Befehle in natürlicher Sprache direkt auf Roboteraktionen abbilden kann. Sein Hintergrundmodell nutzt die GPT-4-Technologie und kann eine Reihe komplexer Aufgaben erledigen, wie zum Beispiel das Aufnehmen von Selfies oder das Spielen von Geistern.

Dies ist eines der wachsenden Forschungsergebnisse, die auf der Kombination von Basismodellen und Robotersystemen basieren. Obwohl diese Systeme noch keine skalierbaren kommerziellen Lösungen erreicht haben, haben sie in den letzten Jahren die Robotikforschung vorangebracht und großes Potenzial gezeigt.
Alter3 nutzt die GPT-4-Technologie als Hintergrundmodell, um Anweisungen in natürlicher Sprache zu empfangen, die Aktionen oder Situationen beschreiben, auf die der Roboter reagieren muss. Zunächst verwendet das Modell ein „Agenten-Framework“, um die Abfolge von Aktionsschritten zu planen, die der Roboter unternehmen muss, um sein Ziel zu erreichen. Zweitens generieren Sie durch die Codierung des Agenten die Befehle, die der Roboter zum Ausführen der einzelnen Schritte benötigt. Da GPT-4 nicht auf Alter3-Programmierbefehle trainiert wurde, nutzten die Forscher seine kontextuellen Lernfähigkeiten, um sein Verhalten an die API des Roboters anzupassen.

Daher enthält die Eingabeaufforderung eine Liste von Befehlen und eine Reihe von Beispielen, die zeigen, wie die einzelnen Befehle verwendet werden. Das Modell ordnet dann jeden Schritt einem oder mehreren API-Befehlen zu, die er zur Ausführung an den Roboter sendet.
Die Forscher fügten Funktionen hinzu, damit Menschen Feedback geben können, beispielsweise „Heben Sie Ihren Arm etwas höher.“ Diese Anweisungen werden an einen anderen GPT-4-Agenten gesendet, der den Code begründet, notwendige Korrekturen vornimmt und die Abfolge der Aktionen an den Roboter zurückgibt. Verbesserte Aktionsrezepte und Codes werden zur zukünftigen Verwendung in einer Datenbank gespeichert.

Die Forscher führten mehrere Tests mit dem Alter3 durch, darunter alltägliche Aktionen wie das Aufnehmen von Selfies und das Trinken von Tee, aber auch imitierte Aktionen wie das Vorgeben, ein Geist oder eine Schlange zu sein. Sie testeten auch die Fähigkeit des Modells, mit Situationen umzugehen, die sorgfältig geplante Maßnahmen erfordern. Das umfassende Verständnis von GPT-4 über menschliches Verhalten und Bewegung ermöglicht die Erstellung realistischerer Verhaltenspläne für humanoide Roboter wie Alter3. Die Experimente der Forscher zeigten auch, dass sie Emotionen wie Scham und Freude im Roboter nachahmen konnten.
Highlight:
- Alter3 ist der neueste humanoide Roboter, der die GPT-4-Technologie zum Denken nutzt und in der Lage ist, Anweisungen in natürlicher Sprache direkt den Aktionen des Roboters zuzuordnen.
- Die Forscher nutzten die kontextbezogenen Lernfähigkeiten der GPT-4-Technologie, um ihr Verhalten an die API des Roboters anzupassen und es dem Roboter zu ermöglichen, eine gewünschte Reihe von Aktionsschritten auszuführen.
- Das Hinzufügen von menschlichem Feedback und Gedächtnis könnte die Leistung von Alter3 verbessern, und die Experimente der Forscher zeigten auch, dass sie in der Lage waren, Emotionen wie Scham und Freude im Roboter nachzuahmen.
Der Erfolg von Alter3 beweist das große Potenzial von GPT-4 im Bereich der Robotersteuerung und ebnet den Weg für intelligentere und flexiblere Robotersysteme in der Zukunft. Dieser Durchbruch in der Forschung läutet eine neue Revolution in der Mensch-Computer-Interaktion ein.