東京大学は、Alternative Machine Company と協力して、自然言語コマンドをロボットの動作に直接マッピングできる Alter3 と呼ばれる人型ロボット システムを開発しました。これは、基本モデルとロボットシステムの組み合わせに基づく研究における大きな進歩を示しています。 Alter3 の背景モデルは GPT-4 テクノロジーを使用しており、単純なセルフィーからゴーストのシミュレーションなどの複雑な動作に至るまで、一連の複雑なタスクを完了することができ、大きな応用可能性を示しています。まだ研究段階にありますが、この技術はロボット工学の将来の発展への道を示しています。
日本の東京大学の研究者らは、Alternative Machine Companyとの共同研究で新たな進歩を遂げ、自然言語コマンドをロボットの動作に直接マッピングできる人型ロボットシステムAlter3を開発した。その背景モデルは GPT-4 テクノロジーを使用しており、セルフィーの撮影やゴーストの再生などの一連の複雑なタスクを完了できます。

これは、基本モデルとロボットシステムの組み合わせに基づく研究成果が増えつつあるものの 1 つです。これらのシステムはまだスケーラブルな商用ソリューションには達していませんが、近年ロボット研究が進み、大きな可能性が示されています。
Alter3 は GPT-4 テクノロジーをバックグラウンド モデルとして使用し、ロボットが応答する必要があるアクションや状況を記述する自然言語命令を受け取ります。まず、モデルは「エージェント フレームワーク」を使用して、ロボットが目標を達成するために必要な一連のアクション ステップを計画します。次に、エージェントをコーディングして、ロボットが各ステップを実行するために必要なコマンドを生成します。 GPT-4 は Alter3 プログラミング コマンドでトレーニングされていないため、研究者らはその状況学習機能を使用して、その動作をロボットの API に適応させました。

したがって、プロンプトにはコマンドのリストと、各コマンドの使用方法を示す一連の例が含まれています。次に、モデルは各ステップを 1 つ以上の API コマンドにマッピングし、実行のためにロボットに送信します。
研究者らは、人間が「腕をもう少し高く上げてください」などのフィードバックを提供できる機能を追加しました。これらの命令は別の GPT-4 エージェントに送信され、コードの解釈が行われ、必要な修正が行われ、一連のアクションがロボットに返されます。改善されたアクションのレシピとコードは、将来の使用に備えてデータベースに保存されます。

研究者らは、自撮りやお茶を飲むなどの日常的な動作や、幽霊や蛇のふりをするなどの模倣動作を含む複数のテストをAlter3で実施した。彼らはまた、慎重に計画された行動を必要とする状況に対処するモデルの能力もテストしました。 GPT-4 は人間の行動と動作を幅広く理解しているため、Alter3 などの人型ロボットのより現実的な行動計画を作成できます。研究者らの実験では、ロボット内で恥や喜びなどの感情を模倣できることも示された。
ハイライト:
- Alter3 は、推論に GPT-4 テクノロジーを使用する最新の人型ロボットで、自然言語の命令をロボットの動作に直接マッピングできます。
- 研究者らは、GPT-4 テクノロジーのコンテキスト学習機能を利用してロボットの動作をロボットの API に適応させ、ロボットが必要な一連のアクション ステップを実行できるようにしました。
- 人間のフィードバックと記憶を追加すると、Alter3 のパフォーマンスが向上する可能性があり、研究者の実験では、ロボットで恥や喜びなどの感情を模倣できることも示されました。
Alter3 の成功は、ロボット制御分野における GPT-4 の大きな可能性を証明し、将来のよりスマートでより柔軟なロボット システムへの道を切り開きます。 この研究における画期的な進歩は、人間とコンピュータの相互作用における新たな革命の到来を告げるものです。