プロジェクトの構造は次のようなものです。

プロジェクトは、硬い部分とソフト部分の2つの部分に分かれています。難しい部分は、ロボットアームの制御を担当するロボットアーム制御部品です。ソフト部分は言語モデルの部分であり、命令の生成を担当します。
言語モデルの部分では、OpenAIのGPT-4モデルを使用します。このモデルは、ロボットアームの命令を生成するために使用されます。その後、命令はロボットアーム制御部品に送信され、ロボットアームの制御に使用されます。
言語モデルの4つの段階は次のとおりです。

最初の段階は、命令を複数の小さな部品に分割するために使用されます。

第2段階は、自然言語の指示内で言及する名前をクリアするために使用されます。以下の例のように、「Queen」という命令は、B6の作品も指します。

3番目の段階は、自然言語の指示内の位置をクリアするために使用されます。以下の例のように、「b6の右四角」という命令は、B5の位置も指します。

ここでの最終段階は、全体的なロジックの最終チェックと命令の一貫性です。

このドキュメントは、プロジェクト環境を設定するための指示を提供します。
リポジトリをクローンします:
git clone https://github.com/zniihgnexy/niryo_project.git
cd niryo_project仮想環境を作成します:
mamba env create -f mamba_mujoco_base.yml仮想環境を有効にします:
conda activate mujoco必要なパッケージをインストールします。
pip install -r requirements.txt単一命令と複数の命令のためにシミュレーションスクリプトを実行します。
python main_simulation.py
python main_simulation_multi.pyこれら2つは、シミュレーションの例です。 1つ目は、単一の命令タイプの移動タスクロボットシミュレーションで、2番目の命令はマルチインストラクションシミュレーションの複雑なロジックです。
以下のビデオを参照してください:
単一インストラクション:このビデオでは、入力コマンドは「女王をC2に移動」です。ロボットは、小さな緑色のボール(B6のクイーン)を四角いC2に移動します。
マルチインストラクション:このビデオでは、入力コマンドは「クイーンをさらに正方形に移動し、ポーンを斜めの正方形に移動する」です。ロボットは、クイーン(B6のボール)を四角いC6に移動し、ポーン(B3のボール)を四角C2に移動します。
この実験はGPT-4言語モデルに基づいているため、APIキーが必要です。 LLMAPI/API.pyファイルで独自のキーをセットアップしてください。 (https://beta.openai.com/account/api-keysからキーを入手できます)
今のところ、APIファイルはアップロードされていません。
プロジェクト構造は次のとおりです。