โครงสร้างของโครงการเป็นภาพต่อไปนี้:

โครงการแบ่งออกเป็นสองส่วน: ส่วนที่ยากและส่วนที่อ่อนนุ่ม ส่วนที่ยากคือส่วนการควบคุมแขนหุ่นยนต์ซึ่งรับผิดชอบในการควบคุมแขนหุ่นยนต์ ส่วนที่อ่อนนุ่มเป็นส่วนโมเดลภาษาซึ่งรับผิดชอบการสร้างคำสั่ง
สำหรับส่วนของโมเดลภาษาเราใช้โมเดล GPT-4 จาก OpenAI แบบจำลองนี้ใช้เพื่อสร้างคำสั่งสำหรับแขนหุ่นยนต์ คำสั่งจะถูกส่งไปยังส่วนควบคุมแขนหุ่นยนต์ซึ่งจะใช้สำหรับการควบคุมแขนหุ่นยนต์
สี่ขั้นตอนของรูปแบบภาษามีดังนี้:

ขั้นตอนแรกใช้เพื่อแยกคำสั่งออกเป็นส่วนเล็ก ๆ หลายชิ้น

ขั้นตอนที่สองใช้เพื่อล้างชื่อที่อ้างถึงภายในการสอนภาษาธรรมชาติ ดังตัวอย่างด้านล่างคำสั่ง "ราชินี" ยังหมายถึงชิ้นส่วนที่ B6

ขั้นตอนที่สามใช้เพื่อล้างตำแหน่งที่อ้างถึงภายในการสอนภาษาธรรมชาติ ดังในตัวอย่างด้านล่างคำสั่ง "จัตุรัสขวาของ B6" ยังหมายถึงตำแหน่งที่ B5

ขั้นตอนสุดท้ายที่นี่คือการตรวจสอบครั้งสุดท้ายของตรรกะโดยรวมและความสอดคล้องของคำสั่ง

เอกสารนี้ให้คำแนะนำสำหรับการตั้งค่าสภาพแวดล้อมโครงการ
โคลนที่เก็บ:
git clone https://github.com/zniihgnexy/niryo_project.git
cd niryo_projectสร้างสภาพแวดล้อมเสมือนจริง:
mamba env create -f mamba_mujoco_base.ymlเปิดใช้งานสภาพแวดล้อมเสมือนจริง:
conda activate mujocoติดตั้งแพ็คเกจที่ต้องการ:
pip install -r requirements.txtเรียกใช้สคริปต์จำลองสำหรับคำสั่งเดียวและคำแนะนำหลายคำแนะนำ:
python main_simulation.py
python main_simulation_multi.pyสองนี้เป็นตัวอย่างวิดีโอของการจำลอง อันแรกคือประเภทคำสั่งประเภทเดียวของการจำลองหุ่นยนต์งานที่เคลื่อนไหวและอันที่สองเป็นตรรกะที่ซับซ้อนของการจำลองการแนะนำแบบหลายสาย
ดูวิดีโอด้านล่าง:
การสอนครั้งเดียว: ในวิดีโอนี้คำสั่งอินพุตคือ "ย้ายราชินีไปยัง C2" หุ่นยนต์จะย้ายลูกบอลสีเขียวขนาดเล็ก (ราชินีที่ B6) ไปยังสแควร์ C2
Multi-Instruction: ในวิดีโอนี้คำสั่งอินพุตคือ "ย้ายราชินีไปยังสี่เหลี่ยมจัตุรัสเพิ่มเติมและย้ายจำนำไปยังสี่เหลี่ยมจัตุรัส" หุ่นยนต์จะย้ายราชินี (ลูกบอลที่ B6) ไปยังสแควร์ C6 และจำนำ (ลูกบอลที่ B3) ไปยังสแควร์ C2
การทดลองนี้ใช้แบบจำลองภาษา GPT-4 ดังนั้นจึงจำเป็นต้องใช้คีย์ API โปรดตั้งค่าคีย์ของคุณเองในไฟล์ LLMAPI/API.PY (คุณสามารถรับคีย์ได้จาก https://beta.openai.com/account/api-keys)
สำหรับตอนนี้ไฟล์ API ยัง ไม่ได้รับการอัปโหลด
โครงสร้างโครงการมีดังนี้: