ดาวน์โหลด self operating computer - ดาวน์โหลดซอร์สโค้ด self operating computer

self operating computer

ซอร์สโค้ดอื่น ๆ

update to `1.4.6`

ดาวน์โหลด

กรอบคอมพิวเตอร์ที่ดำเนินการด้วยตนเอง

เฟรมเวิร์กเพื่อเปิดใช้งานโมเดลหลายรูปแบบในการใช้งานคอมพิวเตอร์

ด้วยการใช้อินพุตและเอาต์พุตเดียวกันในฐานะผู้ดำเนินการมนุษย์โมเดลจะดูหน้าจอและตัดสินใจในชุดของการกระทำของเมาส์และแป้นพิมพ์เพื่อบรรลุวัตถุประสงค์

คุณสมบัติที่สำคัญ

ความเข้ากันได้ : ออกแบบมาสำหรับรุ่นหลายรูปแบบต่างๆ
การรวม : ปัจจุบันรวมเข้ากับ GPT-4O, Gemini Pro Vision, Claude 3 และ Llava
แผนการในอนาคต : สนับสนุนโมเดลเพิ่มเติม

การพัฒนาอย่างต่อเนื่อง

ที่ Hyperwriteai เรากำลังพัฒนา Agent-1-Vision แบบจำลองหลายรูปแบบที่มีการคาดการณ์ตำแหน่งคลิกที่แม่นยำยิ่งขึ้น

การเข้าถึง API รุ่น Agent-1-Vision Model

เร็ว ๆ นี้เราจะเสนอการเข้าถึง API ไปยังรุ่น Agent-1-Vision ของเรา

หากคุณสนใจที่จะเข้าถึง API นี้ลงทะเบียนที่นี่

การสาธิต

สุดท้าย-low.mp4

เรียกใช้ `Self-Operating Computer`

ติดตั้งโครงการ

 pip install self-operating-computer

เรียกใช้โครงการ

 operate

ป้อนคีย์ OpenAI ของคุณ : หากคุณไม่มีคุณสามารถรับคีย์ OpenAI ได้ที่นี่ หากคุณต้องการให้คุณเปลี่ยนคีย์ของคุณในภายหลังให้เรียกใช้ vim .env เพื่อเปิด .env และแทนที่คีย์เก่า

ให้สิทธิ์แอพเทอร์มินัลที่จำเป็น : เป็นขั้นตอนสุดท้ายแอพเทอร์มินัลจะขออนุญาตสำหรับ "การบันทึกหน้าจอ" และ "การเข้าถึง" ในหน้า "ความปลอดภัยและความเป็นส่วนตัว" ของ "การตั้งค่าระบบ" ของ Mac

การใช้โหมด `operate`

รุ่นหลายรูปแบบ `-m`

ตอนนี้โมเดลเพิ่มเติมเข้ากันได้กับเฟรมเวิร์กคอมพิวเตอร์ที่ใช้งานได้ด้วยตนเอง ลองใช้ gemini-pro-vision ของ Google โดยทำตามคำแนะนำด้านล่าง

เริ่ม operate กับรุ่นราศีเมถุน

 operate -m gemini-pro-vision

ป้อนคีย์ Google AI Studio API ของคุณเมื่อเทอร์มินัลแจ้งให้คุณทราบ หากคุณไม่มีคุณสามารถรับคีย์ได้ที่นี่หลังจากตั้งค่าบัญชี Google AI Studio ของคุณ คุณอาจต้องได้รับอนุญาตให้ใช้ข้อมูลรับรองสำหรับแอปพลิเคชันเดสก์ท็อป ฉันใช้เวลาสักครู่เพื่อให้มันทำงานได้ถ้าใครรู้วิธีที่ง่ายกว่าโปรดทำ PR

ลอง Claude `-m claude-3`

ใช้ Claude 3 พร้อมวิสัยทัศน์เพื่อดูว่ามันซ้อนกันได้ถึง GPT-4-Vision ที่ใช้งานคอมพิวเตอร์อย่างไร นำทางไปยังแผงควบคุม Claude เพื่อรับคีย์ API และเรียกใช้คำสั่งด้านล่างเพื่อลอง

 operate -m claude-3

ลอง Llava เป็นเจ้าภาพผ่าน Ollama `-m llava`

หากคุณต้องการทดลองใช้กรอบคอมพิวเตอร์ที่ดำเนินการด้วยตนเองโดยใช้ LLAVA บนเครื่องของคุณเองคุณสามารถใช้กับ Ollama ได้!
หมายเหตุ: ปัจจุบัน Ollama รองรับ MacOS และ Linux เท่านั้น

ก่อนอื่นให้ติดตั้ง Ollama บนเครื่องของคุณจาก https://ollama.ai/download

เมื่อติดตั้ง Ollama แล้วให้ดึงรุ่น LLAVA:

 ollama pull llava

สิ่งนี้จะดาวน์โหลดรุ่นบนเครื่องของคุณซึ่งใช้พื้นที่เก็บข้อมูลประมาณ 5 GB

เมื่อ Ollama ดึง LLAVA เสร็จแล้วให้เริ่มเซิร์ฟเวอร์:

 ollama serve

แค่ไหน! ตอนนี้เริ่ม operate และเลือกรุ่น LLAVA:

 operate -m llava

สำคัญ: อัตราความผิดพลาดเมื่อใช้ LLAVA สูงมาก นี่เป็นเพียงจุดประสงค์ที่จะเป็นฐานในการสร้างแบบจำลองหลายรูปแบบในท้องถิ่นดีขึ้นเมื่อเวลาผ่านไป

เรียนรู้เพิ่มเติมเกี่ยวกับ Ollama ที่พื้นที่เก็บข้อมูล GitHub

โหมดเสียง `--voice`

เฟรมเวิร์กรองรับอินพุตเสียงสำหรับวัตถุประสงค์ ลองใช้เสียงโดยทำตามคำแนะนำด้านล่าง โคลน repo ไปยังไดเรกทอรีบนคอมพิวเตอร์ของคุณ:

 git clone https://github.com/OthersideAI/self-operating-computer.git

ซีดีเป็นไดเรกทอรี :

 cd self-operating-computer

ติดตั้ง requirements-audio.txt

 pip install -r requirements-audio.txt

ติดตั้งข้อกำหนดของอุปกรณ์ สำหรับผู้ใช้ Mac:

 brew install portaudio

สำหรับผู้ใช้ Linux:

 sudo apt install portaudio19-dev python3-pyaudio

เรียกใช้กับโหมดเสียง

 operate --voice

โหมดการจดจำอักขระออพติคอล `-m gpt-4-with-ocr`

เฟรมเวิร์กคอมพิวเตอร์ที่ดำเนินการด้วยตนเองตอนนี้รวมความสามารถในการจดจำอักขระออพติคอล (OCR) เข้ากับโหมด gpt-4-with-ocr โหมดนี้ให้แผนที่แฮช GPT-4 ขององค์ประกอบที่คลิกได้โดยพิกัด GPT-4 สามารถตัดสินใจที่จะ click องค์ประกอบตามข้อความจากนั้นรหัสอ้างอิงแผนที่แฮชเพื่อรับพิกัดสำหรับองค์ประกอบนั้น GPT-4 ต้องการคลิก

จากการทดสอบล่าสุด OCR ทำงานได้ดีกว่า som และ Vanilla GPT-4 ดังนั้นเราจึงทำให้เป็นค่าเริ่มต้นสำหรับโครงการ ในการใช้โหมด OCR คุณสามารถเขียนได้:

operate หรือ operate -m gpt-4-with-ocr จะทำงานได้เช่นกัน

Set-of-mark `-m gpt-4-with-som`

ขณะนี้เฟรมเวิร์กคอมพิวเตอร์ที่ดำเนินการด้วยตนเองรองรับการตั้งค่า (SOM) พร้อมกับคำสั่ง gpt-4-with-som วิธีการแจ้งเตือนภาพใหม่นี้ช่วยเพิ่มความสามารถในการลงดินในการมองเห็นของรุ่นหลายรูปแบบขนาดใหญ่

เรียนรู้เพิ่มเติมเกี่ยวกับการแจ้งเตือน SOM ในกระดาษ Arxiv โดยละเอียด: ที่นี่

สำหรับเวอร์ชันเริ่มต้นนี้รุ่น YOLOV8 แบบง่าย ๆ ได้รับการฝึกฝนสำหรับการตรวจจับปุ่มและไฟล์ best.pt จะรวมอยู่ใน model/weights/ ผู้ใช้จะได้รับการสนับสนุนให้แลกเปลี่ยนไฟล์ best.pt ของพวกเขาเพื่อประเมินการปรับปรุงประสิทธิภาพ หากโมเดลของคุณมีประสิทธิภาพสูงกว่ารุ่นที่มีอยู่โปรดมีส่วนร่วมโดยการสร้างคำขอดึง (PR)

เริ่ม operate กับโมเดล SOM

 operate -m gpt-4-with-som

ยินดีต้อนรับผลงาน!:

หากคุณต้องการมีส่วนร่วมตัวเองให้ดูที่ MD

ข้อเสนอแนะ

สำหรับข้อมูลใด ๆ เกี่ยวกับการปรับปรุงโครงการนี้อย่าลังเลที่จะติดต่อ Josh บน Twitter

เข้าร่วมชุมชน Discord ของเรา

สำหรับการอภิปรายแบบเรียลไทม์และการสนับสนุนชุมชนเข้าร่วมเซิร์ฟเวอร์ Discord ของเรา

หากคุณเป็นสมาชิกอยู่แล้วให้เข้าร่วมการสนทนาใน #-pomputer -pomputer
หากคุณใหม่ให้เข้าร่วมเซิร์ฟเวอร์ Discord ของเราก่อนจากนั้นนำทางไปยัง #-pomerating-computer

ติดตาม Hyperwriteai สำหรับการอัปเดตเพิ่มเติม

อัปเดตอยู่กับการพัฒนาล่าสุด:

ติดตาม Hyperwriteai บน Twitter
ติดตาม Hyperwriteai บน LinkedIn

ความเข้ากันได้

โครงการนี้เข้ากันได้กับ Mac OS, Windows และ Linux (ติดตั้งเซิร์ฟเวอร์ X)

หมายเหตุการ จำกัด อัตรา OpenAI

จำเป็นต้องใช้โมเดล gpt-4o ในการปลดล็อกการเข้าถึงรุ่นนี้บัญชีของคุณจะต้องใช้จ่ายอย่างน้อย $ 5 ในเครดิต API การจ่ายเงินล่วงหน้าสำหรับเครดิตเหล่านี้จะปลดล็อกการเข้าถึงหากคุณยังไม่ได้ใช้เงินขั้นต่ำ $ 5
เรียนรู้เพิ่มเติม ที่นี่

ขยาย

ข้อมูลเพิ่มเติม