เฟรมเวิร์กเพื่อเปิดใช้งานโมเดลหลายรูปแบบในการใช้งานคอมพิวเตอร์
ด้วยการใช้อินพุตและเอาต์พุตเดียวกันในฐานะผู้ดำเนินการมนุษย์โมเดลจะดูหน้าจอและตัดสินใจในชุดของการกระทำของเมาส์และแป้นพิมพ์เพื่อบรรลุวัตถุประสงค์

ที่ Hyperwriteai เรากำลังพัฒนา Agent-1-Vision แบบจำลองหลายรูปแบบที่มีการคาดการณ์ตำแหน่งคลิกที่แม่นยำยิ่งขึ้น
เร็ว ๆ นี้เราจะเสนอการเข้าถึง API ไปยังรุ่น Agent-1-Vision ของเรา
หากคุณสนใจที่จะเข้าถึง API นี้ลงทะเบียนที่นี่
Self-Operating Computer pip install self-operating-computer
operate
vim .env เพื่อเปิด .env และแทนที่คีย์เก่า 


operate-m ตอนนี้โมเดลเพิ่มเติมเข้ากันได้กับเฟรมเวิร์กคอมพิวเตอร์ที่ใช้งานได้ด้วยตนเอง ลองใช้ gemini-pro-vision ของ Google โดยทำตามคำแนะนำด้านล่าง
เริ่ม operate กับรุ่นราศีเมถุน
operate -m gemini-pro-vision
ป้อนคีย์ Google AI Studio API ของคุณเมื่อเทอร์มินัลแจ้งให้คุณทราบ หากคุณไม่มีคุณสามารถรับคีย์ได้ที่นี่หลังจากตั้งค่าบัญชี Google AI Studio ของคุณ คุณอาจต้องได้รับอนุญาตให้ใช้ข้อมูลรับรองสำหรับแอปพลิเคชันเดสก์ท็อป ฉันใช้เวลาสักครู่เพื่อให้มันทำงานได้ถ้าใครรู้วิธีที่ง่ายกว่าโปรดทำ PR
-m claude-3ใช้ Claude 3 พร้อมวิสัยทัศน์เพื่อดูว่ามันซ้อนกันได้ถึง GPT-4-Vision ที่ใช้งานคอมพิวเตอร์อย่างไร นำทางไปยังแผงควบคุม Claude เพื่อรับคีย์ API และเรียกใช้คำสั่งด้านล่างเพื่อลอง
operate -m claude-3
-m llava หากคุณต้องการทดลองใช้กรอบคอมพิวเตอร์ที่ดำเนินการด้วยตนเองโดยใช้ LLAVA บนเครื่องของคุณเองคุณสามารถใช้กับ Ollama ได้!
หมายเหตุ: ปัจจุบัน Ollama รองรับ MacOS และ Linux เท่านั้น
ก่อนอื่นให้ติดตั้ง Ollama บนเครื่องของคุณจาก https://ollama.ai/download
เมื่อติดตั้ง Ollama แล้วให้ดึงรุ่น LLAVA:
ollama pull llava
สิ่งนี้จะดาวน์โหลดรุ่นบนเครื่องของคุณซึ่งใช้พื้นที่เก็บข้อมูลประมาณ 5 GB
เมื่อ Ollama ดึง LLAVA เสร็จแล้วให้เริ่มเซิร์ฟเวอร์:
ollama serve
แค่ไหน! ตอนนี้เริ่ม operate และเลือกรุ่น LLAVA:
operate -m llava
สำคัญ: อัตราความผิดพลาดเมื่อใช้ LLAVA สูงมาก นี่เป็นเพียงจุดประสงค์ที่จะเป็นฐานในการสร้างแบบจำลองหลายรูปแบบในท้องถิ่นดีขึ้นเมื่อเวลาผ่านไป
เรียนรู้เพิ่มเติมเกี่ยวกับ Ollama ที่พื้นที่เก็บข้อมูล GitHub
--voiceเฟรมเวิร์กรองรับอินพุตเสียงสำหรับวัตถุประสงค์ ลองใช้เสียงโดยทำตามคำแนะนำด้านล่าง โคลน repo ไปยังไดเรกทอรีบนคอมพิวเตอร์ของคุณ:
git clone https://github.com/OthersideAI/self-operating-computer.git
ซีดีเป็นไดเรกทอรี :
cd self-operating-computer
ติดตั้ง requirements-audio.txt
pip install -r requirements-audio.txt
ติดตั้งข้อกำหนดของอุปกรณ์ สำหรับผู้ใช้ Mac:
brew install portaudio
สำหรับผู้ใช้ Linux:
sudo apt install portaudio19-dev python3-pyaudio
เรียกใช้กับโหมดเสียง
operate --voice
-m gpt-4-with-ocr เฟรมเวิร์กคอมพิวเตอร์ที่ดำเนินการด้วยตนเองตอนนี้รวมความสามารถในการจดจำอักขระออพติคอล (OCR) เข้ากับโหมด gpt-4-with-ocr โหมดนี้ให้แผนที่แฮช GPT-4 ขององค์ประกอบที่คลิกได้โดยพิกัด GPT-4 สามารถตัดสินใจที่จะ click องค์ประกอบตามข้อความจากนั้นรหัสอ้างอิงแผนที่แฮชเพื่อรับพิกัดสำหรับองค์ประกอบนั้น GPT-4 ต้องการคลิก
จากการทดสอบล่าสุด OCR ทำงานได้ดีกว่า som และ Vanilla GPT-4 ดังนั้นเราจึงทำให้เป็นค่าเริ่มต้นสำหรับโครงการ ในการใช้โหมด OCR คุณสามารถเขียนได้:
operate หรือ operate -m gpt-4-with-ocr จะทำงานได้เช่นกัน
-m gpt-4-with-som ขณะนี้เฟรมเวิร์กคอมพิวเตอร์ที่ดำเนินการด้วยตนเองรองรับการตั้งค่า (SOM) พร้อมกับคำสั่ง gpt-4-with-som วิธีการแจ้งเตือนภาพใหม่นี้ช่วยเพิ่มความสามารถในการลงดินในการมองเห็นของรุ่นหลายรูปแบบขนาดใหญ่
เรียนรู้เพิ่มเติมเกี่ยวกับการแจ้งเตือน SOM ในกระดาษ Arxiv โดยละเอียด: ที่นี่
สำหรับเวอร์ชันเริ่มต้นนี้รุ่น YOLOV8 แบบง่าย ๆ ได้รับการฝึกฝนสำหรับการตรวจจับปุ่มและไฟล์ best.pt จะรวมอยู่ใน model/weights/ ผู้ใช้จะได้รับการสนับสนุนให้แลกเปลี่ยนไฟล์ best.pt ของพวกเขาเพื่อประเมินการปรับปรุงประสิทธิภาพ หากโมเดลของคุณมีประสิทธิภาพสูงกว่ารุ่นที่มีอยู่โปรดมีส่วนร่วมโดยการสร้างคำขอดึง (PR)
เริ่ม operate กับโมเดล SOM
operate -m gpt-4-with-som
หากคุณต้องการมีส่วนร่วมตัวเองให้ดูที่ MD
สำหรับข้อมูลใด ๆ เกี่ยวกับการปรับปรุงโครงการนี้อย่าลังเลที่จะติดต่อ Josh บน Twitter
สำหรับการอภิปรายแบบเรียลไทม์และการสนับสนุนชุมชนเข้าร่วมเซิร์ฟเวอร์ Discord ของเรา
อัปเดตอยู่กับการพัฒนาล่าสุด:
จำเป็นต้องใช้โมเดล gpt-4o ในการปลดล็อกการเข้าถึงรุ่นนี้บัญชีของคุณจะต้องใช้จ่ายอย่างน้อย $ 5 ในเครดิต API การจ่ายเงินล่วงหน้าสำหรับเครดิตเหล่านี้จะปลดล็อกการเข้าถึงหากคุณยังไม่ได้ใช้เงินขั้นต่ำ $ 5
เรียนรู้เพิ่มเติม ที่นี่