Ein Framework, mit dem multimodale Modelle einen Computer betreiben können.
Mit den gleichen Eingaben und Ausgängen wie menschlicher Bediener betrachtet das Modell den Bildschirm und entscheidet sich für eine Reihe von Maus- und Tastaturaktionen, um ein Ziel zu erreichen.

Bei HyperWriteAI entwickeln wir ein multimodales Modell mit genaueren Klick-Standortvorhersagen.
In Kürze werden wir API-Zugriff auf unser Modell der Agent-1-Vision anbieten.
Wenn Sie daran interessiert sind, Zugriff auf diese API zu erhalten, melden Sie sich hier an.
Self-Operating Computer aus pip install self-operating-computer
operate
vim .env aus, um den .env zu öffnen und den alten Schlüssel zu ersetzen. 


operate-m Ein zusätzliches Modell ist jetzt mit dem selbstbetrieblichen Computer -Framework kompatibel. Probieren Sie Googles gemini-pro-vision aus, indem Sie den folgenden Anweisungen folgen.
Starten operate mit dem Gemini -Modell
operate -m gemini-pro-vision
Geben Sie Ihren Google AI Studio -API -Schlüssel ein, wenn das Terminal Sie dazu auffordert, wenn Sie keinen haben, können Sie hier einen Schlüssel erhalten, nachdem Sie Ihr Google AI Studio -Konto eingerichtet haben. Möglicherweise müssen Sie auch Anmeldeinformationen für eine Desktop -Anwendung autorisieren. Ich habe ein bisschen Zeit gebraucht, um es zum Laufen zu bringen. Wenn jemand einen einfacheren Weg kennt, machen Sie bitte eine PR.
-m claude-3Verwenden Sie Claude 3 mit Vision, um zu sehen, wie es sich auf die GPT-4-Vision stapelt, um einen Computer zu betreiben. Navigieren Sie zum Claude -Dashboard, um eine API -Taste zu erhalten, und führen Sie den folgenden Befehl aus, um es zu versuchen.
operate -m claude-3
-m llava veranstaltet wurde Wenn Sie mit dem selbstoperativen Computer-Framework mit LLAVA auf Ihrer eigenen Maschine experimentieren möchten, können Sie mit Ollama!
Hinweis: Ollama unterstützt derzeit nur MacOS und Linux
Installieren Sie zunächst Ollama auf Ihrem Computer von https://ollama.ai/download.
Sobald Ollama installiert ist, ziehen Sie das LLAVA -Modell:
ollama pull llava
Dadurch wird das Modell auf Ihrem Computer heruntergeladen, das ungefähr 5 GB Speicherplatz benötigt.
Wenn Ollama LLAVA fertig hat, starten Sie den Server:
ollama serve
Das war's! Starten Sie nun operate und wählen Sie das LLAVA -Modell aus:
operate -m llava
Wichtig: Fehlerraten bei der Verwendung von LLAVA sind sehr hoch. Dies soll einfach eine Basis sein, die sich im Laufe der Zeit verbessern, wenn sich lokale multimodale Modelle verbessern.
Erfahren Sie mehr über Ollama im Github -Repository
--voiceDas Framework unterstützt Spracheingaben für das Ziel. Versuchen Sie die Stimme, indem Sie den folgenden Anweisungen folgen. Klonen Sie das Repo in ein Verzeichnis auf Ihrem Computer:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD in Verzeichnis :
cd self-operating-computer
Installieren Sie den zusätzlichen requirements-audio.txt
pip install -r requirements-audio.txt
Installieren Sie die Geräteanforderungen für Mac -Benutzer:
brew install portaudio
Für Linux -Benutzer:
sudo apt install portaudio19-dev python3-pyaudio
Mit dem Sprachmodus laufen
operate --voice
-m gpt-4-with-ocr Der selbstoperative Computer-Framework integriert nun die Funktionen für optische Charaktererkennung (OCR) in den gpt-4-with-ocr Modus. In diesem Modus gibt GPT-4 eine Hash-Karte von klickbaren Elementen nach Koordinaten. GPT-4 kann sich entscheiden, auf Elemente nach Text zu click und dann bezieht sich der Code auf die Hash-Karte, um die Koordinaten für dieses Element zu erhalten, das GPT-4 klicken wollte.
Basierend auf den jüngsten Tests ist OCR besser als som und Vanilla GPT-4, sodass wir es zum Ausfall für das Projekt gemacht haben. Um den OCR -Modus zu verwenden, können Sie einfach schreiben:
operate oder operate -m gpt-4-with-ocr wird ebenfalls funktionieren.
-m gpt-4-with-som Das selbstoperative Computer-Framework unterstützt nun die Aufforderung zum Set-of-Mark (SOM) mit dem Befehl gpt-4-with-som . Diese neue Methode zur visuellen Aufforderung verbessert die visuellen Erdungsfunktionen großer multimodaler Modelle.
Erfahren Sie mehr über die Aufforderung in das detaillierte Arxiv -Papier: Hier.
Für diese anfängliche Version wird ein einfaches YOLOV8 -Modell für die Tastenderkennung geschult, und die best.pt Datei am model/weights/ . Benutzer werden aufgefordert, in best.pt Datei auszutauschen, um Leistungsverbesserungen zu bewerten. Wenn Ihr Modell den vorhandenen übertrifft, leisten Sie bitte einen Beitrag, indem Sie eine Pull Request (PR) erstellen.
Starten Sie mit dem SOM -Modell operate
operate -m gpt-4-with-som
Wenn Sie sich selbst beitragen möchten, sehen Sie, dass Sie beitragen.md.
Für jegliche Beiträge zur Verbesserung dieses Projekts können Sie Josh auf Twitter wenden.
Für Echtzeitdiskussionen und Community-Support treten Sie auf unserem Discord-Server bei.
Bleiben Sie mit den neuesten Entwicklungen auf dem Laufenden:
Das gpt-4o Modell ist erforderlich. Um den Zugriff auf dieses Modell freizuschalten, muss Ihr Konto mindestens 5 US -Dollar für API -Credits ausgeben. Durch das Vorauszahlung dieser Credits wird der Zugriff freigegeben, wenn Sie noch nicht die mindestens 5 US-Dollar ausgegeben haben.
Erfahren Sie hier mehr