Download self operating computer self operating computer

self operating computer

Anderer Quellcode

update to `1.4.6`

Herunterladen

Selbstoperativer Computer-Framework

Ein Framework, mit dem multimodale Modelle einen Computer betreiben können.

Mit den gleichen Eingaben und Ausgängen wie menschlicher Bediener betrachtet das Modell den Bildschirm und entscheidet sich für eine Reihe von Maus- und Tastaturaktionen, um ein Ziel zu erreichen.

Schlüsselmerkmale

Kompatibilität : Für verschiedene multimodale Modelle entwickelt.
Integration : Derzeit in GPT-4O, Gemini Pro Vision, Claude 3 und Llava integriert.
Zukunftspläne : Unterstützung für zusätzliche Modelle.

Laufende Entwicklung

Bei HyperWriteAI entwickeln wir ein multimodales Modell mit genaueren Klick-Standortvorhersagen.

AGENT-1-VISION-Modell-API-Zugriff

In Kürze werden wir API-Zugriff auf unser Modell der Agent-1-Vision anbieten.

Wenn Sie daran interessiert sind, Zugriff auf diese API zu erhalten, melden Sie sich hier an.

Demo

Final-Low.mp4

Führen Sie `Self-Operating Computer` aus

Installieren Sie das Projekt

 pip install self-operating-computer

Führen Sie das Projekt aus

 operate

Geben Sie Ihren OpenAI -Schlüssel ein : Wenn Sie keinen haben, können Sie hier einen OpenAI -Schlüssel erhalten. Wenn Sie zu einem späteren Zeitpunkt Ihren Schlüssel ändern, führen Sie vim .env aus, um den .env zu öffnen und den alten Schlüssel zu ersetzen.

Geben Sie die Terminal -App die erforderlichen Berechtigungen an : Als letzter Schritt fordert die Terminal -App die Erlaubnis für die "Bildschirmaufzeichnung" und "Barrierefreiheit" auf der Seite "Sicherheit und Datenschutz" von Macs "Systemeinstellungen".

Verwenden von `operate`

Multimodale Modelle `-m`

Ein zusätzliches Modell ist jetzt mit dem selbstbetrieblichen Computer -Framework kompatibel. Probieren Sie Googles gemini-pro-vision aus, indem Sie den folgenden Anweisungen folgen.

Starten operate mit dem Gemini -Modell

 operate -m gemini-pro-vision

Geben Sie Ihren Google AI Studio -API -Schlüssel ein, wenn das Terminal Sie dazu auffordert, wenn Sie keinen haben, können Sie hier einen Schlüssel erhalten, nachdem Sie Ihr Google AI Studio -Konto eingerichtet haben. Möglicherweise müssen Sie auch Anmeldeinformationen für eine Desktop -Anwendung autorisieren. Ich habe ein bisschen Zeit gebraucht, um es zum Laufen zu bringen. Wenn jemand einen einfacheren Weg kennt, machen Sie bitte eine PR.

Probieren Sie Claude `-m claude-3`

Verwenden Sie Claude 3 mit Vision, um zu sehen, wie es sich auf die GPT-4-Vision stapelt, um einen Computer zu betreiben. Navigieren Sie zum Claude -Dashboard, um eine API -Taste zu erhalten, und führen Sie den folgenden Befehl aus, um es zu versuchen.

 operate -m claude-3

Versuchen Sie Llava, die über Ollama `-m llava` veranstaltet wurde

Wenn Sie mit dem selbstoperativen Computer-Framework mit LLAVA auf Ihrer eigenen Maschine experimentieren möchten, können Sie mit Ollama!
Hinweis: Ollama unterstützt derzeit nur MacOS und Linux

Installieren Sie zunächst Ollama auf Ihrem Computer von https://ollama.ai/download.

Sobald Ollama installiert ist, ziehen Sie das LLAVA -Modell:

 ollama pull llava

Dadurch wird das Modell auf Ihrem Computer heruntergeladen, das ungefähr 5 GB Speicherplatz benötigt.

Wenn Ollama LLAVA fertig hat, starten Sie den Server:

 ollama serve

Das war's! Starten Sie nun operate und wählen Sie das LLAVA -Modell aus:

 operate -m llava

Wichtig: Fehlerraten bei der Verwendung von LLAVA sind sehr hoch. Dies soll einfach eine Basis sein, die sich im Laufe der Zeit verbessern, wenn sich lokale multimodale Modelle verbessern.

Erfahren Sie mehr über Ollama im Github -Repository

Sprachmodus `--voice`

Das Framework unterstützt Spracheingaben für das Ziel. Versuchen Sie die Stimme, indem Sie den folgenden Anweisungen folgen. Klonen Sie das Repo in ein Verzeichnis auf Ihrem Computer:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD in Verzeichnis :

 cd self-operating-computer

Installieren Sie den zusätzlichen requirements-audio.txt

 pip install -r requirements-audio.txt

Installieren Sie die Geräteanforderungen für Mac -Benutzer:

 brew install portaudio

Für Linux -Benutzer:

 sudo apt install portaudio19-dev python3-pyaudio

Mit dem Sprachmodus laufen

 operate --voice

Optischer Charaktererkennungsmodus `-m gpt-4-with-ocr`

Der selbstoperative Computer-Framework integriert nun die Funktionen für optische Charaktererkennung (OCR) in den gpt-4-with-ocr Modus. In diesem Modus gibt GPT-4 eine Hash-Karte von klickbaren Elementen nach Koordinaten. GPT-4 kann sich entscheiden, auf Elemente nach Text zu click und dann bezieht sich der Code auf die Hash-Karte, um die Koordinaten für dieses Element zu erhalten, das GPT-4 klicken wollte.

Basierend auf den jüngsten Tests ist OCR besser als som und Vanilla GPT-4, sodass wir es zum Ausfall für das Projekt gemacht haben. Um den OCR -Modus zu verwenden, können Sie einfach schreiben:

operate oder operate -m gpt-4-with-ocr wird ebenfalls funktionieren.

Set-of-Marke-Aufforderung `-m gpt-4-with-som`

Das selbstoperative Computer-Framework unterstützt nun die Aufforderung zum Set-of-Mark (SOM) mit dem Befehl gpt-4-with-som . Diese neue Methode zur visuellen Aufforderung verbessert die visuellen Erdungsfunktionen großer multimodaler Modelle.

Erfahren Sie mehr über die Aufforderung in das detaillierte Arxiv -Papier: Hier.

Für diese anfängliche Version wird ein einfaches YOLOV8 -Modell für die Tastenderkennung geschult, und die best.pt Datei am model/weights/ . Benutzer werden aufgefordert, in best.pt Datei auszutauschen, um Leistungsverbesserungen zu bewerten. Wenn Ihr Modell den vorhandenen übertrifft, leisten Sie bitte einen Beitrag, indem Sie eine Pull Request (PR) erstellen.

Starten Sie mit dem SOM -Modell operate

 operate -m gpt-4-with-som

Beiträge sind begrüßt !:

Wenn Sie sich selbst beitragen möchten, sehen Sie, dass Sie beitragen.md.

Rückmeldung

Für jegliche Beiträge zur Verbesserung dieses Projekts können Sie Josh auf Twitter wenden.

Treten Sie unserer Discord -Community bei

Für Echtzeitdiskussionen und Community-Support treten Sie auf unserem Discord-Server bei.

Wenn Sie bereits Mitglied sind, nehmen Sie an der Diskussion in #Self-Operating-Computer teil.
Wenn Sie neu sind, schließen Sie sich zuerst auf unserem Discord-Server bei und navigieren Sie dann zum #Self-operating-Computer.

Folgen Sie Hyperwriteai, um weitere Updates zu erhalten

Bleiben Sie mit den neuesten Entwicklungen auf dem Laufenden:

Folgen Sie Hyperwriteai auf Twitter.
Folgen Sie Hyperwriteai auf LinkedIn.

Kompatibilität

Dieses Projekt ist mit Mac OS, Windows und Linux (mit X Server installiert) kompatibel.

OpenAI -Ratenbeschränkungsnote

Das gpt-4o Modell ist erforderlich. Um den Zugriff auf dieses Modell freizuschalten, muss Ihr Konto mindestens 5 US -Dollar für API -Credits ausgeben. Durch das Vorauszahlung dieser Credits wird der Zugriff freigegeben, wenn Sie noch nicht die mindestens 5 US-Dollar ausgegeben haben.
Erfahren Sie hier mehr

Expandieren

Zusätzliche Informationen

Version update to `1.4.6`
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-01
Größe 6.31MB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Self Care Goals Tracker-App

2024-03-18
Keychain Maker Mobile Version (Selbstverteidigungs-Schlüsselanhängerspiel)

2023-10-24
Selbstvertrauen

2023-05-19
Selbstisolation

2022-08-09

self operating computer

Selbstoperativer Computer-Framework

Schlüsselmerkmale

Laufende Entwicklung

AGENT-1-VISION-Modell-API-Zugriff

Demo

Führen Sie `Self-Operating Computer` aus

Verwenden von `operate`

Multimodale Modelle `-m`

Probieren Sie Claude `-m claude-3`

Versuchen Sie Llava, die über Ollama `-m llava` veranstaltet wurde

Sprachmodus `--voice`

Optischer Charaktererkennungsmodus `-m gpt-4-with-ocr`

Set-of-Marke-Aufforderung `-m gpt-4-with-som`

Beiträge sind begrüßt !:

Rückmeldung

Treten Sie unserer Discord -Community bei

Folgen Sie Hyperwriteai, um weitere Updates zu erhalten

Kompatibilität

OpenAI -Ratenbeschränkungsnote

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Self Care Goals Tracker-App

Keychain Maker Mobile Version (Selbstverteidigungs-Schlüsselanhängerspiel)

Selbstvertrauen

Selbstisolation

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf

self operating computer

Selbstoperativer Computer-Framework

Schlüsselmerkmale

Laufende Entwicklung

AGENT-1-VISION-Modell-API-Zugriff

Demo

Führen Sie Self-Operating Computer aus

Verwenden von operate

Multimodale Modelle -m

Probieren Sie Claude -m claude-3

Versuchen Sie Llava, die über Ollama -m llava veranstaltet wurde

Sprachmodus --voice

Optischer Charaktererkennungsmodus -m gpt-4-with-ocr

Set-of-Marke-Aufforderung -m gpt-4-with-som

Beiträge sind begrüßt !:

Rückmeldung

Treten Sie unserer Discord -Community bei

Folgen Sie Hyperwriteai, um weitere Updates zu erhalten

Kompatibilität

OpenAI -Ratenbeschränkungsnote

Führen Sie `Self-Operating Computer` aus

Verwenden von `operate`

Multimodale Modelle `-m`

Probieren Sie Claude `-m claude-3`

Versuchen Sie Llava, die über Ollama `-m llava` veranstaltet wurde

Sprachmodus `--voice`

Optischer Charaktererkennungsmodus `-m gpt-4-with-ocr`

Set-of-Marke-Aufforderung `-m gpt-4-with-som`