Un cadre pour permettre aux modèles multimodaux de faire fonctionner un ordinateur.
En utilisant les mêmes entrées et sorties qu'un opérateur humain, le modèle considère l'écran et décide d'une série d'actions de souris et de clavier pour atteindre un objectif.

Chez HyperWriteai, nous développons un modèle multimodal d'agent-1 avec des prévisions d'emplacement de clic plus précises.
Nous offrirons bientôt un accès API à notre modèle Agent-1-Vision.
Si vous souhaitez avoir accès à cette API, inscrivez-vous ici.
Self-Operating Computer pip install self-operating-computer
operate
vim .env pour ouvrir le .env et remplacer l'ancienne touche. 


operate-m Un modèle supplémentaire est désormais compatible avec le cadre d'auto-opération informatique. Essayez gemini-pro-vision de Google en suivant les instructions ci-dessous.
Commencez operate avec le modèle Gemini
operate -m gemini-pro-vision
Entrez votre clé API Google AI Studio lorsque Terminal vous invite à cela si vous n'en avez pas, vous pouvez obtenir une clé ici après avoir configuré votre compte Google AI Studio. Vous pouvez également avoir besoin d'autoriser des informations d'identification pour une application de bureau. Il m'a fallu un peu de temps pour le faire fonctionner, si quelqu'un connaît une manière plus simple, veuillez faire un RP.
-m claude-3Utilisez Claude 3 avec Vision pour voir comment il s'accumule à GPT-4-VISION dans le fonctionnement d'un ordinateur. Accédez au tableau de bord Claude pour obtenir une touche API et exécutez la commande ci-dessous pour l'essayer.
operate -m claude-3
-m llava Si vous souhaitez expérimenter le cadre informatique auto-opérant à l'aide de Llava sur votre propre machine, vous pouvez avec Olllama!
Remarque: Ollama ne prend actuellement en charge que MacOS et Linux
Tout d'abord, installez Olllama sur votre machine à partir de https://ollama.ai/download.
Une fois le olllama installé, tirez le modèle Llava:
ollama pull llava
Cela téléchargera le modèle sur votre machine qui prend environ 5 Go de stockage.
Lorsque Olllama a fini de tirer Llava, démarrez le serveur:
ollama serve
C'est ça! Commencez maintenant operate et sélectionnez le modèle LLAVA:
operate -m llava
Important: les taux d'erreur lors de l'utilisation de LLAVA sont très élevés. Ceci est simplement destiné à être une base pour construire à mesure que les modèles multimodaux locaux s'améliorent avec le temps.
En savoir plus sur Ollama dans son référentiel GitHub
--voiceLe cadre prend en charge les entrées vocales pour l'objectif. Essayez la voix en suivant les instructions ci-dessous. Clone le repo dans un répertoire sur votre ordinateur:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD dans le répertoire :
cd self-operating-computer
Installez les requirements-audio.txt
pip install -r requirements-audio.txt
Installez les exigences de l'appareil pour les utilisateurs de Mac:
brew install portaudio
Pour les utilisateurs de Linux:
sudo apt install portaudio19-dev python3-pyaudio
Exécutez avec le mode vocal
operate --voice
-m gpt-4-with-ocr Le cadre informatique auto-exploitant intègre désormais les capacités de reconnaissance des caractères optiques (OCR) avec le mode gpt-4-with-ocr . Ce mode donne à GPT-4 une carte de hachage des éléments cliquables par coordonnées. GPT-4 peut décider de click des éléments par texte, puis le code fait référence à la carte de hachage pour obtenir les coordonnées de cet élément que GPT-4 voulait cliquer.
Sur la base de tests récents, l'OCR fonctionne mieux que som et Vanilla GPT-4, nous en avons donc fait la valeur par défaut du projet. Pour utiliser le mode OCR, vous pouvez simplement écrire:
operate ou operate -m gpt-4-with-ocr fonctionnera également.
-m gpt-4-with-som Le cadre informatique auto-exploitant prend désormais en charge l'invitation du jeu de marques (SOM) avec la commande gpt-4-with-som . Cette nouvelle méthode d'incitation visuelle améliore les capacités de mise à la terre visuelles des grands modèles multimodaux.
En savoir plus sur SOM Invite dans le document ARXIV détaillé: ici.
Pour cette version initiale, un modèle YOLOV8 simple est formé pour la détection des bouton, et le fichier best.pt est inclus sous model/weights/ . Les utilisateurs sont encouragés à échanger dans leur fichier best.pt pour évaluer les améliorations des performances. Si votre modèle surpasse celui existant, veuillez contribuer en créant une demande de traction (PR).
Commencez operate avec le modèle SOM
operate -m gpt-4-with-som
Si vous voulez vous contribuer, voir contribution.md.
Pour toute contribution à l'amélioration de ce projet, n'hésitez pas à contacter Josh sur Twitter.
Pour les discussions en temps réel et le support communautaire, rejoignez notre serveur Discord.
Restez à jour avec les derniers développements:
Le modèle gpt-4o est requis. Pour débloquer l'accès à ce modèle, votre compte doit dépenser au moins 5 $ en crédits API. Le pré-payant pour ces crédits débloquera l'accès si vous n'avez pas déjà dépensé le minimum 5 $.
En savoir plus ici