Téléchargement self operating computer - Téléchargement du code source self operating computer

self operating computer

Autre code source

update to `1.4.6`

Télécharger

Cadre informatique auto-opérant

Un cadre pour permettre aux modèles multimodaux de faire fonctionner un ordinateur.

En utilisant les mêmes entrées et sorties qu'un opérateur humain, le modèle considère l'écran et décide d'une série d'actions de souris et de clavier pour atteindre un objectif.

Caractéristiques clés

Compatibilité : conçue pour divers modèles multimodaux.
Intégration : actuellement intégrée à GPT-4O, Gemini Pro Vision, Claude 3 et Llava.
Plans futurs : Prise en charge des modèles supplémentaires.

Développement continu

Chez HyperWriteai, nous développons un modèle multimodal d'agent-1 avec des prévisions d'emplacement de clic plus précises.

Accès de l'API du modèle d'agent-1-vision

Nous offrirons bientôt un accès API à notre modèle Agent-1-Vision.

Si vous souhaitez avoir accès à cette API, inscrivez-vous ici.

Démo

final-low.mp4

Exécuter `Self-Operating Computer`

Installer le projet

 pip install self-operating-computer

Exécuter le projet

 operate

Entrez votre clé Openai : si vous n'en avez pas, vous pouvez obtenir une touche Openai ici. Si vous avez besoin de changer votre clé plus tard, exécutez vim .env pour ouvrir le .env et remplacer l'ancienne touche.

Donnez à l'application Terminal les autorisations requises : Dans la dernière étape, l'application Terminal demandera l'autorisation de "l'enregistrement d'écran" et de "l'accessibilité" dans la page "Security & Privacy" des "Préférences système" de Mac.

Utilisation de modes `operate`

Modèles multimodaux `-m`

Un modèle supplémentaire est désormais compatible avec le cadre d'auto-opération informatique. Essayez gemini-pro-vision de Google en suivant les instructions ci-dessous.

Commencez operate avec le modèle Gemini

 operate -m gemini-pro-vision

Entrez votre clé API Google AI Studio lorsque Terminal vous invite à cela si vous n'en avez pas, vous pouvez obtenir une clé ici après avoir configuré votre compte Google AI Studio. Vous pouvez également avoir besoin d'autoriser des informations d'identification pour une application de bureau. Il m'a fallu un peu de temps pour le faire fonctionner, si quelqu'un connaît une manière plus simple, veuillez faire un RP.

Essayez Claude `-m claude-3`

Utilisez Claude 3 avec Vision pour voir comment il s'accumule à GPT-4-VISION dans le fonctionnement d'un ordinateur. Accédez au tableau de bord Claude pour obtenir une touche API et exécutez la commande ci-dessous pour l'essayer.

 operate -m claude-3

Essayez llava organisé via olllama `-m llava`

Si vous souhaitez expérimenter le cadre informatique auto-opérant à l'aide de Llava sur votre propre machine, vous pouvez avec Olllama!
Remarque: Ollama ne prend actuellement en charge que MacOS et Linux

Tout d'abord, installez Olllama sur votre machine à partir de https://ollama.ai/download.

Une fois le olllama installé, tirez le modèle Llava:

 ollama pull llava

Cela téléchargera le modèle sur votre machine qui prend environ 5 Go de stockage.

Lorsque Olllama a fini de tirer Llava, démarrez le serveur:

 ollama serve

C'est ça! Commencez maintenant operate et sélectionnez le modèle LLAVA:

 operate -m llava

Important: les taux d'erreur lors de l'utilisation de LLAVA sont très élevés. Ceci est simplement destiné à être une base pour construire à mesure que les modèles multimodaux locaux s'améliorent avec le temps.

En savoir plus sur Ollama dans son référentiel GitHub

Mode vocal `--voice`

Le cadre prend en charge les entrées vocales pour l'objectif. Essayez la voix en suivant les instructions ci-dessous. Clone le repo dans un répertoire sur votre ordinateur:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD dans le répertoire :

 cd self-operating-computer

Installez les requirements-audio.txt

 pip install -r requirements-audio.txt

Installez les exigences de l'appareil pour les utilisateurs de Mac:

 brew install portaudio

Pour les utilisateurs de Linux:

 sudo apt install portaudio19-dev python3-pyaudio

Exécutez avec le mode vocal

 operate --voice

Mode de reconnaissance des caractères optiques `-m gpt-4-with-ocr`

Le cadre informatique auto-exploitant intègre désormais les capacités de reconnaissance des caractères optiques (OCR) avec le mode gpt-4-with-ocr . Ce mode donne à GPT-4 une carte de hachage des éléments cliquables par coordonnées. GPT-4 peut décider de click des éléments par texte, puis le code fait référence à la carte de hachage pour obtenir les coordonnées de cet élément que GPT-4 voulait cliquer.

Sur la base de tests récents, l'OCR fonctionne mieux que som et Vanilla GPT-4, nous en avons donc fait la valeur par défaut du projet. Pour utiliser le mode OCR, vous pouvez simplement écrire:

operate ou operate -m gpt-4-with-ocr fonctionnera également.

Invitation de marque `-m gpt-4-with-som`

Le cadre informatique auto-exploitant prend désormais en charge l'invitation du jeu de marques (SOM) avec la commande gpt-4-with-som . Cette nouvelle méthode d'incitation visuelle améliore les capacités de mise à la terre visuelles des grands modèles multimodaux.

En savoir plus sur SOM Invite dans le document ARXIV détaillé: ici.

Pour cette version initiale, un modèle YOLOV8 simple est formé pour la détection des bouton, et le fichier best.pt est inclus sous model/weights/ . Les utilisateurs sont encouragés à échanger dans leur fichier best.pt pour évaluer les améliorations des performances. Si votre modèle surpasse celui existant, veuillez contribuer en créant une demande de traction (PR).

Commencez operate avec le modèle SOM

 operate -m gpt-4-with-som

Les contributions sont les bienvenues !:

Si vous voulez vous contribuer, voir contribution.md.

Retour

Pour toute contribution à l'amélioration de ce projet, n'hésitez pas à contacter Josh sur Twitter.

Rejoignez notre communauté Discord

Pour les discussions en temps réel et le support communautaire, rejoignez notre serveur Discord.

Si vous êtes déjà membre, rejoignez la discussion dans # auto-ordinateur.
Si vous êtes nouveau, rejoignez d'abord notre serveur Discord, puis accédez au # auto-ordinateur.

Suivez Hyperwriteai pour plus de mises à jour

Restez à jour avec les derniers développements:

Suivez Hyperwriteai sur Twitter.
Suivez Hyperwriteai sur LinkedIn.

Compatibilité

Ce projet est compatible avec Mac OS, Windows et Linux (avec X serveur installé).

Remarque limitant le taux openai

Le modèle gpt-4o est requis. Pour débloquer l'accès à ce modèle, votre compte doit dépenser au moins 5 $ en crédits API. Le pré-payant pour ces crédits débloquera l'accès si vous n'avez pas déjà dépensé le minimum 5 $.
En savoir plus ici

Développer

Informations supplémentaires