Un marco para habilitar modelos multimodales para operar una computadora.
Usando las mismas entradas y salidas que un operador humano, el modelo ve la pantalla y decide en una serie de acciones de mouse y teclado para alcanzar un objetivo.

En HyperWriteai, estamos desarrollando visión de agente-1-visión de un modelo multimodal con predicciones de ubicación de clic más precisas.
Pronto ofreceremos acceso de API a nuestro modelo Agent-1-Vision.
Si está interesado en obtener acceso a esta API, regístrese aquí.
Self-Operating Computer pip install self-operating-computer
operate
vim .env para abrir el .env y reemplace la tecla anterior. 


operate-m Un modelo adicional ahora es compatible con el marco de computadora auto -operación. Pruebe gemini-pro-vision de Google siguiendo las instrucciones a continuación.
Comience operate con el modelo Géminis
operate -m gemini-pro-vision
Ingrese su clave de API de Google AI Studio cuando el terminal lo solicite si no tiene una, puede obtener una clave aquí después de configurar su cuenta de Google AI Studio. También es posible que deba autorizar credenciales para una aplicación de escritorio. Me tomó un poco de tiempo hacer que funcionara, si alguien conoce una manera más simple, por favor haz un PR.
-m claude-3Use Claude 3 con Vision para ver cómo se acumula hasta GPT-4-Vision en la operación de una computadora. Navegue hasta el tablero de Claude para obtener una tecla API y ejecute el comando a continuación para probarlo.
operate -m claude-3
-m llava Si desea experimentar con el marco de computadora autoperante usando Llava en su propia máquina, ¡puede con Ollama!
Nota: Ollama actualmente solo admite MacOS y Linux
Primero, instale Ollama en su máquina desde https://ollama.ai/download.
Una vez que se instala Ollama, tire del modelo LLAVA:
ollama pull llava
Esto descargará el modelo en su máquina que toma aproximadamente 5 GB de almacenamiento.
Cuando Ollama haya terminado de tirar de Llava, inicie el servidor:
ollama serve
¡Eso es todo! Ahora comience operate y seleccione el modelo LLAVA:
operate -m llava
IMPORTANTE: Las tasas de error al usar Llava son muy altas. Esto simplemente pretende ser una base para construir a medida que los modelos multimodales locales mejoran con el tiempo.
Obtenga más información sobre Ollama en su repositorio de Github
--voiceEl marco admite entradas de voz para el objetivo. Pruebe la voz siguiendo las instrucciones a continuación. Clonar el repositorio a un directorio en su computadora:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD en directorio :
cd self-operating-computer
Instale los requirements-audio.txt
pip install -r requirements-audio.txt
Instalar requisitos del dispositivo para usuarios de Mac:
brew install portaudio
Para usuarios de Linux:
sudo apt install portaudio19-dev python3-pyaudio
Ejecutar con modo de voz
operate --voice
-m gpt-4-with-ocr El marco informático autoperante ahora integra las capacidades de reconocimiento de caracteres ópticos (OCR) con el modo gpt-4-with-ocr . Este modo le da a GPT-4 un mapa hash de elementos haciendo clic por coordenadas. GPT-4 puede decidir hacer click elementos por texto y luego el código hace referencia al mapa hash para obtener las coordenadas de ese elemento GPT-4 quería hacer clic.
Según las pruebas recientes, OCR funciona mejor que som y Vanilla GPT-4, por lo que lo hicimos predeterminado para el proyecto. Para usar el modo OCR, simplemente puede escribir:
operate u operate -m gpt-4-with-ocr también funcionará.
-m gpt-4-with-som El marco de computadora autoperante ahora admite una marca de marca (SOM) que solicita el comando gpt-4-with-som . Este nuevo método de solicitación visual mejora las capacidades de conexión a tierra visual de grandes modelos multimodales.
Obtenga más información sobre SOM que solicita en el artículo detallado de ARXIV: aquí.
Para esta versión inicial, un modelo Yolov8 simple está entrenado para la detección de botones, y el archivo best.pt se incluye en model/weights/ . Se alienta a los usuarios a intercambiar en su best.pt archivo.pt para evaluar las mejoras de rendimiento. Si su modelo supera al existente, contribuya creando una solicitud de extracción (PR).
Comience operate con el modelo SOM
operate -m gpt-4-with-som
Si desea contribuir, vea contribuir.md.
Para cualquier opinión sobre la mejora de este proyecto, no dude en comunicarse con Josh en Twitter.
Para discusiones en tiempo real y apoyo comunitario, únase a nuestro servidor de discordia.
Manténgase actualizado con los últimos desarrollos:
Se requiere el modelo gpt-4o . Para desbloquear el acceso a este modelo, su cuenta debe gastar al menos $ 5 en créditos API. El pago previo para estos créditos desbloqueará el acceso si aún no ha gastado el mínimo de $ 5.
Aprenda más aquí