Descarga self operating computer - Descarga de código fuente self operating computer

self operating computer

Otro código fuente

update to `1.4.6`

Descargar

Marco de computadora autoperante

Un marco para habilitar modelos multimodales para operar una computadora.

Usando las mismas entradas y salidas que un operador humano, el modelo ve la pantalla y decide en una serie de acciones de mouse y teclado para alcanzar un objetivo.

Características clave

Compatibilidad : diseñado para varios modelos multimodales.
Integración : actualmente integrada con GPT-4O, Gemini Pro Vision, Claude 3 y Llava.
Planes futuros : soporte para modelos adicionales.

Desarrollo continuo

En HyperWriteai, estamos desarrollando visión de agente-1-visión de un modelo multimodal con predicciones de ubicación de clic más precisas.

Acceso de API del modelo de visión del agente-1 visión

Pronto ofreceremos acceso de API a nuestro modelo Agent-1-Vision.

Si está interesado en obtener acceso a esta API, regístrese aquí.

Manifestación

final-low.mp4

Ejecutar `Self-Operating Computer`

Instale el proyecto

 pip install self-operating-computer

Ejecutar el proyecto

 operate

Ingrese su tecla OpenAI : si no tiene una, puede obtener una tecla OpenAI aquí. Si necesita que cambie su clave en un punto posterior, ejecute vim .env para abrir el .env y reemplace la tecla anterior.

Dé a la aplicación Terminal los permisos requeridos : como último paso, la aplicación Terminal solicitará permiso para la "grabación de pantalla" y "accesibilidad" en la página "Seguridad y privacidad" de las "Preferencias del sistema" de Mac.

Usando modos `operate`

Modelos multimodales `-m`

Un modelo adicional ahora es compatible con el marco de computadora auto -operación. Pruebe gemini-pro-vision de Google siguiendo las instrucciones a continuación.

Comience operate con el modelo Géminis

 operate -m gemini-pro-vision

Ingrese su clave de API de Google AI Studio cuando el terminal lo solicite si no tiene una, puede obtener una clave aquí después de configurar su cuenta de Google AI Studio. También es posible que deba autorizar credenciales para una aplicación de escritorio. Me tomó un poco de tiempo hacer que funcionara, si alguien conoce una manera más simple, por favor haz un PR.

Prueba Claude `-m claude-3`

Use Claude 3 con Vision para ver cómo se acumula hasta GPT-4-Vision en la operación de una computadora. Navegue hasta el tablero de Claude para obtener una tecla API y ejecute el comando a continuación para probarlo.

 operate -m claude-3

Prueba Llava organizada a través de Ollama `-m llava`

Si desea experimentar con el marco de computadora autoperante usando Llava en su propia máquina, ¡puede con Ollama!
Nota: Ollama actualmente solo admite MacOS y Linux

Primero, instale Ollama en su máquina desde https://ollama.ai/download.

Una vez que se instala Ollama, tire del modelo LLAVA:

 ollama pull llava

Esto descargará el modelo en su máquina que toma aproximadamente 5 GB de almacenamiento.

Cuando Ollama haya terminado de tirar de Llava, inicie el servidor:

 ollama serve

¡Eso es todo! Ahora comience operate y seleccione el modelo LLAVA:

 operate -m llava

IMPORTANTE: Las tasas de error al usar Llava son muy altas. Esto simplemente pretende ser una base para construir a medida que los modelos multimodales locales mejoran con el tiempo.

Obtenga más información sobre Ollama en su repositorio de Github

Modo de voz `--voice`

El marco admite entradas de voz para el objetivo. Pruebe la voz siguiendo las instrucciones a continuación. Clonar el repositorio a un directorio en su computadora:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD en directorio :

 cd self-operating-computer

Instale los requirements-audio.txt

 pip install -r requirements-audio.txt

Instalar requisitos del dispositivo para usuarios de Mac:

 brew install portaudio

Para usuarios de Linux:

 sudo apt install portaudio19-dev python3-pyaudio

Ejecutar con modo de voz

 operate --voice

Modo de reconocimiento de caracteres ópticos `-m gpt-4-with-ocr`

El marco informático autoperante ahora integra las capacidades de reconocimiento de caracteres ópticos (OCR) con el modo gpt-4-with-ocr . Este modo le da a GPT-4 un mapa hash de elementos haciendo clic por coordenadas. GPT-4 puede decidir hacer click elementos por texto y luego el código hace referencia al mapa hash para obtener las coordenadas de ese elemento GPT-4 quería hacer clic.

Según las pruebas recientes, OCR funciona mejor que som y Vanilla GPT-4, por lo que lo hicimos predeterminado para el proyecto. Para usar el modo OCR, simplemente puede escribir:

operate u operate -m gpt-4-with-ocr también funcionará.

Conjunto de marcas de marca `-m gpt-4-with-som`

El marco de computadora autoperante ahora admite una marca de marca (SOM) que solicita el comando gpt-4-with-som . Este nuevo método de solicitación visual mejora las capacidades de conexión a tierra visual de grandes modelos multimodales.

Obtenga más información sobre SOM que solicita en el artículo detallado de ARXIV: aquí.

Para esta versión inicial, un modelo Yolov8 simple está entrenado para la detección de botones, y el archivo best.pt se incluye en model/weights/ . Se alienta a los usuarios a intercambiar en su best.pt archivo.pt para evaluar las mejoras de rendimiento. Si su modelo supera al existente, contribuya creando una solicitud de extracción (PR).

Comience operate con el modelo SOM

 operate -m gpt-4-with-som

¡Las contribuciones son bienvenidas!:

Si desea contribuir, vea contribuir.md.

Comentario

Para cualquier opinión sobre la mejora de este proyecto, no dude en comunicarse con Josh en Twitter.

Únete a nuestra comunidad de Discord

Para discusiones en tiempo real y apoyo comunitario, únase a nuestro servidor de discordia.

Si ya eres miembro, únete a la discusión en #autocomputadora autoperante.
Si eres nuevo, primero únete a nuestro servidor Discord y luego navegue a la computadora auto-operadora.

Siga a HyperWriteai para obtener más actualizaciones

Manténgase actualizado con los últimos desarrollos:

Sigue a HyperWriteai en Twitter.
Siga HyperWritei en LinkedIn.

Compatibilidad

Este proyecto es compatible con Mac OS, Windows y Linux (con el servidor X instalado).

Nota limitante de tarifa de OpenAI

Se requiere el modelo gpt-4o . Para desbloquear el acceso a este modelo, su cuenta debe gastar al menos $ 5 en créditos API. El pago previo para estos créditos desbloqueará el acceso si aún no ha gastado el mínimo de $ 5.
Aprenda más aquí

Expandir

Información adicional