Descargar WindowsAgentArena - Descargar el código fuente WindowsAgentArena

WindowsAgentArena

Otro código fuente

v0.0.4

Descargar

Bandera

Windows Agent Arena (WAA)? es una plataforma de agente de IA de Windows escalable para probar y comparar agentes de IA de escritorio multimodal. WAA proporciona a los investigadores y desarrolladores un entorno de Windows OS reproducible y realista para la investigación de IA, donde los flujos de trabajo de IA de agente pueden probarse en una amplia gama de tareas.

WAA admite la implementación de agentes a escala utilizando la infraestructura de la nube Azure ML, permitiendo la ejecución paralela de múltiples agentes y entregando resultados de referencia rápidos para cientos de tareas en minutos, no días.

Waa.intro.mp4

? Actualizaciones

2024-11-10: ¡Agregamos un nuevo modo de dificultad para Windows Agent Arena! Puede probar el nuevo modo de dificultad más difícil cambiando el predeterminado diff_lvl="normal" a diff_lvl="hard" en src/win-arena-container/start_client.sh . Bajo la dificultad más difícil, en muchas tareas, los agentes también deben aprender a inicializar/configurar la tarea ellos mismos (por ejemplo, encontrar y abrir el programa/aplicación correcta para la tarea) en lugar de tener la tarea "configurada" para ellos por la tarea configuración.
2024-10-30: ¡Lanzamos el código para nuestro agente Navi con Omniparser! Para el modo de rendimiento superior en el papel, ejecute ./run-local.sh --som-origin mixed-omni --gpu-enabled true
2024-10-23: Microsoft Open-Ourced Omniparser, el modelo actual de comprensión de pantalla de alto rendimiento en nuestro punto de referencia.
2024-09-13: Lanzamos nuestro documento, código, página del proyecto y publicación de blog. ¡Échale un vistazo!

Citación

Nuestro documento de informe técnico se puede encontrar aquí. Si encuentra útil este entorno, considere citar nuestro trabajo:

 @article{bonatti2024windows,
author = { Bonatti, Rogerio and Zhao, Dan and Bonacci, Francesco and Dupont, Dillon, and Abdali, Sara and Li, Yinheng and Wagle, Justin and Koishida, Kazuhito and Bucker, Arthur and Jang, Lawrence and Hui, Zack},
title = {Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale},
institution = {Microsoft},
year = {2024},
month = {September}, 
}

☝️ Requisitos previos:

Docker Daemon instalado y en funcionamiento. En Windows, recomendamos usar Docker con WSL 2.
Una tecla API OpenAI o Azure OpenAI.
Python 3.9 - Recomendamos usar Conda y crear un entorno ADHOC Python para ejecutar los scripts. Para crear un nuevo entorno, ejecute conda create -n winarena python=3.9 .

Clon el repositorio e instalación de dependencias:

git clone https://github.com/microsoft/WindowsAgentArena.git
cd WindowsAgentArena
# Install the required dependencies in your python environment
# conda activate winarena
pip install -r requirements.txt

Implementación local (WSL o Linux)

1. Archivo de configuración

Cree un nuevo config.json en la raíz del proyecto con las claves necesarias (desde puntos finales de Operai o Azure):

{
    "OPENAI_API_KEY" : " <OPENAI_API_KEY> " , // if you are using OpenAI endpoint
    "AZURE_API_KEY" : " <AZURE_API_KEY> " ,  // if you are using Azure endpoint
    "AZURE_ENDPOINT" : " https://yourendpoint.openai.azure.com/ " , // if you are using Azure endpoint
}

2. Prepare la imagen de Docker de Windows Arena

2.1 Tire de la imagen de Base Winarena de Docker Hub

Para comenzar, extraiga la imagen base del Docker Hub:

docker pull windowsarena/winarena-base:latest

Esta imagen incluye todas las dependencias necesarias (como paquetes y modelos) necesarios para ejecutar el código en el directorio src .

2.2 Construya la imagen de Winarena localmente

A continuación, construya la imagen de Winarena localmente:

 cd scripts
./build-container-image.sh

# If there are any changes in 'Dockerfile-WinArena-Base', use the --build-base-image flag to build also the base image locally
# ./build-container-image.sh --build-base-image true

# For other build options:
# ./build-container-image.sh --help

Esto creará windowsarena/winarena:latest imagen con el último código del directorio src .

3. Prepare la VM de Windows 11

Waa.prepare.golden.image.mp4

3.1 Descargue la evaluación de Windows 11 .ISO:

Visite el Centro de Evaluación de Microsoft, acepte los Términos de servicio y descargue una evaluación empresarial de Windows 11 (prueba de 90 días, inglés, Estados Unidos) archivo ISO [~ 6GB]
Después de descargar, cambie el nombre del archivo a setup.iso y cópielo al directorio WindowsAgentArena/src/win-arena-container/vm/image

3.2 Configuración automática de la imagen dorada de Windows 11:

Antes de ejecutar la arena, debe preparar una nueva instantánea de WAA (también denominada imagen Golden WAA). Esta instantánea de 30 GB representa una VM de Windows 11 completamente funcional con todos los programas necesarios para ejecutar el punto de referencia. Esta VM también aloja un servidor Python que recibe y ejecuta comandos de agente. Para obtener más información sobre los componentes de juego, consulte nuestros diagramas de componentes locales y en la nube.

Para preparar la instantánea de oro, ejecute una vez :

 cd ./scripts
./run-local.sh --prepare-image true

Puede monitorear el progreso en http://localhost:8006 . El proceso de preparación está completamente automatizado y tomará ~ 20 minutos.

No interfiera con la VM mientras se está preparando. Se cerrará automáticamente cuando se complete el proceso de aprovisionamiento.

Al final, debe esperar que el contenedor Docker llamado winarena termine con gracia como se muestra en los siguientes registros.

Encontrará la imagen dorada WAA de 30 GB en WindowsAgentArena/src/win-arena-container/vm/storage , que consiste en los siguientes archivos:

Notas adicionales

Durante el desarrollo, si desea incluir algún cambio realizado en el directorio src/win-arena-container en la imagen Golden WAA, asegúrese de especificar el indicador --skip-build false en el script run-local.sh (predeterminado a verdadero). Esto asegurará que se construya una nueva imagen de contenedor en lugar de usar el windowsarena/winarena:latest imagen.
Si previamente ha ejecutado un proceso de instalación y desea volver a hacerlo desde cero, asegúrese de eliminar el contenido de storage .
Recomendamos copiar esta carpeta storage a una ubicación segura fuera del repositorio en caso de que usted o el agente corrompan accidentalmente a la VM en algún momento y desea evitar una nueva configuración.
Dependiendo de su configuración de Docker, es posible que deba ejecutar el comando anterior con sudo .
¿Ejecutando en WSL2? Si se encuentra con el error /bin/bash: bad interpreter: No such file or directory , recomendamos convertir los scripts de bash del formato DOS/Windows a un formato UNIX:

 cd ./scripts
find . -maxdepth 1 -type f -exec dos2unix {} +

4. Implementar al agente en la arena

4.1 Ejecutando el punto de referencia base

Ahora estás listo para lanzar la evaluación. Para ejecutar el agente de referencia en todas las tareas de referencia, haga:

 cd scripts
./run-local.sh
# For client/agent options:
# ./run-local.sh --help

Abra http: // localhost: 8006 para ver la VM de Windows con el agente en ejecución. Si tiene una PC robusta, puede ejecutar la configuración del agente más fuerte en nuestro documento haciendo:

./run-local.sh --gpu-enabled true --som-origin mixed-omni --a11y-backend uia

Al final de la ejecución, puede mostrar los resultados utilizando el comando:

 cd src/win-arena-container/client
python show_results.py --result_dir < path_to_results_folder >

Configuraciones disponibles

A continuación se muestra una comparación de varias combinaciones de hiperparámetros utilizados por el agente NAVI en nuestro estudio, que puede anularse especificando --som-origin <som_origin> --a11y-backend <a11y_backend> Al ejecutar el script run-local.sh :

Dominio	Descripción	Notas
`./run-local.sh --som-origin mixed-omni --a11y-backend uia`	Combina omniparser con la información del árbol de accesibilidad	Recomendado para obtener los mejores resultados
`./run-local.sh --som-origin omni`	Utiliza omniparser para la comprensión de la pantalla
`./run-local.sh --som-origin oss`	Utiliza WebParse, Reundingdino y OCR (Tesseractocr)	?Base
`./run-local.sh --som-origin a11y --a11y-backend uia`	Utiliza un árbol de accesibilidad más lento y preciso
`./run-local.sh --som-origin a11y --a11y-backend win32`	Utiliza un árbol de accesibilidad más rápido y menos preciso	?Lo más rápido
`./run-local.sh --som-origin mixed-oss --a11y-backend uia`	Combina detecciones de OSS con árbol de accesibilidad

--som-origin determina cómo el agente Navi detecta elementos de pantalla
--a11y-backend especifica el tipo de backend de accesibilidad (cuando se usa a11y o modos mixtos)

4.2 Consejos de desarrollo local

A primera vista, puede parecer difícil desarrollar/depurar código que se ejecuta dentro del contenedor Docker. Sin embargo, proporcionamos algunos consejos para facilitar este proceso. Consulte el documento de desarrollo de las puntas para obtener más detalles, como:

Cómo adjuntar una ventana VScode (con depurador) al contenedor en ejecución
Cómo cambiar el agente y el código del servidor de Windows desde su máquina local y ver los cambios reflejados en tiempo real en el contenedor

Despliegue de Azure -> Paralelizar el punto de referencia

Ofrecemos una forma perfecta de ejecutar Windows Agent Arena en Azure ML Compute VMS. Esta opción reducirá significativamente el tiempo necesario para probar a su agente en todas las tareas de referencia de horas/días a minutos.

1. Configure el grupo de recursos de Azure:

Si aún no tiene una suscripción de Azure, puede comenzar una prueba gratuita. Tome nota de la ID de suscripción, la usaremos como AZURE_SUBSCRIPTION_ID en la Sección 3.
En el portal de Azure, cree un nuevo grupo de recursos (por ejemplo, agents ) en la región de su elección. Tome nota del nombre del grupo de recursos, lo usaremos como AZURE_ML_RESOURCE_GROUP en la Sección 3.
Dentro de este grupo de recursos, cree un recurso de aprendizaje automático de Azure (por ejemplo, nombre a IT agents_ml ). Tome nota del nombre del espacio de trabajo ML, lo usaremos como AZURE_ML_WORKSPACE_NAME en la Sección 3. Durante el Asistente de creación, asegúrese de verificar las casillas para crear automáticamente nuevo:
- Cuenta de almacenamiento. Nota: Tome nota del nombre de la cuenta de almacenamiento, la usaremos para cargar la imagen dorada en la Sección 2.
- Bóveda clave.
- Información de la aplicación.
- Registro de contenedores [opcional]. Puede usar el Registro de contenedores Azure para almacenar en privado sus imágenes de Docker personalizadas sin la necesidad de llevarlas al centro de Docker Public.

Una vez que se complete la creación, navegue al portal de aprendizaje automático de Azure y haga clic en su espacio de trabajo ( agents )

En el espacio de trabajo, navegue hasta la pestaña Notebooks . En su carpeta asignada por el usuario (como se muestra en la figura a continuación), cree un nuevo archivo bash (.sh) llamado compute-instance-startup.sh . Copie el contenido de scripts/azure_files/compute-instance-startup.sh en este archivo y guárdelo. Este script se utilizará cada vez que se lance una nueva VM en Azure para aplicar algunas configuraciones base. Tome nota de la ruta donde guarde el archivo (en forma de Users/<YOUR_USER>/compute-instance-startup.sh ), lo usaremos para ejecutar el script en la Sección 3.

[Opcional] Es posible que desee solicitar más cuota de cómputo para su región, dependiendo de sus necesidades. Puede hacerlo navegando a la página de cuota de Azure. Como referencia, actualmente utilizamos el tamaño Standard_D8_v3 VM para nuestra evaluación comparativa, que se encuentra en la categoría Standard Dv3 Family Cluster Dedicated vCPUs . Cada VM usa 8 núcleos. Asegúrese de que el tipo de máquina que use admite la virtualización anidada.

2. Subiendo imágenes de Windows 11 y Docker a Azure

Cargue la carpeta de almacenamiento de Windows 11 al contenedor Blob asociado con su almacén de datos predeterminado. Por defecto, los datos subyacentes del espacio de trabajo de Azure ML están respaldados por una cuenta de almacenamiento a través de uno o más almacenes de datos ML. El almacén de datos predeterminado, nombrado workspaceblobstore , se crea durante la configuración del espacio de trabajo y se vincula a un contenedor Blob en la cuenta de almacenamiento de Azure. Puede revisar la asociación entre los almacenes de datos y los contenedores visitando Azure ML DataStore. Una vez encontrado, puede cargar la carpeta de almacenamiento de diferentes maneras:
- Descargue el programa Azure Storage Explorer, inicie sesión y seleccione el contenedor Blob. Cargue la carpeta WindowsAgentArena/src/win-arena-container/vm/storage desde su máquina local después de ejecutar los pasos de configuración locales.
- Alternativamente, puede usar la CLI de Azure para cargar la carpeta. Para instalar la CLI, siga los pasos proporcionados aquí. Una vez instalado, puede usar el siguiente comando:
```
az login --use-device-code # Only needed if prompted
az storage blob upload-batch --account-name < STORAGE_ACCOUNT_NAME > --destination < CONTAINER_NAME > --source < LOCAL_FOLDER >
# For a list of parameters check: https://docs.microsoft.com/en-us/cli/azure/storage/blob?view=azure-cli-latest
```
- Alternativamente, use la interfaz de portal Azure para cargar la carpeta. Navegue a la cuenta de almacenamiento, haga clic en Storage browser->Blob containers , seleccione su contenedor y cargue la carpeta. Esta opción no se recomienda para archivos grandes, ya que las conexiones pueden volverse inestables.

[Opcional] Si no está utilizando la imagen predeterminada windowsarena/winarena:latest , puede cargar su imagen personalizada en el Registro de contenedores de Azure. Puede hacerlo siguiendo la documentación del registro de contenedores de Azure

az login --use-device-code
# potentially needed if commands below don't work: az acr login --name <ACR_NAME>
docker login # you will be prompted to enter your ACR credentials (username + password which can be found in the Azure portal)
docker tag < IMAGE_NAME > < ACR_NAME > .azurecr.io/ < IMAGE_NAME > : < TAG >
docker push < ACR_NAME > .azurecr.io/ < IMAGE_NAME > : < TAG >

3. Configuraciones e implementación del entorno

Agregue las claves adicionales al archivo config.json en la raíz del proyecto:

{
    ... // Your previous configs

    "AZURE_SUBSCRIPTION_ID" : " <YOUR_AZURE_SUBSCRIPTION_ID> " , 
    "AZURE_ML_RESOURCE_GROUP" : " <YOUR_AZURE_ML_RESOURCE_GROUP> " ,
    "AZURE_ML_WORKSPACE_NAME" : " <YOUR_AZURE_ML_WORKSPACE_NAME> "
}

Cree un nuevo archivo llamado experiments.json para especificar los parámetros necesarios para cada ejecución del experimento, incluido el agente para implementar y el modelo LLM subyacente para usar. Puede encontrar un experiments.json de referencia. JSON que consta de múltiples experimentos para ejecutarse en scripts/experiments.json :

{
  "experiment_1" : {
    "ci_startup_script_path" : " Users/<YOUR_USER>/compute-instance-startup.sh " , // As seen in Section 1
    "agent" : " navi " ,
    "datastore_input_path" : " storage " ,
    "docker_img_name" : " windowsarena/winarena:latest " ,
    "exp_name" : " experiment_1 " ,
    "num_workers" : 4 ,
    "use_managed_identity" : false ,
    "json_name" : " evaluation_examples_windows/test_all.json " ,
    "model_name" : " gpt-4-1106-vision-preview " ,
    "som_origin" : " oss " , // or a11y, or mixed-oss
    "a11y_backend" : " win32 " // or uia
  }
  // ...
}

(Opcional) También puede generar experiments.json utilizando los parámetros --experiments_json y --update_json de run_azure.py , el JSON anterior es equivalente al siguiente comando:

 cd scripts
python run_azure.py --experiments_json " experiments.json " --update_json --exp_name " experiment_1 " --ci_startup_script_path " Users/<YOUR_USER>/compute-instance-startup.sh " --agent " navi " --json_name " evaluation_examples_windows/test_all.json " --num_workers 4 --som_origin oss --a11y_backend win32

Implementar el agente en Azure ML Compute ejecutando:

az login --use-device-code # https://learn.microsoft.com/en-us/cli/azure/install-azure-cli
# If multiple tenants or subscriptions, make sure to select the right ones with:
# az login --use-device-code --tenant "<YOUR_AZURE_AD_TENANT_ID>"
# az account set --subscription "<YOUR_AZURE_AD_TENANT_ID>"

# Make sure you have installed the python requirements in your conda environment
# conda activate winarena
# pip install -r requirements.txt

# From your activated conda environment:
cd scripts
python run_azure.py --experiments_json " experiments.json "

Para cualquier experimento inacabado en experiments.json , el script:

Crear <num_workers Azure Compute Instance VMS.
Ejecute un trabajo de capacitación ml llamado <exp_name> por VM.
Deseche las máquinas virtuales una vez que se completen los trabajos.

Los registros de la ejecución se guardarán en una carpeta agent_outputs en el mismo contenedor Blob donde cargó la imagen de Windows 11. Puede descargar la carpeta agent_outputs a su máquina local y ejecutar el script show_azure.py para ver los resultados de cada experimento como una tabla de markdown.

 cd scripts
python show_azure.py --json_config " experiments.json " --result_dir < path_to_downloaded_agent_outputs_folder >

? BYOA: Trae tu propio agente

¿Quiere probar a sus propios agentes en Windows Agent Arena? Puede usar nuestro agente predeterminado como plantilla y crear su propia carpeta en src/win-arena-container/client/mm_agents . Solo necesita asegurarse de que las funciones de su archivo agent.py predict() y reset() funciones. Para obtener más información sobre el desarrollo del agente, consulte el DOC BYOA.

? ‍ Contribuciones de código abierto

Agradecemos contribuciones al proyecto Windows Agent Arena. En particular, damos la bienvenida:

Nuevos agentes de código abierto que se agregarán al punto de referencia
Nuevas tareas que se agregarán a nuestras categorías existentes, o nuevas categorías por completo

Si está interesado en contribuir, consulte nuestras pautas de desarrollo de tareas.

❓ Preguntas frecuentes

¿Cuáles son los tiempos y costos de ejecución aproximados para el punto de referencia?

Componente	Costo	Tiempo
Azure Standard_D8_V3 VM	~ $ 8 ($ 0.38/h * 40 * 0.5h)
GPT-4V	$ 100	~ 35min con 40 Vms
GPT-4O	$ 100	~ 35min con 40 Vms
GPT-4O-Mini	$ 15	~ 30 minutos con 40 VM

¿Cómo puedo personalizar la asignación de recursos para ejecuciones locales?

Por defecto, el script run-local.sh intenta crear una VM QEMU con 8 GB de RAM y 8 núcleos de CPU. Si su sistema tiene recursos limitados, puede anular estos valores predeterminados especificando la asignación de RAM y CPU deseada:

./run-local.sh --ram-size 4G --cpu-cores 4

¿Cómo puedo alternar el soporte para la aceleración de KVM?

Si su sistema no admite la aceleración de KVM, puede deshabilitarlo especificando la bandera --use-kvm false :

./run-local.sh --use-kvm false

Tenga en cuenta que no se recomienda ejecutar el punto de referencia localmente sin aceleración de KVM debido a problemas de rendimiento. En este caso, recomendamos preparar la imagen dorada para luego ejecutar el punto de referencia en Azure.

? Expresiones de gratitud

OS World para el marco de tareas de referencia original.
Dockur para la infraestructura Docker subyacente WAA.
Groundingdino para el módulo de detección de objetos en nuestro agente Navi.
Cuaderno de cuaderno para nuestro podcast generado por IA.

? Que contribuye

Este proyecto da la bienvenida a las contribuciones y sugerencias. La mayoría de las contribuciones requieren que acepte un Acuerdo de Licencia de Contributor (CLA) que declare que tiene derecho y realmente hacernos los derechos para utilizar su contribución. Para más detalles, visite https://cla.opensource.microsoft.com.

Cuando envíe una solicitud de extracción, un BOT CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR adecuadamente (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitará hacer esto una vez en todos los reposos usando nuestro CLA.

Este proyecto ha adoptado el Código de Conducta Open Open Microsoft. Para obtener más información, consulte el Código de Conducta Preguntas frecuentes o comuníquese con [email protected] con cualquier pregunta o comentario adicional.

? ️ Marcas comerciales

Este proyecto puede contener marcas comerciales o logotipos para proyectos, productos o servicios. El uso autorizado de marcas o logotipos de Microsoft está sujeto y debe seguir las pautas de marca y marca de Microsoft. El uso de marcas registradas de Microsoft o logotipos en versiones modificadas de este proyecto no debe causar confusión o implicar el patrocinio de Microsoft. Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de esas partes de terceros.

Expandir

Información adicional

Versión v0.0.4
Tipo Otro código fuente
Fecha de actualización 2025-02-26
tamaño 4.37MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo