Descarga de webarena - Descargar el código fuente de webarena

webarena

Otro código fuente

v0.2.0

Descargar

Webarena: un entorno web realista para construir agentes autónomos

Sitio web • Documento • tablero de clasificación

Descripción general

Actualización el 5/12/2024

Importante

Este repositorio aloja la implementación canónica de Webarena para reproducir los resultados reportados en el documento. AgentLab ha mejorado significativamente la infraestructura de navegación web, introduciendo varias características clave: (1) soporte para experimentos paralelos utilizando BrowsergyM, (2) integración de puntos de referencia de navegación web populares (por ejemplo, Visualwebarena) dentro de un marco unificado, (3) informes de tablas de clasificación unificadas y (4) manejo mejorado de las casas de borde del entorno. Recomendamos encarecidamente usar este marco para sus experimentos.

Noticias

[21/12/2023] Lanzamos la grabación de trayectorias realizadas por anotadores humanos en ~ 170 tareas. Consulte la página de recursos para obtener más detalles.
[3/3/2023] ¡Múltiples características!
- Trayectorias de ejecución más nuevas cargadas
- ¡Se agregó la imagen de Amazon Machine que preinstalaba todos los sitios web para que no tenga que hacerlo!
- Zeno X Webarena, que le permite analizar a sus agentes en Webarena sin dolor. ¡Consulte este cuaderno para cargar sus propios datos a Zeno, y esta página para navegar por nuestros resultados existentes!
[14/10/2023] Reexaminamos todo el conjunto de datos y solucionamos los errores de anotación manchados. La versión actual (V0.2.0) es relativamente estable y no esperamos actualizaciones importantes sobre la anotación en el futuro. Los nuevos resultados con mejores indicaciones y la comparación con el rendimiento humano se pueden encontrar en nuestro artículo.
[8/4/2023] agregó las instrucciones y los recursos de Docker para alojar su propio entorno Webarena. Consulte esta página para más detalles.
[29/7/2023] agregó un script bien comentado para caminar por la configuración del medio ambiente.

Instalar

 # Python 3.10+
conda create -n webarena python=3.10 ; conda activate webarena
pip install -r requirements.txt
playwright install
pip install -e .

# optional, dev only
pip install -e " .[dev] "
mypy --install-types --non-interactive browser_env agents evaluation_harness
pip install pre-commit
pre-commit install

Tutorial rápido

Consulte este script para obtener un tutorial rápido sobre cómo configurar el entorno del navegador e interactuar con él utilizando los sitios de demostración que alojamos. Este guión es solo para el propósito de la educación, para realizar experimentos reproducibles , consulte la siguiente sección. En la cáscara de nuez, usar Webarena es muy similar al uso de Operai Gym. El siguiente fragmento de código muestra cómo interactuar con el entorno.

 from browser_env import ScriptBrowserEnv , create_id_based_action
# init the environment
env = ScriptBrowserEnv (
    headless = False ,
    observation_type = "accessibility_tree" ,
    current_viewport_only = True ,
    viewport_size = { "width" : 1280 , "height" : 720 },
)
# prepare the environment for a configuration defined in a json file
config_file = "config_files/0.json"
obs , info = env . reset ( options = { "config_file" : config_file })
# get the text observation (e.g., html, accessibility tree) through obs["text"]

# create a random action
id = random . randint ( 0 , 1000 )
action = create_id_based_action ( f"click [id]" )

# take the action
obs , _ , terminated , _ , info = env . step ( action )

Evaluación de extremo a extremo

Importante

Para garantizar la evaluación correcta, configure sus propios sitios web de Webarena después del paso 1 y el paso 2. Los sitios de demostración son solo para navegar para ayudarlo a comprender mejor el contenido. Después de evaluar los 812 ejemplos, restablezca el entorno al estado inicial siguiendo las instrucciones aquí.

Configurar el entorno independiente. Consulte esta página para más detalles.
Configure las URL para cada sitio web.

 export SHOPPING= " <your_shopping_site_domain>:7770 "
export SHOPPING_ADMIN= " <your_e_commerce_cms_domain>:7780/admin "
export REDDIT= " <your_reddit_domain>:9999 "
export GITLAB= " <your_gitlab_domain>:8023 "
export MAP= " <your_map_domain>:3000 "
export WIKIPEDIA= " <your_wikipedia_domain>:8888/wikipedia_en_all_maxi_2022-05/A/User:The_other_Kiwix_guy/Landing "
export HOMEPAGE= " <your_homepage_domain>:4399 " # this is a placeholder

Se le recomienda actualizar las variables de entorno en el flujo de trabajo de GitHub para garantizar la corrección de las pruebas unitarias

Genere un archivo de configuración para cada ejemplo de prueba

python scripts/generate_test_data.py

Verá *.json archivos generados en la carpeta config_files. Cada archivo contiene la configuración para un ejemplo de prueba.

Obtenga las cookies de Auto-Login para todos los sitios web

 mkdir -p ./.auth
python browser_env/auto_login.py

Exportar OPENAI_API_KEY=your_key , una tecla API de OpenAI válida comienza con sk-
Iniciar la evaluación

python run.py 
  --instruction_path agent/prompts/jsons/p_cot_id_actree_2s.json  # this is the reasoning agent prompt we used in the paper
  --test_start_idx 0 
  --test_end_idx 1 
  --model gpt-3.5-turbo 
  --result_dir < your_result_dir >

Este script ejecutará el primer ejemplo con el agente de razonamiento GPT-3.5. La trayectoria se guardará en <your_result_dir>/0.html

Desarrolle su agente basado en el aviso

Defina las indicaciones. Proporcionamos dos agentes de referencia cuyas indicaciones correspondientes se enumeran aquí. Cada aviso es un diccionario con las siguientes claves:

 prompt = {
  "intro" : < The overall guideline which includes the task description , available action , hint and others > ,
  "examples" : [
    (
      example_1_observation ,
      example_1_response
    ),
    (
      example_2_observation ,
      example_2_response
    ),
    ...
  ],
  "template" : < How to organize different information such as observation , previous action , instruction , url > ,
  "meta_data" : {
    "observation" : < Which observation space the agent uses > ,
    "action_type" : < Which action space the agent uses > ,
    "keywords" : < The keywords used in the template , the program will later enumerate all keywords in the template to see if all of them are correctly replaced with the content > ,
    "prompt_constructor" : < Which prompt construtor is in used , the prompt constructor will construct the input feed to an LLM and extract the action from the generation , more details below > ,
    "action_splitter" : < Inside which splitter can we extract the action , used by the prompt constructor >
    }
  }

Implementar el Constructor de inmediato. Aquí hay un constructor de pronunciación de ejemplo que usa el razonamiento de estilo de cadena de pensamiento/reacción. El edificio de inmediato es una clase con los siguientes métodos:

construct : construir el alimento de entrada a un LLM
_extract_action : dada la generación de un LLM, cómo extraer la frase que corresponde a la acción

Citación

Si usa nuestro entorno o datos, cite nuestro documento:

 @article{zhou2023webarena,
  title={WebArena: A Realistic Web Environment for Building Autonomous Agents},
  author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others},
  journal={arXiv preprint arXiv:2307.13854},
  year={2023}
}

Expandir

Información adicional

Versión v0.2.0
Tipo Otro código fuente
Fecha de actualización 2025-04-15
tamaño 5.91MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo