Скачать webarena - Скачать исходный код webarena

webarena

Другой исходный код

v0.2.0

Скачать

Webarena: реалистичная веб -среда для создания автономных агентов

Веб -сайт • Бумага • Таблица лидеров

Обзор

Обновление на 5/5/2024

Важный

В этом хранилище проводится каноническая реализация Webarena для воспроизведения результатов, представленных в статье. Инфраструктура веб -навигации была значительно повышена благодаря AgentLab, внедряя несколько ключевых функций: (1) поддержка параллельных экспериментов с использованием BrowsergyM, (2) интеграция популярных контрольных показателей веб -навигации (например, VisualWebarena) в рамках унифицированных фреймворков, (3) объединенных отчетов о таблице лидеров и (4) улучшенной обработки по крае среды. Мы настоятельно рекомендуем использовать эту структуру для ваших экспериментов.

Новости

[21.12.2023] Мы выпускаем запись траекторий, выполняемых человеческими аннотаторами по ~ 170 задачам. Проверьте страницу ресурса для получения более подробной информации.
[3/3/2023] Несколько функций!
- Загруженные новейшие траектории выполнения
- Добавлен Amazon Machine Image, который предварительно установил все веб-сайты, так что вам не нужно!
- Zeno X Webarena, которая позволяет вам проанализировать ваших агентов на Webarena без боли. Ознакомьтесь с этим ноутбуком, чтобы загрузить свои собственные данные в Zeno, и эту страницу для просмотра наших существующих результатов!
[24.10.2023] Мы пересмотрели весь набор данных и исправили пятнистые ошибки аннотации. Текущая версия (v0.2.0) является относительно стабильной, и мы не ожидаем основных обновлений об аннотации в будущем. Новые результаты с лучшими подсказками и сравнение с человеческими показателями можно найти в нашей статье
[8/4/2023] добавили инструкции и ресурсы Docker для размещения вашей собственной среды Webarena. Проверьте эту страницу для получения подробной информации.
[29.07.2023] добавил хорошо прокомментированный сценарий для прохождения настройки среды.

Установить

 # Python 3.10+
conda create -n webarena python=3.10 ; conda activate webarena
pip install -r requirements.txt
playwright install
pip install -e .

# optional, dev only
pip install -e " .[dev] "
mypy --install-types --non-interactive browser_env agents evaluation_harness
pip install pre-commit
pre-commit install

Быстрое прохождение

Ознакомьтесь с этим сценарием для быстрого прохождения о том, как настроить среду браузера и взаимодействовать с ним, используя демонстрационные сайты, которые мы размещали. Этот сценарий предназначен только для образовательных целей, для проведения воспроизводимых экспериментов, пожалуйста, ознакомьтесь с следующим разделом. В двух словах, использование Webarena очень похоже на использование спортзала Openai. Следующий фрагмент кода показывает, как взаимодействовать с окружающей средой.

 from browser_env import ScriptBrowserEnv , create_id_based_action
# init the environment
env = ScriptBrowserEnv (
    headless = False ,
    observation_type = "accessibility_tree" ,
    current_viewport_only = True ,
    viewport_size = { "width" : 1280 , "height" : 720 },
)
# prepare the environment for a configuration defined in a json file
config_file = "config_files/0.json"
obs , info = env . reset ( options = { "config_file" : config_file })
# get the text observation (e.g., html, accessibility tree) through obs["text"]

# create a random action
id = random . randint ( 0 , 1000 )
action = create_id_based_action ( f"click [id]" )

# take the action
obs , _ , terminated , _ , info = env . step ( action )

Сквозная оценка

Важный

Чтобы обеспечить правильную оценку, пожалуйста, настройте свои собственные веб -сайты Webarena после шага 1 и шага 2. Демо -сайты предназначены только для просмотра цели, чтобы помочь вам лучше понять контент. После оценки примеров 812 сбросьте среду в начальное состояние после инструкций здесь.

Установите автономную среду. Пожалуйста, ознакомьтесь с этой страницей для получения подробной информации.
Настройте URL -адреса для каждого веб -сайта.

 export SHOPPING= " <your_shopping_site_domain>:7770 "
export SHOPPING_ADMIN= " <your_e_commerce_cms_domain>:7780/admin "
export REDDIT= " <your_reddit_domain>:9999 "
export GITLAB= " <your_gitlab_domain>:8023 "
export MAP= " <your_map_domain>:3000 "
export WIKIPEDIA= " <your_wikipedia_domain>:8888/wikipedia_en_all_maxi_2022-05/A/User:The_other_Kiwix_guy/Landing "
export HOMEPAGE= " <your_homepage_domain>:4399 " # this is a placeholder

Вам рекомендуется обновить переменные среды в рабочих процессах GitHub, чтобы обеспечить правильность модульных тестов

Сгенерировать файл конфигурации для каждого тестового примера

python scripts/generate_test_data.py

Вы увидите *.json файлы, сгенерированные в папке config_files. Каждый файл содержит конфигурацию для одного тестового примера.

Получите файлы cookie Auto-Login для всех веб-сайтов

 mkdir -p ./.auth
python browser_env/auto_login.py

Экспорт OPENAI_API_KEY=your_key , действительный ключ API OpenAI начинается с sk-
Запустите оценку

python run.py 
  --instruction_path agent/prompts/jsons/p_cot_id_actree_2s.json  # this is the reasoning agent prompt we used in the paper
  --test_start_idx 0 
  --test_end_idx 1 
  --model gpt-3.5-turbo 
  --result_dir < your_result_dir >

Этот скрипт запустит первый пример с агентом по рассуждениям GPT-3.5. Траектория будет сохранена в <your_result_dir>/0.html

Разработать свой агент на основе быстрого

Определите подсказки. Мы предоставляем два базовых агента, соответствующие подсказки, указаны здесь. Каждая подсказка - это словарь со следующими ключами:

 prompt = {
  "intro" : < The overall guideline which includes the task description , available action , hint and others > ,
  "examples" : [
    (
      example_1_observation ,
      example_1_response
    ),
    (
      example_2_observation ,
      example_2_response
    ),
    ...
  ],
  "template" : < How to organize different information such as observation , previous action , instruction , url > ,
  "meta_data" : {
    "observation" : < Which observation space the agent uses > ,
    "action_type" : < Which action space the agent uses > ,
    "keywords" : < The keywords used in the template , the program will later enumerate all keywords in the template to see if all of them are correctly replaced with the content > ,
    "prompt_constructor" : < Which prompt construtor is in used , the prompt constructor will construct the input feed to an LLM and extract the action from the generation , more details below > ,
    "action_splitter" : < Inside which splitter can we extract the action , used by the prompt constructor >
    }
  }

Реализовать быстрый конструктор. Пример приглашения конструктора с использованием рассуждений в стиле цепочки/реагирования здесь. Строительный конструктор - это класс со следующими методами:

construct : построить входной подачу в LLM
_extract_action : Учитывая генерацию из LLM, как извлечь фразу, которая соответствует действию

Цитирование

Если вы используете нашу среду или данные, пожалуйста, цитируйте нашу статью:

 @article{zhou2023webarena,
  title={WebArena: A Realistic Web Environment for Building Autonomous Agents},
  author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others},
  journal={arXiv preprint arXiv:2307.13854},
  year={2023}
}

Расширять

Дополнительная информация