webarena Download - webarena Quellcode Download

webarena

Anderer Quellcode

v0.2.0

Herunterladen

Webarena: Eine realistische Webumgebung zum Aufbau autonomer Agenten

Website • Papier • Rangliste

Überblick

Update am 5.12.2024

Wichtig

Dieses Repository beherbergt die kanonische Implementierung von Webarena, um die in der Arbeit gemeldeten Ergebnisse zu reproduzieren. Die Web -Navigationsinfrastruktur wurde durch AgentLab erheblich verbessert und einige wichtige Funktionen einführt: (1) Unterstützung paralleler Experimente mithilfe von Browsergymus, (2) Integration der beliebten Webnavigationsbenchmarke (z. B. Visualwebarena) innerhalb eines einheitlichen Rahmens, (3) Unified Laderboard -Berichterstattung und (4) Förderung der Umweltkante -Fälle. Wir empfehlen dringend, diesen Rahmen für Ihre Experimente zu verwenden.

Nachricht

[21.12.2023] Wir veröffentlichen die Aufzeichnung von Trajektorien, die von menschlichen Annotatoren zu ~ 170 Aufgaben ausgeführt werden. Weitere Informationen finden Sie auf der Ressourcenseite.
[03.11.2023] Mehrere Funktionen!
- Hochgeladene neueste Ausführungsbahnen hochgeladen
- Das Amazon-Maschinenbild wurde hinzugefügt, das alle Websites vorinstalliert hat, damit Sie es nicht müssen!
- Zeno X Webarena, mit dem Sie Ihre Agenten ohne Schmerzen auf Webarena analysieren können. Schauen Sie sich dieses Notebook an, um Ihre eigenen Daten in Zeno und diese Seite zum Durchsuchen unserer vorhandenen Ergebnisse hochzuladen!
[24.10.2023] Wir haben den gesamten Datensatz erneut untersucht und die angegebenen Annotationsfehler behoben. Die aktuelle Version (v0.2.0) ist relativ stabil und wir erwarten keine größeren Aktualisierungen der Annotation in der Zukunft. Die neuen Ergebnisse mit besseren Eingaben und dem Vergleich mit der menschlichen Leistung finden Sie in unserem Artikel
[8/4/2023] fügte die Anweisungen und die Docker -Ressourcen hinzu, um Ihre eigene Webarena -Umgebung zu hosten. Weitere Informationen finden Sie in dieser Seite.
[29.07.2023] fügte ein gut kommentiertes Skript hinzu, um das Umgebungs -Setup zu durchlaufen.

Installieren

 # Python 3.10+
conda create -n webarena python=3.10 ; conda activate webarena
pip install -r requirements.txt
playwright install
pip install -e .

# optional, dev only
pip install -e " .[dev] "
mypy --install-types --non-interactive browser_env agents evaluation_harness
pip install pre-commit
pre-commit install

Schnelle Walkthrough

Schauen Sie sich dieses Skript an, um eine kurze Exemplar zum Einrichten der Browser -Umgebung zu erhalten und mithilfe der von uns gehosteten Demo -Sites damit zu interagieren. Dieses Skript dient nur für Bildungszwecke, um reproduzierbare Experimente durchzuführen. Schauen Sie sich bitte den nächsten Abschnitt an. In der Nussschale ist die Verwendung von Webarena sehr ähnlich der Verwendung von OpenAI -Fitnessstudio. Das folgende Code -Snippet zeigt, wie Sie mit der Umgebung interagieren.

 from browser_env import ScriptBrowserEnv , create_id_based_action
# init the environment
env = ScriptBrowserEnv (
    headless = False ,
    observation_type = "accessibility_tree" ,
    current_viewport_only = True ,
    viewport_size = { "width" : 1280 , "height" : 720 },
)
# prepare the environment for a configuration defined in a json file
config_file = "config_files/0.json"
obs , info = env . reset ( options = { "config_file" : config_file })
# get the text observation (e.g., html, accessibility tree) through obs["text"]

# create a random action
id = random . randint ( 0 , 1000 )
action = create_id_based_action ( f"click [id]" )

# take the action
obs , _ , terminated , _ , info = env . step ( action )

End-to-End-Bewertung

Wichtig

Um die korrekte Bewertung zu gewährleisten, richten Sie bitte Ihre eigenen Websites von Webarena nach Schritt 1 und Schritt 2 ein. Die Demo -Websites dienen nur zum Browsing -Zweck, um Ihnen dabei zu helfen, den Inhalt besser zu verstehen. Nach der Bewertung der 812 Beispiele setze die Umgebung nach den Anweisungen hier in den Ausgangszustand zurück.

Richten Sie die eigenständige Umgebung ein. Bitte lesen Sie diese Seite für Details.
Konfigurieren Sie die URLs für jede Website.

 export SHOPPING= " <your_shopping_site_domain>:7770 "
export SHOPPING_ADMIN= " <your_e_commerce_cms_domain>:7780/admin "
export REDDIT= " <your_reddit_domain>:9999 "
export GITLAB= " <your_gitlab_domain>:8023 "
export MAP= " <your_map_domain>:3000 "
export WIKIPEDIA= " <your_wikipedia_domain>:8888/wikipedia_en_all_maxi_2022-05/A/User:The_other_Kiwix_guy/Landing "
export HOMEPAGE= " <your_homepage_domain>:4399 " # this is a placeholder

Sie werden aufgefordert, die Umgebungsvariablen im GitHub -Workflow zu aktualisieren, um die Richtigkeit von Unit -Tests zu gewährleisten

Generieren Sie die Konfigurationsdatei für jedes Testbeispiel

python scripts/generate_test_data.py

Sie sehen *.json -Dateien, die im Ordner config_files generiert wurden. Jede Datei enthält die Konfiguration für ein Testbeispiel.

Erhalten Sie die automatischen Login-Cookies für alle Websites

 mkdir -p ./.auth
python browser_env/auto_login.py

exportieren OPENAI_API_KEY=your_key , ein gültiger OpenAI-API-Schlüssel beginnt mit sk-
Starten Sie die Bewertung

python run.py 
  --instruction_path agent/prompts/jsons/p_cot_id_actree_2s.json  # this is the reasoning agent prompt we used in the paper
  --test_start_idx 0 
  --test_end_idx 1 
  --model gpt-3.5-turbo 
  --result_dir < your_result_dir >

In diesem Skript wird das erste Beispiel mit GPT-3.5-Argumentationsagent ausgeführt. Die Flugbahn wird in <your_result_dir>/0.html gespeichert

Entwickeln Sie Ihren prompt-basierten Agenten

Definieren Sie die Eingabeaufforderungen. Wir bieten zwei Baseline -Agenten, deren entsprechende Eingabeaufforderungen hier aufgeführt sind. Jede Eingabeaufforderung ist ein Wörterbuch mit den folgenden Schlüssel:

 prompt = {
  "intro" : < The overall guideline which includes the task description , available action , hint and others > ,
  "examples" : [
    (
      example_1_observation ,
      example_1_response
    ),
    (
      example_2_observation ,
      example_2_response
    ),
    ...
  ],
  "template" : < How to organize different information such as observation , previous action , instruction , url > ,
  "meta_data" : {
    "observation" : < Which observation space the agent uses > ,
    "action_type" : < Which action space the agent uses > ,
    "keywords" : < The keywords used in the template , the program will later enumerate all keywords in the template to see if all of them are correctly replaced with the content > ,
    "prompt_constructor" : < Which prompt construtor is in used , the prompt constructor will construct the input feed to an LLM and extract the action from the generation , more details below > ,
    "action_splitter" : < Inside which splitter can we extract the action , used by the prompt constructor >
    }
  }

Implementieren Sie den Eingabeaufforderungskonstruktor. Ein Beispiel-Eingabeaufforderungskonstruktor, der die Argumentation des Ketten-/Reaktierstils unter Verwendung des Stils der Kette des Kettens/Reakts im Stil der Kette unter Verwendung des Stils der Kette des Kettens/Reakts im Stil der Kette unter Verwendung des Stils der Kette des Kettens/Reakts im Stil von Argumentation unter Verwendung von Kettenstilen unter Verwendung des Stils im Stil der Kette/Reaktierung im Stil der Argumentation im Stil der Kette ist, finden Sie hier. Der Eingabeaufforderungskonstruktor ist eine Klasse mit den folgenden Methoden:

construct : Konstruieren Sie den Eingangsvorschub in ein LLM
_extract_action : Angesichts der Erzeugung aus einem LLM extrahieren Sie den Ausdruck, der der Aktion entspricht

Zitat

Wenn Sie unsere Umgebung oder Daten verwenden, zitieren Sie bitte unser Papier:

 @article{zhou2023webarena,
  title={WebArena: A Realistic Web Environment for Building Autonomous Agents},
  author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others},
  journal={arXiv preprint arXiv:2307.13854},
  year={2023}
}

Expandieren

Zusätzliche Informationen