Unduh webarena - Unduh Kode Sumber webarena

webarena

Kode sumber lainnya

v0.2.0

Unduh

Webarena: Lingkungan web yang realistis untuk membangun agen otonom

Situs web • Kertas • Papan peringkat

Ringkasan

Pembaruan pada 12/5/2024

Penting

Repositori ini menampung implementasi kanonik Webarena untuk mereproduksi hasil yang dilaporkan dalam makalah ini. Infrastruktur Navigasi Web telah ditingkatkan secara signifikan oleh AgentLab, memperkenalkan beberapa fitur utama: (1) dukungan untuk percobaan paralel menggunakan Browsergym, (2) integrasi tolok ukur navigasi web populer (misalnya, Visualwebarena) dalam kerangka kerja yang disatukan, (3) pelaporan papan peringkat yang disatukan. Kami sangat menyarankan untuk menggunakan kerangka kerja ini untuk eksperimen Anda.

Berita

[12/21/2023] Kami merilis rekaman lintasan yang dilakukan oleh Annotator Manusia pada ~ 170 tugas. Lihat halaman sumber daya untuk lebih jelasnya.
[11/3/2023] Beberapa fitur!
- Diunggah lintasan eksekusi terbaru
- Menambahkan gambar mesin amazon yang sudah dipasang sebelumnya semua situs web sehingga Anda tidak perlu melakukannya!
- Zeno x webarena yang memungkinkan Anda untuk menganalisis agen Anda di webarena tanpa rasa sakit. Lihatlah buku catatan ini untuk mengunggah data Anda sendiri ke Zeno, dan halaman ini untuk menjelajahi hasil kami yang ada!
[10/24/2023] Kami memeriksa kembali seluruh dataset dan memperbaiki bug anotasi yang terlihat. Versi saat ini (v0.2.0) relatif stabil dan kami tidak mengharapkan pembaruan besar pada anotasi di masa depan. Hasil baru dengan petunjuk yang lebih baik dan perbandingan dengan kinerja manusia dapat ditemukan di koran kami
[8/4/2023] Menambahkan instruksi dan sumber daya Docker untuk meng -host lingkungan WebArena Anda sendiri. Lihat halaman ini untuk detailnya.
[7/29/2023] menambahkan skrip yang dikomentari dengan baik untuk berjalan melalui pengaturan lingkungan.

Memasang

 # Python 3.10+
conda create -n webarena python=3.10 ; conda activate webarena
pip install -r requirements.txt
playwright install
pip install -e .

# optional, dev only
pip install -e " .[dev] "
mypy --install-types --non-interactive browser_env agents evaluation_harness
pip install pre-commit
pre-commit install

Panduan cepat

Lihatlah skrip ini untuk penelusuran cepat tentang cara mengatur lingkungan browser dan berinteraksi dengannya menggunakan situs demo yang kami host. Skrip ini hanya untuk tujuan pendidikan, untuk melakukan eksperimen yang dapat direproduksi , silakan periksa bagian berikutnya. Dalam nutshell, menggunakan webarena sangat mirip dengan menggunakan gym openai. Cuplikan kode berikut menunjukkan cara berinteraksi dengan lingkungan.

 from browser_env import ScriptBrowserEnv , create_id_based_action
# init the environment
env = ScriptBrowserEnv (
    headless = False ,
    observation_type = "accessibility_tree" ,
    current_viewport_only = True ,
    viewport_size = { "width" : 1280 , "height" : 720 },
)
# prepare the environment for a configuration defined in a json file
config_file = "config_files/0.json"
obs , info = env . reset ( options = { "config_file" : config_file })
# get the text observation (e.g., html, accessibility tree) through obs["text"]

# create a random action
id = random . randint ( 0 , 1000 )
action = create_id_based_action ( f"click [id]" )

# take the action
obs , _ , terminated , _ , info = env . step ( action )

Evaluasi ujung ke ujung

Penting

Untuk memastikan evaluasi yang benar, silakan siapkan situs web WebArena Anda sendiri setelah Langkah 1 dan Langkah 2. Situs demo hanya untuk tujuan menjelajah untuk membantu Anda lebih memahami konten. Setelah mengevaluasi 812 contoh, setel ulang lingkungan ke keadaan awal mengikuti instruksi di sini.

Siapkan lingkungan mandiri. Silakan periksa halaman ini untuk detailnya.
Konfigurasi URL untuk setiap situs web.

 export SHOPPING= " <your_shopping_site_domain>:7770 "
export SHOPPING_ADMIN= " <your_e_commerce_cms_domain>:7780/admin "
export REDDIT= " <your_reddit_domain>:9999 "
export GITLAB= " <your_gitlab_domain>:8023 "
export MAP= " <your_map_domain>:3000 "
export WIKIPEDIA= " <your_wikipedia_domain>:8888/wikipedia_en_all_maxi_2022-05/A/User:The_other_Kiwix_guy/Landing "
export HOMEPAGE= " <your_homepage_domain>:4399 " # this is a placeholder

Anda didorong untuk memperbarui variabel lingkungan dalam alur kerja GitHub untuk memastikan kebenaran unit tes

Hasilkan file konfigurasi untuk setiap contoh tes

python scripts/generate_test_data.py

Anda akan melihat file *.json yang dihasilkan di folder config_files. Setiap file berisi konfigurasi untuk satu contoh tes.

Dapatkan cookie login otomatis untuk semua situs web

 mkdir -p ./.auth
python browser_env/auto_login.py

Ekspor OPENAI_API_KEY=your_key , kunci API openai yang valid dimulai dengan sk-
Luncurkan evaluasi

python run.py 
  --instruction_path agent/prompts/jsons/p_cot_id_actree_2s.json  # this is the reasoning agent prompt we used in the paper
  --test_start_idx 0 
  --test_end_idx 1 
  --model gpt-3.5-turbo 
  --result_dir < your_result_dir >

Skrip ini akan menjalankan contoh pertama dengan agen penalaran GPT-3.5. Lintasan akan disimpan di <your_result_dir>/0.html

Kembangkan agen berbasis prompt Anda

Tentukan petunjuknya. Kami menyediakan dua agen dasar yang petunjuknya sesuai terdaftar di sini. Setiap prompt adalah kamus dengan kunci berikut:

 prompt = {
  "intro" : < The overall guideline which includes the task description , available action , hint and others > ,
  "examples" : [
    (
      example_1_observation ,
      example_1_response
    ),
    (
      example_2_observation ,
      example_2_response
    ),
    ...
  ],
  "template" : < How to organize different information such as observation , previous action , instruction , url > ,
  "meta_data" : {
    "observation" : < Which observation space the agent uses > ,
    "action_type" : < Which action space the agent uses > ,
    "keywords" : < The keywords used in the template , the program will later enumerate all keywords in the template to see if all of them are correctly replaced with the content > ,
    "prompt_constructor" : < Which prompt construtor is in used , the prompt constructor will construct the input feed to an LLM and extract the action from the generation , more details below > ,
    "action_splitter" : < Inside which splitter can we extract the action , used by the prompt constructor >
    }
  }

Menerapkan konstruktor prompt. Contoh konstruktor prompt menggunakan penalaran gaya rantai/reaksi di sini. Konstruktor prompt adalah kelas dengan metode berikut:

construct : Bangun umpan input ke LLM
_extract_action : Diberikan generasi dari llm, cara mengekstrak frasa yang sesuai dengan tindakan

Kutipan

Jika Anda menggunakan lingkungan atau data kami, silakan kutip kertas kami:

 @article{zhou2023webarena,
  title={WebArena: A Realistic Web Environment for Building Autonomous Agents},
  author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others},
  journal={arXiv preprint arXiv:2307.13854},
  year={2023}
}

Memperluas

Informasi Tambahan

Versi v0.2.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-15
ukuran 5.91MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua