Unduh stark - Unduh Kode Sumber stark

stark

Kode sumber lainnya

1.0.0

Unduh

Stark: Benchmarking LLM Retrieval di Basis Pengetahuan Tekstual dan Relasional

BERITA

[Okt 2024] Papan peringkat: Kami membangun papan peringkat resmi di Hunggingface dan kami menyerukan pengajuan!
[Okt 2024] Kertas siap kamera keluar! Kami menambahkan beberapa model pengambilan termasuk BM25, Colbertv2, Gritlm.
[Sep 2024] Stark diterima untuk 2024 Neurips Dataset & Benchmark Track!
[Jun 2024] Kami membuat tolok ukur kami sebagai paket Pip Stark-QA. Anda dapat secara langsung memuat data dari paket sekarang!
[Jun 2024] Kami memigrasikan data kami ke Face memeluk! Anda tidak perlu mengubah apa pun, data akan diunduh secara otomatis.
[Mei 2024] Kami telah menambah tolok ukur kami dengan tiga set data kueri yang dihasilkan manusia berkualitas tinggi yang terbuka untuk diakses. Lihat detail lebih lanjut dalam arxiv kami yang diperbarui!
[9 Mei 2024] Kami merilis Stark SKB Explorer, antarmuka interaktif bagi Anda untuk menjelajahi basis pengetahuan kami!
[7 Mei 2024] Kami menyajikan Stark dalam pertemuan afiliasi tahunan Stanford 2024 dan 2024 Stanford Data Science Conference.
[5 Mei 2024] Stark dilaporkan di MarketPost dan 智源社区 Baai. Terima kasih telah menulis tentang pekerjaan kami!
[21 Apr 2024] Kami merilis Benchmark Stark.

Apa itu Stark?

Stark adalah tolok ukur pengambilan semi-terstruktur skala besar pada basis pengetahuan tekstual dan relasional, yang mencakup aplikasi dalam pencarian produk, pencarian kertas akademik, dan pertanyaan biomedis.

Menampilkan pertanyaan yang beragam, terdengar alami, dan praktis yang membutuhkan penalaran khusus konteks, Stark menetapkan standar baru untuk menilai sistem pengambilan dunia nyata yang didorong oleh LLMS dan menghadirkan tantangan yang signifikan untuk penelitian di masa depan.

Lihat situs web kami untuk ikhtisar lebih lanjut!

Akses data benchmark

1) Pengaturan Env

Dari pip (disarankan)

Dengan python> = 3.8 dan <3.12

pip install stark-qa

Dari sumber

Buat conda env dengan python> = 3.8 dan <3.12 dan instal paket yang diperlukan dalam requirements.txt .

conda create -n stark python=3.11
conda activate stark
pip install -r requirements.txt

2) pemuatan data

 from stark_qa import load_qa , load_skb

dataset_name = 'amazon'

# Load the retrieval dataset
qa_dataset = load_qa ( dataset_name )
idx_split = qa_dataset . get_idx_split ()

# Load the semi-structured knowledge base
skb = load_skb ( dataset_name , download_processed = True , root = None )

Argumen root untuk Load_SKB menentukan lokasi untuk menyimpan data SKB. Dengan nilai default None , data akan disimpan di Huggingface Cache.

Data tugas pengambilan

Pertanyaan Jawaban Pasangan untuk tugas pengambilan akan secara otomatis diunduh dalam data/{dataset}/stark_qa secara default. Kami memberikan split resmi dalam data/{dataset}/split .

Data basis pengetahuan

Ada dua cara untuk memuat data basis pengetahuan:

(Disarankan) Pengunduhan Instan: Data basis pengetahuan dari ketiga tolok ukur akan diunduh dan dimuat secara otomatis saat mengatur download_processed=True .
Data proses dari RAW: Kami juga menyediakan semua kode preprocessing kami untuk transparansi. Oleh karena itu, Anda dapat memproses data mentah dari awal melalui pengaturan download_processed=False . Dalam hal ini, Stark-primekg membutuhkan waktu sekitar 5 menit untuk mengunduh dan memuat data yang diproses. Stark-Amazon dan Stark-Mag mungkin membutuhkan waktu sekitar satu jam untuk diproses dari data mentah.

3) Evaluasi tentang tolok ukur

Jika Anda menjalankan eval, Anda dapat menginstal paket berikut:

pip install llm2vec gritlm bm25

Evaluasi kami mengharuskan Embed Dokumen Node ke candidate_emb_dict.pt , yang merupakan kamus node_id -> torch.Tensor . Embeddings kueri akan secara otomatis dihasilkan jika tidak tersedia. Anda dapat menjalankan skrip Python berikut untuk mengunduh embeddings kueri dan mendokumentasikan embeddings yang dihasilkan oleh text-embedding-ada-002 . (Kami menyediakannya sehingga Anda dapat menjalankan tolok ukur kami segera.)
```
python emb_download.py --dataset amazon --emb_dir emb/
```
Atau Anda dapat menjalankan kode berikut untuk menghasilkan kueri atau dokumen embeddings sendiri. Misalnya,
```
python emb_generate.py --dataset amazon --mode query --emb_dir emb/ --emb_model text-embedding-ada-002
```
- dataset : Salah satu dari amazon , mag atau prime .
- mode : Konten yang disematkan, salah satu query atau doc (dokumen simpul).
- emb_dir : Direktori untuk menyimpan embeddings.
- emb_model : Nama llm untuk menghasilkan embeddings, seperti text-embedding-ada-002 , text-embedding-3-large ,, voyage-large-2-instruct , GritLM/GritLM-7B , McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp
- Lihat emb_generate.py untuk argumen lain.
Jalankan skrip Python untuk evaluasi. Misalnya,
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split test --save_pred 
```
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model GritLM/GritLM-7B --split test-0.1 --save_pred 
```
```
python eval.py --dataset amazon --model LLMReranker --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split human_generated_eval --llm_model gpt-4-1106-preview --save_pred
```
Kunci Args:
- dataset : Dataset untuk mengevaluasi, salah satu dari amazon , mag atau prime .
- model : Model yang akan dievaluasi, salah satu dari BM25 , Colbertv2 , VSS , MultiVSS , LLMReranker .
  - Harap tentukan nama model embedding dengan argumen --emb_model .
  - Jika Anda menggunakan LLMReranker , harap tentukan nama LLM dengan argumen --llm_model .
  - Tentukan tombol API di baris perintah
```
 export ANTHROPIC_API_KEY=YOUR_API_KEY
```
    atau
```
 export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_ORG=YOUR_ORGANIZATION
```
    atau
```
 export VOYAGE_API_KEY=YOUR_API_KEY
```
- emb_dir : Direktori untuk menyimpan embeddings.
- split : Split untuk mengevaluasi, salah satu dari train , val , test , test-0.1 (sampel acak 10%), dan human_generated_eval (untuk dievaluasi pada dataset kueri yang dihasilkan manusia).
- output_dir : Direktori untuk menyimpan output evaluasi.
- surfix : Tentukan kapan embeddings yang disimpan di folder doc{surfix} atau query{surfix} , misalnya, _no_compact,

Referensi

Harap pertimbangkan mengutip makalah kami jika Anda menggunakan tolok ukur atau kode kami dalam pekerjaan Anda:

 @inproceedings{wu24stark,
    title        = {STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases},
    author       = {
        Shirley Wu and Shiyu Zhao and 
        Michihiro Yasunaga and Kexin Huang and 
        Kaidi Cao and Qian Huang and 
        Vassilis N. Ioannidis and Karthik Subbian and 
        James Zou and Jure Leskovec
    },
    booktitle    = {NeurIPS Datasets and Benchmarks Track},
    year         = {2024}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 3.27MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua