stark Download - stark Source Code Download

stark

Anderer Quellcode

1.0.0

Herunterladen

Stark: Benchmarking LLM Abruf auf textuelle und relationale Wissensbasis

NACHRICHT

[Okt 2024] Rangliste: Wir bauen die offizielle Rangliste auf Hunggingface und fordern Einsendungen!
[Okt. 2024] Kamera-readiertes Papier ist aus! Wir fügen mehrere Abrufmodelle hinzu, einschließlich BM25, Colbertv2, Gritlm.
[Sep 2024] Stark wird auf 2024 Neurips Dataset & Benchmark Track akzeptiert!
[Jun 2024] Wir machen unseren Benchmark als PIP-Paket Stark-QA. Sie können die Daten jetzt direkt aus dem Paket laden!
[Jun 2024] Wir migrieren unsere Daten in das Umarmen! Sie müssen nichts ändern, die Daten werden automatisch heruntergeladen.
[Mai 2024] Wir haben unseren Benchmark mit drei hochwertigen, von Menschen erzeugten Abfragedatensätzen erweitert, die für den Zugriff geöffnet sind. Weitere Informationen finden Sie in unserem aktualisierten Arxiv!
[9. Mai 2024] Wir veröffentlichen Stark Skb Explorer, eine interaktive Schnittstelle, mit der Sie unsere Wissensbasis untersuchen können!
[7. Mai 2024] Wir präsentieren Stark in der jährlichen Affiliates -Treffen 2024 und 2024 Stanford Data Science Conference.
[5. Mai 2024] Stark wurde über Marketpost und 智源社区 Baai berichtet. Danke, dass du über unsere Arbeit geschrieben hast!
[21. April 2024] Wir veröffentlichen den Stark Benchmark.

Was ist Stark?

Stark ist ein groß angelegter halbstrukturierter Abruf-Benchmark zu textuellen und relationalen Wissensbasis, die Anwendungen bei Produktsuche, akademischer Papiersuche und Biomedizinanfragen abdecken.

Mit vielfältigen, natürlichen und praktischen Abfragen, die kontextspezifisches Denken erfordern, setzt Stark einen neuen Standard für die Beurteilung von realen Abrufsystemen, die von LLMs angetrieben werden, und stellt erhebliche Herausforderungen für die zukünftige Forschung vor.

Weitere Übersicht finden Sie auf unserer Website!

Zugriff auf Benchmark -Daten

1) Env Setup

Von PIP (empfohlen)

Mit Python> = 3,8 und <3,12

pip install stark-qa

Von Quelle

Erstellen Sie eine Conda Env mit Python> = 3,8 und <3.12 und installieren Sie die erforderlichen Pakete in requirements.txt .

conda create -n stark python=3.11
conda activate stark
pip install -r requirements.txt

2) Datenbelastung

 from stark_qa import load_qa , load_skb

dataset_name = 'amazon'

# Load the retrieval dataset
qa_dataset = load_qa ( dataset_name )
idx_split = qa_dataset . get_idx_split ()

# Load the semi-structured knowledge base
skb = load_skb ( dataset_name , download_processed = True , root = None )

Das Root -Argument für Load_SKB gibt den Speicherort zur Speicherung von SKB -Daten an. Mit Standardwert None werden die Daten im Huggingface -Cache gespeichert.

Daten der Abrufaufgabe

Frage -Antwortpaare für die Abrufaufgabe werden standardmäßig automatisch in data/{dataset}/stark_qa heruntergeladen. Wir haben offizielle Split in data/{dataset}/split bereitgestellt.

Daten der Wissensbasis

Es gibt zwei Möglichkeiten, die Wissensbasisdaten zu laden:

(Empfohlen) Sofortiges Herunterladen: Die Wissensbasisdaten aller drei Benchmark werden automatisch heruntergeladen und geladen, wenn download_processed=True eingestellt wird.
Prozessdaten von RAW: Wir haben auch unseren gesamten Vorverarbeitungscode für Transparenz bereitgestellt. Daher können Sie die Rohdaten von Grund auf neu verarbeiten, indem Sie download_processed=False einstellen. In diesem Fall dauert Stark-Primekg ungefähr 5 Minuten, um die verarbeiteten Daten herunterzuladen und zu laden. Stark-Amazon und Stark-MAG können etwa eine Stunde dauern, um die Rohdaten zu verarbeiten.

3) Bewertung des Benchmarks

Wenn Sie Eval ausführen, können Sie die folgenden Pakete installieren:

pip install llm2vec gritlm bm25

Unsere Bewertung erfordert, dass die Knotendokumente in candidate_emb_dict.pt eingebettet sind, ein Wörterbuch node_id -> torch.Tensor . Abfragemedings werden automatisch generiert, wenn sie nicht verfügbar sind. Sie können entweder das folgende Python-Skript ausführen, um Abfragen auszubetten und Dokumenteinbettungen zu dokumentieren, die durch text-embedding-ada-002 generiert werden. (Wir stellen sie zur Verfügung, damit Sie sofort auf unserem Benchmark laufen können.)
```
python emb_download.py --dataset amazon --emb_dir emb/
```
Oder Sie können den folgenden Code ausführen, um die Abfrage- oder Dokument -Einbettungen selbst zu generieren. Z.B,
```
python emb_generate.py --dataset amazon --mode query --emb_dir emb/ --emb_model text-embedding-ada-002
```
- dataset : einer von amazon , mag oder prime .
- mode : Der Inhalt zum Einbetten, eine von query oder doc (Knotendokumente).
- emb_dir : Das Verzeichnis zum Speichern von Einbettungen.
- emb_model : Der LLM-Name, um Einbettungen wie text-embedding-ada-002 , text-embedding-3-large , voyage-large-2-instruct , GritLM/GritLM-7B , McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp
- Siehe emb_generate.py für andere Argumente.
Führen Sie das Python -Skript zur Bewertung aus. Z.B,
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split test --save_pred 
```
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model GritLM/GritLM-7B --split test-0.1 --save_pred 
```
```
python eval.py --dataset amazon --model LLMReranker --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split human_generated_eval --llm_model gpt-4-1106-preview --save_pred
```
Schlüsselgüter:
- dataset : Der Datensatz, der auf amazon , mag oder prime bewertet werden soll.
- model : Das zu bewertende Modell, eines von BM25 , Colbertv2 , VSS , MultiVSS , LLMReranker .
  - Bitte geben Sie den Namen des Einbettungsmodells mit Argument --emb_model an.
  - Wenn Sie LLMReranker verwenden, geben Sie bitte den LLM -Namen mit Argument --llm_model an.
  - Geben Sie API -Schlüssel in der Befehlszeile an
```
 export ANTHROPIC_API_KEY=YOUR_API_KEY
```
    oder
```
 export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_ORG=YOUR_ORGANIZATION
```
    oder
```
 export VOYAGE_API_KEY=YOUR_API_KEY
```
- emb_dir : Das Verzeichnis zum Speichern von Einbettungen.
- split : Der aufgeteilte Split auf, einer von train , val , test , test-0.1 (10% Zufallsstichprobe) und human_generated_eval (zu bewertet auf dem menschlichen Datensatz für Abfragen bewertet werden).
- output_dir : Das Verzeichnis zum Speichern von Ausgaben.
- surfix : Geben Sie an, wann die gespeicherten Einbetten in Ordner doc{surfix} oder query{surfix} , z.

Referenz

Bitte erwägen Sie, unser Papier zu zitieren, wenn Sie unseren Benchmark oder Code in Ihrer Arbeit verwenden:

 @inproceedings{wu24stark,
    title        = {STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases},
    author       = {
        Shirley Wu and Shiyu Zhao and 
        Michihiro Yasunaga and Kexin Huang and 
        Kaidi Cao and Qian Huang and 
        Vassilis N. Ioannidis and Karthik Subbian and 
        James Zou and Jure Leskovec
    },
    booktitle    = {NeurIPS Datasets and Benchmarks Track},
    year         = {2024}
}

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 3.27MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

stark

Stark: Benchmarking LLM Abruf auf textuelle und relationale Wissensbasis

NACHRICHT

Was ist Stark?

Zugriff auf Benchmark -Daten

1) Env Setup

Von PIP (empfohlen)

Von Quelle

2) Datenbelastung

Daten der Abrufaufgabe

Daten der Wissensbasis

3) Bewertung des Benchmarks

Referenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express