Téléchargement stark - Téléchargement du code source stark

stark

Autre code source

1.0.0

Télécharger

Stark: Benchmarking LLM Retrieval sur les bases de connaissances textuelles et relationnelles

NOUVELLES

[Octobre 2024] Cabillations: Nous construisons le classement officiel sur Hunggingface et nous appelons à des soumissions!
[Octobre 2024] Le papier prêt pour la caméra est sorti! Nous ajoutons plusieurs modèles de récupération, notamment BM25, Colbertv2, Gritlm.
[Sep 2024] Stark est accepté sur 2024 NEINIPS DataSet & Benchmark Track!
[Juin 2024] Nous faisons notre référence en tant que package PIP Stark-QA. Vous pouvez maintenant charger les données du package!
[Juin 2024] Nous migrons nos données vers un visage étreint! Vous n'avez pas besoin de changer quoi que ce soit, les données seront automatiquement téléchargées.
[Mai 2024] Nous avons augmenté notre référence avec trois ensembles de données de requête générés par l'homme de haute qualité qui sont ouverts à l'accès. Voir plus de détails dans notre arxiv mis à jour!
[9 mai 2024] Nous publions Stark SKB Explorer, une interface interactive à explorer nos bases de connaissances!
[7 mai 2024] Nous présentons Stark lors de la réunion annuelle des affiliés de Stanford 2024 et de la Conférence de science des données de Stanford en 2024.
[5 mai 2024] Stark a été signalé sur MarketPost et 智源社区 Baai. Merci d'avoir écrit sur notre travail!
[21 avril 2024] Nous libérons la référence Stark.

Qu'est-ce que Stark?

Stark est une référence de récupération semi-structurée à grande échelle sur les bases de connaissances textuelles et relationnelles, couvrant les applications de la recherche de produits, de la recherche de documents académiques et des demandes de biomédecine.

Avec des requêtes diverses, à consonance naturelle et pratiques qui nécessitent un raisonnement spécifique au contexte, Stark établit une nouvelle norme pour évaluer les systèmes de récupération du monde réel pilotés par les LLM et présente des défis importants pour les recherches futures.

Consultez notre site Web pour plus d'ensemble!

Données de référence d'accès

1) Configuration Env

De PIP (recommandé)

Avec Python> = 3,8 et <3.12

pip install stark-qa

De la source

Créez un Conda Env avec Python> = 3,8 et <3.12 et installez les packages requis dans requirements.txt .

conda create -n stark python=3.11
conda activate stark
pip install -r requirements.txt

2) Chargement des données

 from stark_qa import load_qa , load_skb

dataset_name = 'amazon'

# Load the retrieval dataset
qa_dataset = load_qa ( dataset_name )
idx_split = qa_dataset . get_idx_split ()

# Load the semi-structured knowledge base
skb = load_skb ( dataset_name , download_processed = True , root = None )

L'argument racine pour LOAD_SKB spécifie l'emplacement pour stocker les données SKB. Avec la valeur par défaut None , les données seront stockées dans HuggingFace Cache.

Données de la tâche de récupération

Les paires de réponses de question pour la tâche de récupération seront automatiquement téléchargées dans data/{dataset}/stark_qa par défaut. Nous avons fourni une scission officielle dans data/{dataset}/split .

Données des bases de connaissances

Il existe deux façons de charger les données de base de connaissances:

(Recommandé) Téléchargement instantané: les données de base de connaissances des trois référence seront automatiquement téléchargées et chargées lors du définition download_processed=True .
Les données du processus de RAW: nous avons également fourni tout notre code de prétraitement pour la transparence. Par conséquent, vous pouvez traiter les données brutes à partir de zéro via le réglage download_processed=False . Dans ce cas, Stark-Primekg met environ 5 minutes pour télécharger et charger les données traitées. Stark-Amazon et Stark-Mag peuvent prendre environ une heure pour traiter les données brutes.

3) Évaluation de la référence

Si vous exécutez EVAL, vous pouvez installer les packages suivants:

pip install llm2vec gritlm bm25

Notre évaluation nécessite intégrer les documents de nœud dans candidate_emb_dict.pt , qui est un dictionnaire node_id -> torch.Tensor . Les incorporations de requête seront générées automatiquement si elles ne sont pas disponibles. Vous pouvez soit exécuter le script Python suivant pour télécharger des incorporations de requête et des intégres de documents générés par text-embedding-ada-002 . (Nous les fournissons afin que vous puissiez courir sur notre référence tout de suite.)
```
python emb_download.py --dataset amazon --emb_dir emb/
```
Ou vous pouvez exécuter le code suivant pour générer vous-même la requête ou le document. Par exemple,
```
python emb_generate.py --dataset amazon --mode query --emb_dir emb/ --emb_model text-embedding-ada-002
```
- dataset : l'un d' amazon , mag ou prime .
- mode : Le contenu à intégrer, l'un des query ou doc (documents de nœud).
- emb_dir : Le répertoire pour stocker des intégres.
- emb_model : le nom LLM pour générer des intégres, tels GritLM/GritLM-7B text-embedding-ada-002 , text-embedding-3-large Embedding- voyage-large-2-instruct McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp
- Voir emb_generate.py pour d'autres arguments.
Exécutez le script Python pour l'évaluation. Par exemple,
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split test --save_pred 
```
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model GritLM/GritLM-7B --split test-0.1 --save_pred 
```
```
python eval.py --dataset amazon --model LLMReranker --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split human_generated_eval --llm_model gpt-4-1106-preview --save_pred
```
Args clés:
- dataset : l'ensemble de données à évaluer, l'un d' amazon , mag ou prime .
- model : Le modèle à évaluer, l'un des BM25 , Colbertv2 , VSS , MultiVSS , LLMReranker .
  - Veuillez spécifier le nom du modèle d'intégration avec Argument --emb_model .
  - Si vous utilisez LLMReranker , veuillez spécifier le nom LLM avec Argument --llm_model .
  - Spécifiez les touches API dans la ligne de commande
```
 export ANTHROPIC_API_KEY=YOUR_API_KEY
```
    ou
```
 export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_ORG=YOUR_ORGANIZATION
```
    ou
```
 export VOYAGE_API_KEY=YOUR_API_KEY
```
- emb_dir : Le répertoire pour stocker des intégres.
- split : la division pour évaluer sur, une des train , val , test , test-0.1 (échantillon aléatoire à 10%) et human_generated_eval (à évaluer sur l'ensemble de données de requête généré par l'homme).
- output_dir : le répertoire pour stocker les sorties d'évaluation.
- surfix : Spécifiez lorsque les intégres stockés sont dans le dossier doc{surfix} ou query{surfix} , par exemple, _no_compact,

Référence

Veuillez envisager de citer notre papier si vous utilisez notre référence ou notre code dans votre travail:

 @inproceedings{wu24stark,
    title        = {STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases},
    author       = {
        Shirley Wu and Shiyu Zhao and 
        Michihiro Yasunaga and Kexin Huang and 
        Kaidi Cao and Qian Huang and 
        Vassilis N. Ioannidis and Karthik Subbian and 
        James Zou and Jure Leskovec
    },
    booktitle    = {NeurIPS Datasets and Benchmarks Track},
    year         = {2024}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-17
taille 3.27MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout