stark下载 - stark源代码下载

stark

其他源码

1.0.0

下载

Stark：在文本和关系知识基础上基准测试LLM检索

消息

[2024年10月]排行榜：我们在unggingface上构建了官方排行榜，我们呼吁提交！
[2024年10月]摄像机就绪纸已经熄灭了！我们添加了多个检索模型，包括BM25，ColbertV2，Gritlm。
[2024年9月] Stark被接受为2024 Neurips Dataset＆Benchmark Track！
[2024年6月]我们将基准作为pip包stark-qa做出。您现在可以直接从软件包中加载数据！
[2024年6月]我们将数据迁移到拥抱面孔！您无需更改任何内容，数据将自动下载。
[2024年5月]我们通过三个可访问的高质量人类生成的查询数据集增强了基准。在我们更新的Arxiv中查看更多详细信息！
[2024年5月9日]我们发布了Stark SKB Explorer，这是一个交互式界面，供您探索我们的知识基础！
[2024年5月7日]我们在2024年斯坦福年度会员会议和2024年斯坦福数据科学会议上介绍了斯塔克。
[2024年5月5日]据报道，在MarketPost和智源社区baai上报道了Stark。感谢您写有关我们的工作的文章！
[4月21日2024年]我们发布了Stark基准。

什么是史塔克？

Stark是关于文本和关系知识库的大规模半结构化检索基准，涵盖了产品搜索，学术纸搜索和生物医学查询中的应用。

Stark采用需要特定于上下文的推理的多样，自然和实用的查询，为评估由LLMS驱动的现实世界检索系统设定了新的标准，并为未来的研究带来了重大挑战。

查看我们的网站以获取更多概述！

访问基准数据

1）设置

从PIP（推荐）

使用Python> = 3.8和<3.12

pip install stark-qa

来自来源

使用Python> = 3.8和<3.12创建一个conda env，并在requirements.txt中安装所需的软件包。

conda create -n stark python=3.11
conda activate stark
pip install -r requirements.txt

2）数据加载

 from stark_qa import load_qa , load_skb

dataset_name = 'amazon'

# Load the retrieval dataset
qa_dataset = load_qa ( dataset_name )
idx_split = qa_dataset . get_idx_split ()

# Load the semi-structured knowledge base
skb = load_skb ( dataset_name , download_processed = True , root = None )

LOAD_SKB的根参数指定存储SKB数据的位置。对于默认值None ，数据将存储在HuggingFace缓存中。

检索任务的数据

检索任务的问题答案对将自动在data/{dataset}/stark_qa中下载。我们提供了data/{dataset}/split中的官方拆分。

知识库的数据

有两种加载知识库数据的方法：

（建议）即时下载：设置download_processed=True时，所有三个基准的知识库数据将自动下载和加载。
RAW的过程数据：我们还提供了所有预处理代码以实现透明度。因此，您可以通过设置download_processed=False处理原始数据。在这种情况下，Stark-Primekg大约需要5分钟才能下载并加载处理后的数据。 Stark-Amazon和Stark-Mag可能需要大约一个小时的时间来处理原始数据。

3）评估基准

如果您正在运行评估，则可以安装以下软件包：

pip install llm2vec gritlm bm25

我们的评估要求将节点文档嵌入到candidate_emb_dict.pt中，这是字典node_id -> torch.Tensor 。如果不可用，查询嵌入将自动生成。您可以运行以下Python脚本以下载由text-embedding-ada-002生成的查询嵌入和文档嵌入。（我们提供它们，以便您可以立即在我们的基准下运行。）
```
python emb_download.py --dataset amazon --emb_dir emb/
```
或者，您可以运行以下代码以自己生成查询或文档嵌入。例如，
```
python emb_generate.py --dataset amazon --mode query --emb_dir emb/ --emb_model text-embedding-ada-002
```
- dataset ： amazon ， mag或prime之一。
- mode ：要嵌入的内容，一个query或doc之一（节点文档）。
- emb_dir ：存储嵌入的目录。
- emb_model ：要生成嵌入的LLM名称，例如text-embedding-ada-002 ， text-embedding-3-large ， voyage-large-2-instruct GritLM/GritLM-7B McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp
- 有关其他参数，请参见emb_generate.py 。
运行Python脚本进行评估。例如，
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split test --save_pred 
```
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model GritLM/GritLM-7B --split test-0.1 --save_pred 
```
```
python eval.py --dataset amazon --model LLMReranker --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split human_generated_eval --llm_model gpt-4-1106-preview --save_pred
```
键Args：
- dataset ： amazon ， mag或prime的数据集之一。
- model ：要评估的模型BM25 ， Colbertv2 ， VSS ， MultiVSS ， LLMReranker之一。
  - 请用参数--emb_model指定嵌入模型的名称。
  - 如果您使用的是LLMReranker ，请用参数--llm_model指定LLM名称。
  - 在命令行中指定API键
```
 export ANTHROPIC_API_KEY=YOUR_API_KEY
```
    或者
```
 export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_ORG=YOUR_ORGANIZATION
```
    或者
```
 export VOYAGE_API_KEY=YOUR_API_KEY
```
- emb_dir ：存储嵌入的目录。
- split ：拆分以评估train ， val ， test ， test-0.1 （随机样本为10％）和human_generated_eval （在人类生成的查询数据集上进行评估）。
- output_dir ：存储评估输出的目录。
- surfix ：指定何时存储的嵌入在文件夹doc{surfix}或query{surfix}中，例如，_no_compact，

参考

如果您在工作中使用我们的基准或代码，请考虑引用我们的论文：

 @inproceedings{wu24stark,
    title        = {STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases},
    author       = {
        Shirley Wu and Shiyu Zhao and 
        Michihiro Yasunaga and Kexin Huang and 
        Kaidi Cao and Qian Huang and 
        Vassilis N. Ioannidis and Karthik Subbian and 
        James Zou and Jure Leskovec
    },
    booktitle    = {NeurIPS Datasets and Benchmarks Track},
    year         = {2024}
}

展开

附加信息