Descarga de stark - Descarga del código fuente de stark

stark

Otro código fuente

1.0.0

Descargar

Stark: Benchmarking LLM Recuperación en bases de conocimiento textual y relacional

NOTICIAS

[Oct 2024] Board de clasificación: ¡Construimos la tabla de clasificación oficial en Hunggingface y estamos pidiendo presentaciones!
[Oct 2024] ¡ El papel listo para la cámara está fuera! Agregamos múltiples modelos de recuperación, incluidos BM25, Colbertv2, Gritlm.
[SEP 2024] ¡Stark es aceptado para 2024 Neurips DataSet & Benchmark Track!
[Jun 2024] Hacemos nuestro punto de referencia como un paquete PIP Stark-Qa. ¡Puede cargar directamente los datos del paquete ahora!
[Jun 2024] ¡Migramos nuestros datos a la cara abrazada! No necesita cambiar nada, los datos se descargarán automáticamente.
[Mayo de 2024] Hemos aumentado nuestro punto de referencia con tres conjuntos de datos de consultas generados por humanos de alta calidad que están abiertos al acceso. ¡Vea más detalles en nuestro ARXIV actualizado!
[9 de mayo de 2024] ¡Lanzamos Stark Skb Explorer, una interfaz interactiva para que explore nuestras bases de conocimiento!
[7 de mayo de 2024] Presentamos a Stark en la reunión anual de afiliados de Stanford en 2024 y la Conferencia de Ciencia de Datos de Stanford de 2024.
[5 de mayo de 2024] Stark se informó en MarketPost y 智源社区 Baai. ¡Gracias por escribir sobre nuestro trabajo!
[21 de abril 2024] Lanzamos el punto de referencia Stark.

¿Qué es Stark?

Stark es un punto de referencia de recuperación semiestructurado a gran escala en bases de conocimiento textual y relacional, que cubre aplicaciones en la búsqueda de productos, la búsqueda en papel académico y las consultas de biomedicina.

Con consultas diversas, de sonido natural y práctico que requieren un razonamiento específico del contexto, Stark establece un nuevo estándar para evaluar los sistemas de recuperación del mundo real impulsados por LLM y presenta desafíos significativos para futuras investigaciones.

¡Visite nuestro sitio web para obtener más visión general!

Acceder a datos de referencia

1) Configuración de envío

De Pip (recomendado)

Con python> = 3.8 y <3.12

pip install stark-qa

De la fuente

Cree una env env con python> = 3.8 y <3.12 e instale los paquetes requeridos en requirements.txt .

conda create -n stark python=3.11
conda activate stark
pip install -r requirements.txt

2) Carga de datos

 from stark_qa import load_qa , load_skb

dataset_name = 'amazon'

# Load the retrieval dataset
qa_dataset = load_qa ( dataset_name )
idx_split = qa_dataset . get_idx_split ()

# Load the semi-structured knowledge base
skb = load_skb ( dataset_name , download_processed = True , root = None )

El argumento raíz para load_skb especifica la ubicación para almacenar datos SKB. Sin valor predeterminado None , los datos se almacenarán en Huggingface Cache.

Datos de la tarea de recuperación

Los pares de respuestas de la pregunta para la tarea de recuperación se descargarán automáticamente en data/{dataset}/stark_qa de forma predeterminada. Proporcionamos división oficial en data/{dataset}/split .

Datos de las bases de conocimiento

Hay dos formas de cargar los datos de la base de conocimiento:

(Recomendado) Descarga instantánea: los datos de la base de conocimiento de los tres puntos de referencia se descargarán y cargarán automáticamente al configurar download_processed=True .
Datos de proceso de RAW: también proporcionamos todo nuestro código de preprocesamiento para la transparencia. Por lo tanto, puede procesar los datos sin procesar desde cero a través de la configuración download_processed=False . En este caso, Stark-imprimekg toma alrededor de 5 minutos en descargar y cargar los datos procesados. Stark-Amazon y Stark-Mag pueden tarda alrededor de una hora en procesarse desde los datos sin procesar.

3) Evaluación en Benchmark

Si está ejecutando Eval, puede instalar los siguientes paquetes:

pip install llm2vec gritlm bm25

Nuestra evaluación requiere que incruste los documentos de nodo en candidate_emb_dict.pt , que es un diccionario node_id -> torch.Tensor . Los incrustaciones de consultas se generarán automáticamente si no están disponibles. Puede ejecutar el siguiente script de Python para descargar incrustaciones de consultas y incrustaciones de documentos generados por text-embedding-ada-002 . (Les proporcionamos para que pueda correr en nuestro punto de referencia de inmediato).
```
python emb_download.py --dataset amazon --emb_dir emb/
```
O puede ejecutar el siguiente código para generar la consulta o el documento de incrustaciones por usted mismo. P.ej,
```
python emb_generate.py --dataset amazon --mode query --emb_dir emb/ --emb_model text-embedding-ada-002
```
- dataset : uno de amazon , mag o prime .
- mode : el contenido de incrustar, uno de query o doc (documentos de nodo).
- emb_dir : el directorio para almacenar incrustaciones.
- emb_model : el nombre LLM para generar integridades, como text-embedding-ada-002 , text-embedding-3-large , voyage-large-2-instruct , GritLM/GritLM-7B , McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp
- Ver emb_generate.py para otros argumentos.
Ejecute el script de Python para su evaluación. P.ej,
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split test --save_pred 
```
```
python eval.py --dataset amazon --model VSS --emb_dir emb/ --output_dir output/ --emb_model GritLM/GritLM-7B --split test-0.1 --save_pred 
```
```
python eval.py --dataset amazon --model LLMReranker --emb_dir emb/ --output_dir output/ --emb_model text-embedding-ada-002 --split human_generated_eval --llm_model gpt-4-1106-preview --save_pred
```
Argumentos clave:
- dataset : el conjunto de datos para evaluar, uno de amazon , mag o prime .
- model : el modelo a evaluar, uno de BM25 , Colbertv2 , VSS , MultiVSS , LLMReranker .
  - Especifique el nombre del modelo de incrustación con argumento --emb_model .
  - Si está utilizando LLMReranker , especifique el nombre LLM con argumento --llm_model .
  - Especificar las teclas API en la línea de comandos
```
 export ANTHROPIC_API_KEY=YOUR_API_KEY
```
    o
```
 export OPENAI_API_KEY=YOUR_API_KEY
export OPENAI_ORG=YOUR_ORGANIZATION
```
    o
```
 export VOYAGE_API_KEY=YOUR_API_KEY
```
- emb_dir : el directorio para almacenar incrustaciones.
- split : la división para evaluar, uno de train , val , test , test-0.1 (10% de muestra aleatoria) y human_generated_eval (para ser evaluado en el conjunto de datos de consultas generado por humanos).
- output_dir : el directorio para almacenar salidas de evaluación.
- surfix : especifique cuándo los incrustaciones almacenadas están en la carpeta doc{surfix} o query{surfix} , por ejemplo, _no_compact,

Referencia

Considere citar nuestro documento si usa nuestro punto de referencia o código en su trabajo:

 @inproceedings{wu24stark,
    title        = {STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases},
    author       = {
        Shirley Wu and Shiyu Zhao and 
        Michihiro Yasunaga and Kexin Huang and 
        Kaidi Cao and Qian Huang and 
        Vassilis N. Ioannidis and Karthik Subbian and 
        James Zou and Jure Leskovec
    },
    booktitle    = {NeurIPS Datasets and Benchmarks Track},
    year         = {2024}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 3.27MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo