Descarga SenTrEv - Descargar el código fuente SenTrEv descarga

SenTrEv

Otro código fuente

v @ v.0.1.0?

Descargar

Centinícole

Evaluación simple para trapo en su PDFS

Sentrev ( senence tr ansformers Ev Aluator) es un paquete de Python que tiene como objetivo ejecutar pruebas de evaluación simples para ayudarlo a elegir el mejor modelo de incrustación para la generación aumentada de recuperación (RAG) con sus documentos PDF.

Aplicabilidad

Sentrev trabaja con:

Codificadores de texto/integradores cargados a través de la clase SentenceTransformer en el paquete de Python sentence_transformers
Documentos PDF (cargas individuales y múltiples compatibles)
Bases de datos de vector de Qdrant (tanto locales como en la nube)

Instalación

Puede instalar el paquete usando pip ( más fácil pero sin personalización ):

python3 -m pip install sentrev

O puede construirlo a partir del código fuente ( más difícil pero personalizable ):

 # clone the repo
git clone https://github.com/AstraBert/SenTrEv.git
# access the repo
cd SenTrEv
# build the package
python3 -m build
# install the package locally with editability settings
python3 -m pip install -e .

Proceso de evaluación

Sentrev aplica un flujo de trabajo de evaluación muy simple:

Después de la fase de extracción de texto PDF y fragmentación (CFR. Supra ), los fragmentos se reducen de acuerdo con un porcentaje definido (opcionalmente) definido por el usuario (el valor predeterminado es 25%), que se extrae aleatoriamente en cualquier punto de cada fragmento.
Los trozos reducidos se asignan a sus originales en un diccionario
Cada modelo codifica los trozos originales y carga los vectores al almacenamiento de vector Qdrant
Los trozos reducidos se usan como consultas para una recuperación densa
A partir de los resultados de recuperación, la precisión, el tiempo y las estadísticas de emisiones de carbono se calculan y representan.

Vea la figura a continuación para obtener una visualización del flujo de trabajo

Las métricas utilizadas para evaluar el rendimiento fueron:

Tasa de éxito : definida como la operación de recuperación de números en la que se recuperó el contexto correcto en la parte superior entre todos los contextos recuperados, fuera de las operaciones de recuperación total:
$ Sr = frac {nCorrect} {ntot} $ (Eq.1)
Ranking recíproco medio (MRR) : MRR define qué tan alto en la clasificación se coloca el contexto correcto entre los resultados recuperados. Se usó MRR@10, lo que significa que para cada operación de recuperación se devolvió 10 elementos y se realizó una evaluación para la clasificación del contexto correcto, que luego se normalizó entre 0 y 1 (ya implementado en Sentrev). Un MRR de 1 significa que el contexto correcto se clasificó primero, mientras que un MRR de 0 significa que no se recuperó. MRR se calcula con la siguiente ecuación general:
$ Mrr = frac {ranking + nretrieved - 1} {nretrieved} $ (Eq.2)
Cuando no se recupera el contexto correcto, MRR se establece automáticamente en 0. MRR se calcula para cada operación de recuperación, entonces la desviación promedio y estándar se calcula y informa.
Rendimiento de tiempo : para cada operación de recuperación se calcula el rendimiento de tiempo en segundos: se informa la desviación promedio y estándar.
Emisiones de carbono : las emisiones de carbono se calculan en GCO2EQ (gramos de CO2 equivalente) a través del codecarbon de la biblioteca de Python y se evaluaron para la región austriaca. Se informan para la carga computacional global de todas las operaciones de recuperación.

Casos de uso

1. Qdrant local

Puede ejecutar fácilmente Qdrant localmente con Docker:

docker pull qdrant/qdrant:latest
docker run -p 6333:6333 -p 6334:6334 qdrant/qdrant:latest

Ahora su base de datos vectorial está escuchando en http://localhost:6333

Digamos que tenemos tres PDFS ( ~/pdfs/instructions.pdf , ~/pdfs/history.pdf , ~/pdfs/info.pdf ) y queremos probar la recuperación con tres codificadores diferentes sentence-transformers/all-MiniLM-L6-v2 , sentence-transformers/sentence-t5-base , sentence-transformers/all-mpnet-base-v2 .

Podemos hacerlo con este código muy simple:

 from sentrev . evaluator import evaluate_rag
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

# load all the embedding moedels
encoder1 = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
encoder2 = SentenceTransformer ( 'sentence-transformers/sentence-t5-base' )
encoder3 = SentenceTransformer ( 'sentence-transformers/all-mpnet-base-v1' )

# create a list of the embedders and a dictionary that map each one with its name for the stats report which will be output by SenTrEv
encoders = [ encoder1 , encoder2 , encoder3 ]
encoder_to_names = { encoder1 : 'all-MiniLM-L6-v2' , encoder2 : 'sentence-t5-base' , encoder3 : 'all-mpnet-base-v1' }

# set up a Qdrant client
client = QdrantClient ( "http://localhost:6333" )

# create a list of your PDF paths
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]

# Choose a path for the CSV where the evaluation stats will be saved

csv_path = '~/eval/stats.csv'

# evaluate retrieval
evaluate_rag ( pdfs = pdfs , encoders = encoders , encoder_to_name = encoder_to_names , client = client , csv_path = csv_path , distance = 'euclid' , chunking_size = 400 , mrr = 10 , carbon_tracking = "USA" , plot = True )

Puede jugar con la fragmentación de su PDF estableciendo el argumento chunking_size o con el porcentaje de texto utilizado para probar la recuperación estableciendo text_percentage o con la métrica de distancia utilizada para la recuperación estableciendo el argumento distance o con la configuración mrr ajustando el número de elementos recuperados (en este caso 10); También puede pasar plot=True si desea gráficos para la evaluación: los gráficos se guardarán en la misma carpeta del archivo CSV; Si desea activar el seguimiento de emisiones de carbono, puede usar la opción carbon_tracking seguida del código ISO de tres letras del estado en el que se encuentra.

2. Qdrant en nube

También puede explotar las soluciones de base de datos de Qdrant en la nube (más al respecto aquí). Solo necesita su URL de clúster Qdrant y la clave API para acceder a ella:

 from qdrant_client import QdrantClient

client = QdrantClient ( url = "YOUR-QDRANT-URL" , api_key = "YOUR-API-KEY" )

Este es el único cambio que debe hacer al código proporcionado en el ejemplo anterior.

3. Sube PDFS a Qdrant

Puede usar SentRev también para fragmentar, vectorizar y cargar sus PDF a una base de datos QDRANT.

 from sentrev . evaluator import upload_pdfs

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]
client = QdrantClient ( "http://localhost:6333" )

upload_pdfs ( pdfs = pdfs , encoder = encoder , client = client )

En cuanto a antes, también puede jugar con el argumento chunking_size (el valor predeterminado es 1000) y con el argumento distance (el valor predeterminado es coseno).

4. Implementar búsqueda semántica en una colección Qdrant

También puede buscar colecciones ya existentes en una base de datos Qdrant con SentRev:

 from sentrev . utils import NeuralSearcher

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
collection_name = 'customer_help'
client = QdrantClient ( "http://localhost:6333" )

searcher = NeuralSearcher ( client = client , model = encoder , collection_name = collection_name )
res = searcher . search ( "Is it possible to pay online with my credit card?" , limit = 5 )

Los resultados se devolverán como una lista de cargas útiles (los metadatos que sube a la colección Qdrant junto con los puntos de vector).

Si usó la función Sentrev upload_pdfs , debería poder acceder a los resultados de esta manera:

 text = res [ 0 ][ "text" ]
source = res [ 0 ][ "source" ]
page = res [ 0 ][ "page" ]

Estudio de caso

Puede consultar el caso de prueba informado aquí

Referencia

Encuentre una referencia para todas las funciones y clases aquí

Hoja de ruta

v1.0.0

Agregar soporte para los tipos de datos de Markdown, HTML, Word y CSV
Agregue soporte para Chroma, Pinecone, Weaviate, Supabase y MongoDB como bases de datos vectoriales

Que contribuye

¡Las contribuciones siempre son bienvenidas!

Encuentre las pautas de contribución en la contribución.md

Licencia, cita y financiación

Este proyecto es de código abierto y se proporciona bajo una licencia MIT.

Si usó SenTrEv para evaluar sus modelos de recuperación, considere citarlo:

Bertelli, AC (2024). Evaluación del desempeño de tres integradores de transformadores de texto Incremistadores: un estudio de caso para Sentrev (V0.1.0). Zenodo. https://doi.org/10.5281/zenodo.14503887

Si lo encontró útil, considere financiarlo.

Expandir

Información adicional

Versión v @ v.0.1.0?
Tipo Otro código fuente
Fecha de actualización 2025-05-27
tamaño 2.48MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo