SenTrEv下載 - SenTrEv源代碼下載

SenTrEv

其他源碼

v @ v.0.1.0?

下載

sentrev

PDFS上的抹布的簡單評估

SentRev （ Sen Tence Tr ansFormers ev Aluator）是一個Python軟件包，旨在運行簡單的評估測試，以幫助您選擇使用PDF文檔的最佳嵌入模型，以檢索增強生成（RAG）。

適用性

SentRev與：

通過python package sentence_transformers中的類SentenceTransformer加載的文本編碼器/嵌入式
PDF文檔（支持單個和多個上傳）
QDRANT矢量數據庫（本地和雲上都

安裝

您可以使用pip安裝軟件包（更容易，但沒有自定義）：

python3 -m pip install sentrev

或者，您可以從源代碼（更困難但可自定義）構建它：

 # clone the repo
git clone https://github.com/AstraBert/SenTrEv.git
# access the repo
cd SenTrEv
# build the package
python3 -m build
# install the package locally with editability settings
python3 -m pip install -e .

評估過程

SentRev應用了非常簡單的評估工作流程：

在PDF文本提取和塊（CFR。同上）階段之後，根據（可選）用戶定義的百分比（默認值為25％）減少塊，該塊在每個塊的任何點隨機提取。
減少的塊在詞典中映射到其原始塊
每個模型都編碼原始塊並將向量上傳到QDRANT矢量存儲
然後，減少的塊被用作密集檢索的查詢
從檢索結果開始，計算並繪製了準確性，時間和碳排放統計。

有關工作流的可視化，請參見下圖

用於評估性能的指標是：

成功率：定義為數字檢索操作，其中正確的上下文在所有檢索到的上下文中排名最高，在總檢索操作中：
$ sr = frac {ncorrect} {ntot} $ （等式1）
平均相互排名（MRR） ：MRR定義了排名正確的上下文的高度位置在檢索結果之間。使用了MRR@10，這意味著為每個檢索操作返回10個項目，並對正確上下文進行評估，然後在0到1之間進行標準化（已在SentRev中實現）。 1的MRR表示正確的上下文是第一個排名，而MRR為0表示未檢索。 MRR用以下一般方程計算：
$ mrr = frac {排名 + nretresed -1} {nretrive} $ （等式2）
當未檢索正確的上下文時，MRR將自動設置為0。為每個檢索操作計算MRR，然後計算並報告平均值和標準偏差。
時間性能：對於每個檢索操作，計算秒鐘內的時間性能：然後報告平均值和標準偏差。
碳排放：通過Python圖書館的codecarbon在GCO2EQ（二氧化碳的克）中計算碳排放，並對奧地利地區進行了評估。報告了所有檢索操作的全球計算負載。

用例

1。當地QDRANT

您可以使用Docker輕鬆在本地運行QDRANT：

docker pull qdrant/qdrant:latest
docker run -p 6333:6333 -p 6334:6334 qdrant/qdrant:latest

現在，您的矢量數據庫正在http://localhost:6333

Let's say we have three PDFs ( ~/pdfs/instructions.pdf , ~/pdfs/history.pdf , ~/pdfs/info.pdf ) and we want to test retrieval with three different encoders sentence-transformers/all-MiniLM-L6-v2 , sentence-transformers/sentence-t5-base , sentence-transformers/all-mpnet-base-v2 .

我們可以使用這個非常簡單的代碼來完成：

 from sentrev . evaluator import evaluate_rag
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

# load all the embedding moedels
encoder1 = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
encoder2 = SentenceTransformer ( 'sentence-transformers/sentence-t5-base' )
encoder3 = SentenceTransformer ( 'sentence-transformers/all-mpnet-base-v1' )

# create a list of the embedders and a dictionary that map each one with its name for the stats report which will be output by SenTrEv
encoders = [ encoder1 , encoder2 , encoder3 ]
encoder_to_names = { encoder1 : 'all-MiniLM-L6-v2' , encoder2 : 'sentence-t5-base' , encoder3 : 'all-mpnet-base-v1' }

# set up a Qdrant client
client = QdrantClient ( "http://localhost:6333" )

# create a list of your PDF paths
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]

# Choose a path for the CSV where the evaluation stats will be saved

csv_path = '~/eval/stats.csv'

# evaluate retrieval
evaluate_rag ( pdfs = pdfs , encoders = encoders , encoder_to_name = encoder_to_names , client = client , csv_path = csv_path , distance = 'euclid' , chunking_size = 400 , mrr = 10 , carbon_tracking = "USA" , plot = True )

您可以通過設置chunking_size參數或通過設置text_percentage或通過設置距離參數來檢索距離參數或使用mrr設置來調整檢索到的項目的數量（在本例10中）來測試檢索的距離（在本例10）中使用（在此情況10）中使用用於檢索的distance度量（在此情況10）中使用（在本例10）中使用（在此情況10）；如果需要評估圖，也可以通過plot=True ：將在CSV文件的同一文件夾中保存圖；如果您想打開碳排放跟踪，可以使用carbon_tracking選項，然後使用您所處狀態的三個字母ISO代碼。

2。雲QDRANT

您還可以利用QDRANT在雲數據庫解決方案（在此處進行更多有關它）。您只需要QDRANT群集URL和API鍵即可訪問它：

 from qdrant_client import QdrantClient

client = QdrantClient ( url = "YOUR-QDRANT-URL" , api_key = "YOUR-API-KEY" )

這是您之前唯一必須對示例中提供的代碼做出的更改。

3。將PDF上傳到QDRANT

您也可以使用SentRev將PDF塊，矢量化和上傳到QDRANT數據庫中。

 from sentrev . evaluator import upload_pdfs

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]
client = QdrantClient ( "http://localhost:6333" )

upload_pdfs ( pdfs = pdfs , encoder = encoder , client = client )

至於以前，您還可以使用chunking_size參數（默認為1000）和distance參數（默認值為餘弦）來玩耍。

4。在QDrant集合上實施語義搜索

您還可以在帶有sentRev的QDRANT數據庫中搜索已經存在的集合：

 from sentrev . utils import NeuralSearcher

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
collection_name = 'customer_help'
client = QdrantClient ( "http://localhost:6333" )

searcher = NeuralSearcher ( client = client , model = encoder , collection_name = collection_name )
res = searcher . search ( "Is it possible to pay online with my credit card?" , limit = 5 )

結果將作為有效載荷列表返回（您上傳到Qdrant集合的元數據以及矢量點）。

如果使用SentRev upload_pdfs函數，則應該能夠以這種方式訪問結果：

 text = res [ 0 ][ "text" ]
source = res [ 0 ][ "source" ]
page = res [ 0 ][ "page" ]

案例研究

您可以在此處參考報告案例

參考

在此處找到所有功能和類的參考

路線圖

V1.0.0

添加對Markdown，HTML，Word和CSV數據類型的支持
增加對色度，松果，編織，supabase和mongodb作為矢量數據庫的支持

貢獻

總是歡迎捐款！

查找貢獻指南

許可，引文和資金

該項目是開源的，是根據MIT許可提供的。

如果您使用SenTrEv評估您的檢索模型，請考慮引用它：

Bertelli，AC（2024）。評估三句話變形金剛文本嵌入式的性能 - SentRev的案例研究（v0.1.0）。 Zenodo。 https://doi.org/10.5281/Zenodo.14503887

如果您發現它有用，請考慮為其提供資金。

展開

附加信息

版本 v @ v.0.1.0?
類型其他源碼
更新時間 2025-05-27
大小 2.48MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部