SenTrEvダウンロードSenTrEvソースコードのダウンロード

SenTrEv

その他のソースコード

v @ v.0.1.0?

ダウンロード

Sentrev

PDFのRAGの簡単な評価

Sentrev （ Sen Tence Tr Ansformers EV Aluator）は、PDFドキュメントを使用して検索拡張生成（RAG）に最適な埋め込みモデルを選択するのに役立つ簡単な評価テストを実行することを目的としたPythonパッケージです。

適用可能性

Sentrev Works：

PythonパッケージのSentenceTransformerを介してロードされたテキストsentence_transformers /埋め込み
PDFドキュメント（サポートされている単一および複数のアップロード）
QDRANTベクターデータベース（ローカルとクラウドの両方）

インストール

pipを使用してパッケージをインストールできます（簡単ですが、カスタマイズはありません）：

python3 -m pip install sentrev

または、ソースコードから構築することができます（より難しいがカスタマイズ可能）：

 # clone the repo
git clone https://github.com/AstraBert/SenTrEv.git
# access the repo
cd SenTrEv
# build the package
python3 -m build
# install the package locally with editability settings
python3 -m pip install -e .

評価プロセス

Sentrevは非常にシンプルな評価ワークフローを適用します。

PDFテキスト抽出とチャンク（ CFR。SUPRA ）フェーズの後、（オプションで）ユーザー定義の割合（デフォルトは25％）に従ってチャンクが減少し、各チャンクの任意のポイントでランダムに抽出されます。
削減されたチャンクは、辞書の元のチャンクにマッピングされます
各モデルは元のチャンクをエンコードし、ベクターをQDRANTベクトルストレージにアップロードします
縮小チャンクは、密な検索のクエリとして使用されます
検索結果から始まると、精度、時間、炭素排出統計が計算され、プロットされます。

ワークフローの視覚化については、以下の図を参照してください

パフォーマンスを評価するために使用されるメトリックは次のとおりです。

成功率：正しいコンテキストが取得された数の検索操作として定義されます。
$ sr = frac {ncorrect} {ntot} $ （eq.1）
平均相互ランキング（MRR） ：MRRは、検索された結果の間に正しいコンテキストのランキングがどれだけ高いかを定義しています。 MRR@10が使用されました。つまり、検索操作ごとに10項目が返され、正しいコンテキストのランキングに対して評価が実行され、その後0〜1（Sentrevで既に実装されています）の間で正規化されました。 1のMRRは、正しいコンテキストが最初にランク付けされたことを意味しますが、0のMRRはそれが取得されなかったことを意味します。 MRRは、次の一般式で計算されます。
$ mrr = frac {ranking + nretrieved -1} {nretrieved} $ （eq.2）
正しいコンテキストが取得されない場合、MRRは自動的に0に設定されます。MRRは検索操作ごとに計算され、平均および標準偏差が計算および報告されます。
時間のパフォーマンス：検索操作ごとに、秒単位での時間パフォーマンスが計算されます。その後、平均偏差と標準偏差が報告されます。
炭素排出量：炭素排出量は、Pythonライブラリコーデcodecarbonを介してGCO2EQ（CO2相当のグラム）で計算され、オーストリア地域で評価されました。これらは、すべての検索操作のグローバルな計算負荷について報告されています。

ユースケース

1。ローカルQDRANT

dockerでqdrantをローカルに簡単に実行できます。

docker pull qdrant/qdrant:latest
docker run -p 6333:6333 -p 6334:6334 qdrant/qdrant:latest

これで、Vectorデータベースはhttp://localhost:6333で聴いています

3つのPDF（ ~/pdfs/instructions.pdf 、 ~/pdfs/history.pdf 、 ~/pdfs/info.pdf ）があり、3つの異なるエンコーダーsentence-transformers/all-MiniLM-L6-v2 、 sentence-transformers/sentence-t5-base sentence-transformers/all-mpnet-base-v2 。

この非常に簡単なコードでそれを行うことができます：

 from sentrev . evaluator import evaluate_rag
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient

# load all the embedding moedels
encoder1 = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
encoder2 = SentenceTransformer ( 'sentence-transformers/sentence-t5-base' )
encoder3 = SentenceTransformer ( 'sentence-transformers/all-mpnet-base-v1' )

# create a list of the embedders and a dictionary that map each one with its name for the stats report which will be output by SenTrEv
encoders = [ encoder1 , encoder2 , encoder3 ]
encoder_to_names = { encoder1 : 'all-MiniLM-L6-v2' , encoder2 : 'sentence-t5-base' , encoder3 : 'all-mpnet-base-v1' }

# set up a Qdrant client
client = QdrantClient ( "http://localhost:6333" )

# create a list of your PDF paths
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]

# Choose a path for the CSV where the evaluation stats will be saved

csv_path = '~/eval/stats.csv'

# evaluate retrieval
evaluate_rag ( pdfs = pdfs , encoders = encoders , encoder_to_name = encoder_to_names , client = client , csv_path = csv_path , distance = 'euclid' , chunking_size = 400 , mrr = 10 , carbon_tracking = "USA" , plot = True )

chunking_size引数を設定することにより、またはtext_percentageを設定することにより検索に使用されるテキストの割合で、またはdistance引数を設定することで検索に使用される距離メトリックを使用して、または取得したアイテムの数を調整してmrr設定を使用して、PDFのチャンキングを遊ぶことができます（この場合は10）。評価用のプロットが必要な場合は、 plot=Trueを渡すこともできます。プロットは、CSVファイルの同じフォルダーの下に保存されます。炭素排出トラッキングをオンにする場合は、 carbon_trackingオプションを使用して、3レッターのISOコードの状態を使用できます。

2。オンクラウドQDRANT

また、QDRANT On-Cloudデータベースソリューションを活用することもできます（詳細については、こちらについて詳しく説明します）。 QDRANTクラスターURLとAPIキーが必要です。

 from qdrant_client import QdrantClient

client = QdrantClient ( url = "YOUR-QDRANT-URL" , api_key = "YOUR-API-KEY" )

これは、以前の例で提供されているコードに対して行わなければならない唯一の変更です。

3.PDFSをQDRANTにアップロードします

Sentrevを使用して、PDFSをQDRANTデータベースにアップロードしてアップロードすることもできます。

 from sentrev . evaluator import upload_pdfs

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
pdfs = [ '~/pdfs/instructions.pdf' , '~/pdfs/history.pdf' , '~/pdfs/info.pdf' ]
client = QdrantClient ( "http://localhost:6333" )

upload_pdfs ( pdfs = pdfs , encoder = encoder , client = client )

以前には、 chunking_size引数（デフォルトは1000）とdistance引数（デフォルトはCOSINE）で遊ぶこともできます。

4. QDRANTコレクションにセマンティック検索を実装します

また、SentRevを使用してQDRANTデータベースで既存のコレクションを検索することもできます。

 from sentrev . utils import NeuralSearcher

encoder = SentenceTransformer ( 'sentence-transformers/all-MiniLM-L6-v2' )
collection_name = 'customer_help'
client = QdrantClient ( "http://localhost:6333" )

searcher = NeuralSearcher ( client = client , model = encoder , collection_name = collection_name )
res = searcher . search ( "Is it possible to pay online with my credit card?" , limit = 5 )

結果は、ペイロードのリストとして返されます（ベクターポイントとともにQDRANTコレクションにアップロードしたメタデータ）。

sentrev upload_pdfs関数を使用した場合、この方法で結果にアクセスできるはずです。

 text = res [ 0 ][ "text" ]
source = res [ 0 ][ "source" ]
page = res [ 0 ][ "page" ]

ケーススタディ

ここで報告されているテストケースを参照できます

参照

ここですべての機能とクラスの参照を見つける

ロードマップ

v1.0.0

Markdown、HTML、Word、CSVのデータ型のサポートを追加
ベクターデータベースとしてクロマ、松ぼっくり、Weaviate、Supabase、Mongodbのサポートを追加する

貢献

貢献はいつでも大歓迎です！

Convributing.mdで貢献ガイドラインを見つけます

ライセンス、引用、資金

このプロジェクトはオープンソースであり、MITライセンスの下で提供されます。

SenTrEvを使用して検索モデルを評価する場合は、それを引用することを検討してください。

Bertelli、AC（2024）。 Three Sente Transformers Text Embeddersのパフォーマンスの評価 - Sentrevのケーススタディ（v0.1.0）。ゼノド。 https://doi.org/10.5281/zenodo.14503887

便利だと思った場合は、資金を調達することを検討してください。

拡大する

追加情報

バージョン v @ v.0.1.0?
タイプその他のソースコード
更新時間 2025-05-27
サイズ 2.48MB
から Github

SenTrEv

Sentrev

PDFのRAGの簡単な評価

適用可能性

インストール

評価プロセス

ユースケース

1。ローカルQDRANT

2。オンクラウドQDRANT

3.PDFSをQDRANTにアップロードします

4. QDRANTコレクションにセマンティック検索を実装します

ケーススタディ

参照

ロードマップ

v1.0.0

貢献

ライセンス、引用、資金

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express