ニューラル検索

Neural-hercheは、特定のデータセットでSplade、Colbert、Sparseembedなどのニューラル検索モデルを微調整するように設計されたライブラリです。 Neural-chercheは、微調整されたレトリバーまたはランカーで効率的な推論を実行するクラスも提供します。 Neural-hercheは、オフラインとオンラインの両方の設定で神経検索モデルを微調整し、利用するための簡単で効果的な方法を提供することを目指しています。また、ユーザーは、計算されたすべての埋め込みを保存して、冗長計算を防ぐことができます。
Neural-Recheは、CPU、GPU、およびMPSデバイスと互換性があります。 Colbertは、訓練を受けたことのあるチェックポイントからColbertを微調整できます。 SpladeとSparseembedは、微調整がより注意が必要であり、MLM事前訓練モデルが必要です。
以下を使用してNeural-Recheをインストールできます。
pip install neural-cherche
インストールのトレーニング中にモデルを評価する予定がある場合:
pip install "neural-cherche[eval]"
完全なドキュメントはこちらから入手できます。
トレーニングデータセットは、アンカーがクエリであるトリプル(anchor, positive, negative)で作成する必要があります。ポジティブはアンカーに直接リンクされ、ネガティブはアンカーには関係のないドキュメントです。
X = [
( "anchor 1" , "positive 1" , "negative 1" ),
( "anchor 2" , "positive 2" , "negative 2" ),
( "anchor 3" , "positive 3" , "negative 3" ),
]そして、ここでは、Neural-Recheを使用して、Colbertの事前訓練を受けたチェックポイントからColbertを微調整する方法を紹介します。
import torch
from neural_cherche import models , utils , train
model = models . ColBERT (
model_name_or_path = "raphaelsty/neural-cherche-colbert" ,
device = "cuda" if torch . cuda . is_available () else "cpu" # or mps
)
optimizer = torch . optim . AdamW ( model . parameters (), lr = 3e-6 )
X = [
( "query" , "positive document" , "negative document" ),
( "query" , "positive document" , "negative document" ),
( "query" , "positive document" , "negative document" ),
]
for step , ( anchor , positive , negative ) in enumerate ( utils . iter (
X ,
epochs = 1 , # number of epochs
batch_size = 8 , # number of triples per batch
shuffle = True
)):
loss = train . train_colbert (
model = model ,
optimizer = optimizer ,
anchor = anchor ,
positive = positive ,
negative = negative ,
step = step ,
gradient_accumulation_steps = 50 ,
)
if ( step + 1 ) % 1000 == 0 :
# Save the model every 1000 steps
model . save_pretrained ( "checkpoint" )微調整されたコルバートモデルを使用してドキュメントを再ランクする方法は次のとおりです。
import torch
from lenlp import sparse
from neural_cherche import models , rank , retrieve
documents = [
{ "id" : "doc1" , "title" : "Paris" , "text" : "Paris is the capital of France." },
{ "id" : "doc2" , "title" : "Montreal" , "text" : "Montreal is the largest city in Quebec." },
{ "id" : "doc3" , "title" : "Bordeaux" , "text" : "Bordeaux in Southwestern France." },
]
retriever = retrieve . BM25 (
key = "id" ,
on = [ "title" , "text" ],
count_vectorizer = sparse . CountVectorizer (
normalize = True , ngram_range = ( 3 , 5 ), analyzer = "char_wb" , stop_words = []
),
k1 = 1.5 ,
b = 0.75 ,
epsilon = 0.0 ,
)
model = models . ColBERT (
model_name_or_path = "raphaelsty/neural-cherche-colbert" ,
device = "cuda" if torch . cuda . is_available () else "cpu" , # or mps
)
ranker = rank . ColBERT (
key = "id" ,
on = [ "title" , "text" ],
model = model ,
)
documents_embeddings = retriever . encode_documents (
documents = documents ,
)
retriever . add (
documents_embeddings = documents_embeddings ,
)これで、微調整されたモデルを使用してドキュメントを取得できます。
queries = [ "Paris" , "Montreal" , "Bordeaux" ]
queries_embeddings = retriever . encode_queries (
queries = queries ,
)
ranker_queries_embeddings = ranker . encode_queries (
queries = queries ,
)
candidates = retriever (
queries_embeddings = queries_embeddings ,
batch_size = 32 ,
k = 100 , # number of documents to retrieve
)
# Compute embeddings of the candidates with the ranker model.
# Note, we could also pre-compute all the embeddings.
ranker_documents_embeddings = ranker . encode_candidates_documents (
candidates = candidates ,
documents = documents ,
batch_size = 32 ,
)
scores = ranker (
queries_embeddings = ranker_queries_embeddings ,
documents_embeddings = ranker_documents_embeddings ,
documents = candidates ,
batch_size = 32 ,
)
scores [[{ 'id' : 0 , 'similarity' : 22.825355529785156 },
{ 'id' : 1 , 'similarity' : 11.201947212219238 },
{ 'id' : 2 , 'similarity' : 10.748161315917969 }],
[{ 'id' : 1 , 'similarity' : 23.21628189086914 },
{ 'id' : 0 , 'similarity' : 9.9658203125 },
{ 'id' : 2 , 'similarity' : 7.308732509613037 }],
[{ 'id' : 1 , 'similarity' : 6.4031805992126465 },
{ 'id' : 0 , 'similarity' : 5.601611137390137 },
{ 'id' : 2 , 'similarity' : 5.599479675292969 }]] Neural-chercheは、 SparseEmbed 、 SPLADE 、 TFIDF 、 BM25レトリバー、およびレトリバーの出力を再注文するために使用できるColBERTランカーを提供します。詳細については、ドキュメントを参照してください。
私たちは、神経系のために特別に設計された事前に訓練されたチェックポイントを提供します:raphaelsty/neural-cherche-sparse-rembedおよびraphaelsty/neural-cherche-colbertを提供します。これらのチェックポイントは、MS-Marcoデータセットのサブセットで微調整されており、特定のデータセットで微調整されることで恩恵を受けるでしょう。特定の言語に適合するために、Colbertを任意の文章から事前に訓練したチェックポイントから微調整できます。 MLMベースのチェックポイントを使用して、スパースベッドを微調整する必要があります。
| scifactデータセット | ||||
|---|---|---|---|---|
| モデル | Huggingfaceチェックポイント | NDCG@10 | ヒット@10 | ヒット@1 |
| tfidf | - | 0,62 | 0,86 | 0,50 |
| BM25 | - | 0,69 | 0,92 | 0,56 |
| スパースベッド | raphaelsty/neural-cherche-sparse-maded | 0,62 | 0,87 | 0,48 |
| 文変圧器 | Sente-Transformers/All-MPNet-Base-V2 | 0,66 | 0,89 | 0,53 |
| コルバート | Raphaelsty/Neural-Reche-Colbert | 0,70 | 0,92 | 0,58 |
| TFIDF Retriver + Colbert Ranker | Raphaelsty/Neural-Reche-Colbert | 0,71 | 0,94 | 0,59 |
| BM25 Retriver + Colbert Ranker | Raphaelsty/Neural-Reche-Colbert | 0,72 | 0,95 | 0,59 |
Splade:Thibault Formal、Benjamin Piwowarski、StéphaneClinmant、Sigir 2021が作成した第一段階のランキングの範囲の語彙および拡張モデル。
Splade V2:Thibault Formal、Carlos Lassance、Benjamin Piwowarski、StéphaneClinmant、Sigir 2022によって作成された情報検索の範囲の語彙および拡張モデル。
スパースベッド:Weize Kong、Jeffrey M. Dudek、Cheng Li、Mingyang Zhang、およびMike Bendersky、Sigir 2023によって作成された検索の文脈的埋め込みを使用したまばらな語彙表現を学習します。
Colbert:Omar Khattab、Matei Zaharia、Sigir 2020が作成したBertをめぐる文脈化された後期相互作用を介した効率的かつ効果的な通過検索。
このPythonライブラリは、MITオープンソースライセンスの下でライセンスされており、Spladeモデルは著者のみによって非営利的であるとライセンスされています。 SparseembedとColbertは、商業的使用を含む完全にオープンソースです。