neural cherche

neural cherche

AI Исходный код

1.4.3

Скачать

Нейрон-Черч

Нейронный поиск

Neural Cherche-это библиотека, предназначенная для тонкой настройки моделей нервного поиска нейронных норм, таких как Splade, Colbert и Sparseembed в определенном наборе данных. Нейрон-Черче также предоставляет классы для эффективного вывода на мелко настроенном ретривере или Ранке. Нейрон-CHERCHE стремится предложить простой и эффективный метод для точной настройки и использования моделей нейронного поиска как в автономных, так и в онлайн-настройках. Это также позволяет пользователям сохранять все вычисленные встраивания для предотвращения избыточных вычислений.

Нейрон-черч совместим с устройствами процессора, графического процессора и MPS. Мы можем точно настраивать Колберт из любого предварительного обученного контрольно-пропускного пункта. Splade и Sparseembed более хитрые для тонкой настройки и нуждаются в предварительно обученной MLM-модели.

Установка

Мы можем установить нейронную черту, используя:

 pip install neural-cherche

Если мы планируем оценить нашу модель во время обучения:

 pip install "neural-cherche[eval]"

Документация

Полная документация доступна здесь.

Быстрый старт

Ваш учебный набор данных должен быть изготовлен из тройков (anchor, positive, negative) , где якорь является запросом, положительный - это документ, который непосредственно связан с якорем, а отрицательный документ, который не имеет отношения к привязке.

 X = [
    ( "anchor 1" , "positive 1" , "negative 1" ),
    ( "anchor 2" , "positive 2" , "negative 2" ),
    ( "anchor 3" , "positive 3" , "negative 3" ),
]

А вот как точно настраивать Колберт из предварительного обученного контрольно-пропускного пункта предложений с использованием нейронного херче:

 import torch

from neural_cherche import models , utils , train

model = models . ColBERT (
    model_name_or_path = "raphaelsty/neural-cherche-colbert" ,
    device = "cuda" if torch . cuda . is_available () else "cpu" # or mps
)

optimizer = torch . optim . AdamW ( model . parameters (), lr = 3e-6 )

X = [
    ( "query" , "positive document" , "negative document" ),
    ( "query" , "positive document" , "negative document" ),
    ( "query" , "positive document" , "negative document" ),
]

for step , ( anchor , positive , negative ) in enumerate ( utils . iter (
        X ,
        epochs = 1 , # number of epochs
        batch_size = 8 , # number of triples per batch
        shuffle = True
    )):

    loss = train . train_colbert (
        model = model ,
        optimizer = optimizer ,
        anchor = anchor ,
        positive = positive ,
        negative = negative ,
        step = step ,
        gradient_accumulation_steps = 50 ,
    )

    
    if ( step + 1 ) % 1000 == 0 :
        # Save the model every 1000 steps
        model . save_pretrained ( "checkpoint" )

Поиск

Вот как использовать модель Colbert с тонкой настройкой для повторного оценки документов:

 import torch
from lenlp import sparse

from neural_cherche import models , rank , retrieve

documents = [
    { "id" : "doc1" , "title" : "Paris" , "text" : "Paris is the capital of France." },
    { "id" : "doc2" , "title" : "Montreal" , "text" : "Montreal is the largest city in Quebec." },
    { "id" : "doc3" , "title" : "Bordeaux" , "text" : "Bordeaux in Southwestern France." },
]

retriever = retrieve . BM25 (
    key = "id" ,
    on = [ "title" , "text" ],
    count_vectorizer = sparse . CountVectorizer (
        normalize = True , ngram_range = ( 3 , 5 ), analyzer = "char_wb" , stop_words = []
    ),
    k1 = 1.5 ,
    b = 0.75 ,
    epsilon = 0.0 ,
)

model = models . ColBERT (
    model_name_or_path = "raphaelsty/neural-cherche-colbert" ,
    device = "cuda" if torch . cuda . is_available () else "cpu" ,  # or mps
)

ranker = rank . ColBERT (
    key = "id" ,
    on = [ "title" , "text" ],
    model = model ,
)

documents_embeddings = retriever . encode_documents (
    documents = documents ,
)

retriever . add (
    documents_embeddings = documents_embeddings ,
)

Теперь мы можем получить документы, используя тонкую модель:

 queries = [ "Paris" , "Montreal" , "Bordeaux" ]

queries_embeddings = retriever . encode_queries (
    queries = queries ,
)

ranker_queries_embeddings = ranker . encode_queries (
    queries = queries ,
)

candidates = retriever (
    queries_embeddings = queries_embeddings ,
    batch_size = 32 ,
    k = 100 ,  # number of documents to retrieve
)

# Compute embeddings of the candidates with the ranker model.
# Note, we could also pre-compute all the embeddings.
ranker_documents_embeddings = ranker . encode_candidates_documents (
    candidates = candidates ,
    documents = documents ,
    batch_size = 32 ,
)

scores = ranker (
    queries_embeddings = ranker_queries_embeddings ,
    documents_embeddings = ranker_documents_embeddings ,
    documents = candidates ,
    batch_size = 32 ,
)

scores

[[{ 'id' : 0 , 'similarity' : 22.825355529785156 },
  { 'id' : 1 , 'similarity' : 11.201947212219238 },
  { 'id' : 2 , 'similarity' : 10.748161315917969 }],
 [{ 'id' : 1 , 'similarity' : 23.21628189086914 },
  { 'id' : 0 , 'similarity' : 9.9658203125 },
  { 'id' : 2 , 'similarity' : 7.308732509613037 }],
 [{ 'id' : 1 , 'similarity' : 6.4031805992126465 },
  { 'id' : 0 , 'similarity' : 5.601611137390137 },
  { 'id' : 2 , 'similarity' : 5.599479675292969 }]]

Нейрон-Черче обеспечивает SparseEmbed , SPLADE , TFIDF , ретривер BM25 и ColBERT рейндер, который можно использовать для повторного порядка вывода ретривера. Для получения дополнительной информации, пожалуйста, обратитесь к документации.

Предварительно обученные модели

Мы предоставляем предварительно обученные контрольно-пропускные пункты, специально предназначенные для нейронного херче: Raphaelsty/Neural-Cherche-Sparse-Embed и Raphaelsty/Neural-Cherche-Colber. Эти контрольные точки точно настроены на подмножестве набора данных MS-Marco и получат пользу от того, что он будет настраивать в вашем конкретном наборе данных. Вы можете точно настроить Colbert из любого предварительного обученного контрольно-пропускного пункта Transformer, чтобы соответствовать вашему конкретному языку. Вам следует использовать межсексуальную точку на основе MLM для тонкой настройки.

		Набор данных Scifact
модель	Контрольная точка Huggingface	ndcg@10	хиты@10	хиты@1
TFIDF	-	0,62	0,86	0,50
BM25	-	0,69	0,92	0,56
Редкий	Raphaelsty/Neural-Cherche-Sparse-Embed	0,62	0,87	0,48
Предложение трансформатор	ПРЕДЛОЖЕНИЯ Трансформаторы/All-MPnet-Base-V2	0,66	0,89	0,53
Колберт	Raphaelsty/Neural Cherche-Colbert	0,70	0,92	0,58
TFIDF Retriever + Colbert Ranker	Raphaelsty/Neural Cherche-Colbert	0,71	0,94	0,59
BM25 Retriever + Colbert Ranker	Raphaelsty/Neural Cherche-Colbert	0,72	0,95	0,59

Нейронные вкладчики

Бенджамин Клави
Артур Сатуф

Ссылки

Splade: Sparse Lexical and Expansion Model для ранжирования первой стадии, написанного Thibault Formal, Benjamin Piwowarski, Stéphane Clinchant, Sigir 2021.
SPLADE V2: Рубная лексическая и экспансионная модель для поиска информации, созданная Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant, Sigir 2022.
SPARSEEMBED: изучение редких лексических представлений с контекстуальными встроками для поиска, автором Weize Kong, Джеффри М. Дудека, Ченга Ли, Миньян Чжан и Майк Бендерский, Sigir 2023.
COLBERT: Эффективный и эффективный поиск отрывка через контекстуализированное позднее взаимодействие над Бертом, автором которого является Омаром Хаттабом, Матеи Захарией, Sigir 2020.

Лицензия

Эта библиотека Python лицензирована по лицензии MIT с открытым исходным кодом, а модель Splade лицензирована как некоммерческая только авторы. Sparseembed и Colbert полностью открыты, включая коммерческое использование.

Расширять

Дополнительная информация