Download de neofuzz ​​- Download de código fonte neofuzz

neofuzz

Outro código-fonte

v0.3.0

Baixar

Neofuzz

Blazing Fast, leve e personalizável Pesquisa de texto difusa e semântica no Python.

Introdução (documentação)

O Neofuzz é uma biblioteca de pesquisas difusas com base na vetorização e nas técnicas de busca vizinha mais próximas.

Novo na versão 0.3.0

Agora você pode reordenar seus resultados de pesquisa usando a Distância Levenshtein! Às vezes, os processos de n-gramas ou processos vetorizados não solicitam os resultados corretamente. Nesses casos, você pode recuperar um número maior de exemplos do corpus indexado e depois refinar esses resultados com a distância de Levenshtein.

 from neofuzz import char_ngram_process

process = char_ngram_process ()
process . index ( corpus )

process . extract ( "your query" , limit = 30 , refine_levenshtein = True )

Por que o Neofuzz é rápido?

A maioria das bibliotecas de pesquisa difusa depende de otimizar o inferno dos mesmos algoritmos de busca difusa (distância de hamming, distância de Levenshtein). Às vezes, infelizmente, devido à complexidade desses algoritmos, nenhuma quantidade de otimização obterá a velocidade que você deseja.

O Neofuzz faz a realização, de que você não pode ir acima de um certo limite de velocidade, confiando nos algoritmos tradicionais e usa a vetorização de texto e aproximar a busca mais próxima do vizinho no espaço vetorial para acelerar esse processo.

Quando se trata do dilema da velocidade versus a precisão, o Neofuzz é a velocidade total.

Quando devo escolher o Neofuzz?

Você precisa fazer pesquisas repetidas no mesmo corpus.
Levenshtein e a distância de hamming simplesmente não são rápidos o suficiente.
Você está disposto a sacrificar a qualidade dos resultados para a velocidade.
Você não se importa que o cálculo inicial para indexar um corpus possa levar tempo.
Você tem cordas muito longas, onde outros métodos seriam impraticáveis.
Você deseja confiar no conteúdo semântico.
Você precisa de uma substituição para o Fuzz.

Quando não devo escolher o Neofuzz?

O corpus muda o tempo todo, ou você deseja fazer apenas uma pesquisa em um corpus. (Ainda pode dar aceleração nesse caso.)
Você valoriza a qualidade dos resultados sobre a velocidade.
Você não se importa com pesquisas mais lentas em favor da indexação.
Você tem um pequeno corpus com cordas curtas.

Uso

Você pode instalar Neofuzz a partir de Pypi:

pip install neofuzz

Se você deseja uma experiência plug-and-play, pode criar um processo geralmente bom e sujo com o processo char_ngram_process() .

 from neofuzz import char_ngram_process

# We create a process that takes character 1 to 5-grams as features for
# vectorization and uses a tf-idf weighting scheme.
# We will use cosine distance for the nearest neighbour search.
process = char_ngram_process ( ngram_range = ( 1 , 5 ), metric = "cosine" , tf_idf = True )

# We index the options that we are going to search in
process . index ( options )

# Then we can extract the ten most similar items the same way as in
# thefuzz
process . extract ( "fuzz" , limit = 10 )
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
[( 'fuzzer' , 67 ),
 ( 'Januzzi' , 30 ),
 ( 'Figliuzzi' , 25 ),
 ( 'Fun' , 20 ),
 ( 'Erika_Petruzzi' , 20 ),
 ( 'zu' , 20 ),
 ( 'Zo' , 18 ),
 ( 'blog_BuzzMachine' , 18 ),
 ( 'LW_Todd_Bertuzzi' , 18 ),
 ( 'OFU' , 17 )]

Processos personalizados

Você pode personalizar o comportamento da Neofuzz fazendo um processo personalizado. Sob o capô, todo processo neofuzz depende dos mesmos dois componentes:

Um vetorizador, que transforma textos em uma forma vetorizada e pode ser totalmente personalizado.
Aproxima a pesquisa vizinha mais próxima, que indexa o espaço vetorial e pode encontrar vizinhos de um determinado vetor muito rapidamente. Esse componente é fixado para ser pinndescente, mas todos os seus parâmetros são expostos na API, para que seu comportamento também possa ser alterado à vontade.

Palavras como recursos

Se você estiver mais interessado nas palavras/conteúdo semântico do texto, também pode usá -las como recursos. Isso pode ser muito útil, especialmente com textos mais longos, como obras literárias.

 from neofuzz import Process
from sklearn . feature_extraction . text import TfidfVectorizer

 # Vectorization with words is the default in sklearn.
 vectorizer = TfidfVectorizer ()

 # We use cosine distance because it's waay better for high-dimentional spaces.
 process = Process ( vectorizer , metric = "cosine" )

Redução da dimensionalidade

Você pode achar que a velocidade do seu processo de pesquisa difusa não é suficiente. Nesse caso, pode ser desejável reduzir a dimensionalidade dos vetores produzidos com algum método de decomposição da matriz ou modelo de tópico.

Aqui, por exemplo, eu uso o NMF (excelente modelo de tópico e um incrivelmente rápido também) acelerar muito meu pipeline de pesquisa difusa.

 from neofuzz import Process
from sklearn . feature_extraction . text import TfidfVectorizer
from sklearn . decomposition import NMF
from sklearn . pipeline import make_pipeline

# Vectorization with tokens again
vectorizer = TfidfVectorizer ()
# Dimensionality reduction method to 20 dimensions
nmf = NMF ( n_components = 20 )
# Create a pipeline of the two
pipeline = make_pipeline ( vectorizer , nmf )

process = Process ( pipeline , metric = "cosine" )

Pesquisa semântica/modelos de idiomas grandes

Com o Neofuzz, você pode usar facilmente incorporação semântica em sua vantagem e pode usar os dois modelos de idiomas baseados em atenção (BERT), apenas palavras neurais simples ou incorporação de documentos (Word2Vec, Doc2vec, FastText, etc.) ou até LLMs da OpenAI.

Recomendamos que você experimente o EMETTER, que possui muitos vetores compatíveis com Sklearn.

pip install embetter

 from embetter . text import SentenceEncoder
from neofuzz import Process

# Here we will use a pretrained Bert sentence encoder as vectorizer
vectorizer = SentenceEncoder ( "all-distilroberta-v1" )
# Then we make a process with the language model
process = Process ( vectorizer , metric = "cosine" )

# Remember that the options STILL have to be indexed even though you have a pretrained vectorizer
process . index ( options )