Modelos / Modelos / Modelos
Similaridades : um kit de ferramentas para cálculo de similaridade e pesquisa semântica, suporta texto e imagem.
As semelhanças implementam uma variedade de cálculos de similaridade e algoritmos de recuperação de correspondência semântica para texto e imagens, e suporta bilhões de pesquisa de dados, pesquisa de texto e pesquisa de imagens, desenvolvimento do Python3, instalação do PIP e fora da caixa.
Guia
Demonstração de pesquisa de imagem: https://huggingface.co/spaces/shibing624/clip-image-search

Demonstração de pesquisa de texto: https://huggingface.co/spaces/shibing624/similaridades

pip install torch # conda install pytorch
pip install -U similarities
ou
git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .
Exemplo: exemplos/text_similarity_demo.py
from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " ) # similarity score: 0.855146050453186model_name_or_path : O nome ou caminho do modelo será baixado do HF Model Hub por padrão e o modelo semântico chinês Shibing624/Text2vec-Base-Chinese é usado.Encontre o texto mais semelhante à consulta no conjunto de candidatos a documentos, que é frequentemente usado para correspondências semelhantes e pesquisas de texto nos cenários de controle de qualidade.
Exemplo: Exemplos/Text_semantic_search_demo.py
Exemplo: Exemplos/fast_text_semantic_search_demo.py
Vetor de transferência de texto, indexação, pesquisa em lote, serviço de início: exemplos/faiss_bert_search_server_demo.py
Chamada Python front-end: Exemplos/FAISS_BERT_SEARCH_CLIENT_DEMO.PY
Ele suporta o cálculo de similaridade e a busca de correspondência literal de sinônimos como cilin, cnki Hownet, Wordembedding, TFIDF, Simhash, BM25, etc., e é frequentemente usado para o início do frio de correspondência de texto.
Exemplo: Exemplos/literal_text_semantic_search_demo.py
Suporta o cálculo da similaridade da imagem e a pesquisa correspondente por algoritmos, como clipe, phash e peneiração.
Exemplo: Exemplos/Image_Semantic_Search_Demo.py

Vector de torneamento de imagem, indexação, pesquisa em lote, serviço inicial: exemplos/faiss_clip_search_server_demo.py
Chamada Python front-end: Exemplos/FAISS_CLIP_SEARCH_CLIENT_DEMO.PY
CHAMADA GRADIO DO FRONT-EN: Exemplos/FAISS_CLIP_SEARCH_GRADIO_DEMO.PY

O clustering pode ser realizado em conjuntos de dados em larga escala através de algoritmos Community_detection para encontrar cluster (ou seja, grupos de frases semelhantes).
Exemplo: exemplos/text_clustering_demo.py
A mineração de frases de sinônimo (parafrase_mining_embeddings) pode ser usada para minerar pares de sentenças com significados semelhantes a partir de um grande número de frases ou documentos, que podem ser usados para detecção gráfica e texto redundantes e deduplicação semântica.
Código: cli.py
> similarities -h
NAME
similarities
SYNOPSIS
similarities COMMAND
COMMANDS
COMMAND is one of the following:
bert_embedding
Compute embeddings for a list of sentences
bert_index
Build indexes from text embeddings using autofaiss
bert_filter
Entry point of bert filter, batch search index
bert_server
Main entry point of bert search backend, start the server
clip_embedding
Embedding text and image with clip model
clip_index
Build indexes from embeddings using autofaiss
clip_filter
Entry point of clip filter, batch search index
clip_server
Main entry point of clip search backend, start the server
correr:
pip install similarities -U
similarities clip_embedding -h
# example
cd examples
similarities clip_embedding data/toy_clip/bert_embedding etc. são comandos secundários.similarities clip_embedding -hdata/toy_clip/ é o parâmetro input_dir do método clip_embedding e insira o diretório de arquivos (necessário) 
Se você usar semelhanças em sua pesquisa, cite -a no seguinte formato:
APA:
Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities
Bibtex:
@misc{Xu_Similarities_Compute_similarity,
title={Similarities: similarity calculation and semantic search toolkit},
author={Xu Ming},
year={2022},
howpublished={url{https://github.com/shibing624/similarities}},
}
O contrato de licença é o Apache License 2.0, que pode ser usado para fins comerciais gratuitamente. Anexe o link e o contrato de autorização à descrição do produto.
O código do projeto ainda é muito difícil.
testspython -m pytest para executar todos os testes de unidade para garantir que todos os testes únicos sejam passadosVocê pode enviar seu PR mais tarde.
Obrigado pelo seu ótimo trabalho!