Download similarities - Download de código fonte similarities

similarities

Outro código-fonte

1.1.2

Baixar

Modelos / Modelos / Modelos

Similaridades: cálculo de similaridade e pesquisa semântica

Similaridades : um kit de ferramentas para cálculo de similaridade e pesquisa semântica, suporta texto e imagem.

As semelhanças implementam uma variedade de cálculos de similaridade e algoritmos de recuperação de correspondência semântica para texto e imagens, e suporta bilhões de pesquisa de dados, pesquisa de texto e pesquisa de imagens, desenvolvimento do Python3, instalação do PIP e fora da caixa.

Guia

Características
Instalar
Uso
Contato
Agradecimentos

Características

Cálculo de similaridade de texto + pesquisa de texto

Modelo de correspondência semântica [Recomendado]: Este projeto implementa o cálculo de similaridade de texto e a pesquisa de texto do modelo Cosent com base no Text2Vec
- Suporta modelos pré-treinados em classes chinesas e inglesas, multilíngues, sentenças
- Suporta COS de similaridade/produto DOT/distância de hamming/distância euclidiana e outros métodos de cálculo de similaridade
- Suporta vários algoritmos de pesquisa de texto, como SemanticSearch/FAISS/Irr.
- Apoiar a recuperação eficiente de bilhões de dados
- Suporte vetor de transferência de texto da linha de comando (múltiplos cartões), indexação, recuperação de lote e serviços iniciantes
Modelo de correspondência literal: este projeto implementa vários modelos de correspondência literal, como Word2Vec, BM25, RankBM25, TFIDF, Simhash, Sinônimo de Word Forest e CNKI HowNet, que significa correspondência original correspondente original

Cálculo de similaridade da imagem/cálculo de similaridade gráfica+pesquisa gráfica/pesquisa de texto

CLIP (Modelo de pré-treinamento de imagem contrastante): Um modelo de correspondência gráfica, que pode ser usado para recursos gráficos (incorporação), cálculo de similaridade, pesquisa gráfica e classificação de imagem zero de amostra.
- Suporta modelos de clipes como o OpenAI/Clip-Vit-Base-Patch32
- Apoie os modelos de séries de clipes chineses, como OFA-SYS/Chinese-Clip-Vit-Huge-Patch14
- Suporta a implantação de separação front-end, o serviço de back-end FASTAPI e a tela front-end Gradio
- Apoia uma recuperação eficiente de bilhões de dados, com base na recuperação do FAISS, suporta a aceleração da GPU
- Suporta pesquisa de imagem, pesquisa de texto, pesquisa vetorial
- Suporte a imagem de incorporação de extração e extração de incorporação de texto
- Suporte ao cálculo da similaridade da imagem e cálculo da similaridade da imagem
- Suporte vetor de torneamento da imagem da linha de comando (vários cartões), indexação, recuperação em lote e serviços de inicialização
Extração do recurso de imagem: este projeto implementa uma variedade de algoritmos de extração de recursos de imagem, como Phash, Dhash, Whash, Ahash, SIFT com base no CV2

Demonstração

Demonstração de pesquisa de imagem: https://huggingface.co/spaces/shibing624/clip-image-search

Demonstração de pesquisa de texto: https://huggingface.co/spaces/shibing624/similaridades

Instalar

 pip install torch # conda install pytorch
pip install -U similarities

ou

 git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .

Uso

1. Cálculo de similaridade do vetor de texto

Exemplo: exemplos/text_similarity_demo.py

 from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " )  # similarity score: 0.855146050453186

model_name_or_path : O nome ou caminho do modelo será baixado do HF Model Hub por padrão e o modelo semântico chinês Shibing624/Text2vec-Base-Chinese é usado.

2. Pesquisa de vetor de texto

Encontre o texto mais semelhante à consulta no conjunto de candidatos a documentos, que é frequentemente usado para correspondências semelhantes e pesquisas de texto nos cenários de controle de qualidade.

Algoritmo de pesquisa preciso e semanticsearch, Cos Similaridade + Pesquisa de Cluster Topk, adequada para conjuntos de dados dentro de milhões

Exemplo: Exemplos/Text_semantic_search_demo.py

Algoritmos de pesquisa aproximados, como Irr.

Exemplo: Exemplos/fast_text_semantic_search_demo.py

Pesquisa vetorial eficiente do FAISS, adequado para bilhões de conjuntos de dados

Vetor de transferência de texto, indexação, pesquisa em lote, serviço de início: exemplos/faiss_bert_search_server_demo.py
Chamada Python front-end: Exemplos/FAISS_BERT_SEARCH_CLIENT_DEMO.PY

3. Cálculo literalmente de similaridade de texto e pesquisa de texto

Ele suporta o cálculo de similaridade e a busca de correspondência literal de sinônimos como cilin, cnki Hownet, Wordembedding, TFIDF, Simhash, BM25, etc., e é frequentemente usado para o início do frio de correspondência de texto.

Exemplo: Exemplos/literal_text_semantic_search_demo.py

4. Cálculo de similaridade da imagem e pesquisa de imagem

Suporta o cálculo da similaridade da imagem e a pesquisa correspondente por algoritmos, como clipe, phash e peneiração.

Exemplo: Exemplos/Image_Semantic_Search_Demo.py

image_sim

Pesquisa vetorial eficiente do FAISS, adequado para bilhões de conjuntos de dados

Vector de torneamento de imagem, indexação, pesquisa em lote, serviço inicial: exemplos/faiss_clip_search_server_demo.py
Chamada Python front-end: Exemplos/FAISS_CLIP_SEARCH_CLIENT_DEMO.PY
CHAMADA GRADIO DO FRONT-EN: Exemplos/FAISS_CLIP_SEARCH_GRADIO_DEMO.PY

5. Clustering

O clustering pode ser realizado em conjuntos de dados em larga escala através de algoritmos Community_detection para encontrar cluster (ou seja, grupos de frases semelhantes).

Exemplo: exemplos/text_clustering_demo.py

6. A semântica gráfica e de texto são removidas

A mineração de frases de sinônimo (parafrase_mining_embeddings) pode ser usada para minerar pares de sentenças com significados semelhantes a partir de um grande número de frases ou documentos, que podem ser usados para detecção gráfica e texto redundantes e deduplicação semântica.

Desduplicação semântica de texto: Exemplos/Text_duplicates_Demo.py
Imagem semântica Deduplicação: Exemplos/image_duplicates_demo.py

Modo de linha de comando (CLI)

Suporte a aquisição em lote de vetores de texto e vetores de imagem (incorporação)
Suporta o Index Building (índice)
Suporta recuperação de lote (filtro)
Serviço de inicialização de suporte (servidor)

Código: cli.py

 > similarities -h                                    

NAME
    similarities

SYNOPSIS
    similarities COMMAND

COMMANDS
    COMMAND is one of the following:

     bert_embedding
       Compute embeddings for a list of sentences

     bert_index
       Build indexes from text embeddings using autofaiss

     bert_filter
       Entry point of bert filter, batch search index

     bert_server
       Main entry point of bert search backend, start the server

     clip_embedding
       Embedding text and image with clip model

     clip_index
       Build indexes from embeddings using autofaiss

     clip_filter
       Entry point of clip filter, batch search index

     clip_server
       Main entry point of clip search backend, start the server

correr:

pip install similarities -U
similarities clip_embedding -h

# example
cd examples
similarities clip_embedding data/toy_clip/

bert_embedding etc. são comandos secundários.
Veja similarities clip_embedding -h
No exemplo acima, data/toy_clip/ é o parâmetro input_dir do método clip_embedding e insira o diretório de arquivos (necessário)

Contato

Edição (sugestões):
Envie -me um e -mail: xuming: [email protected]
WECHAT ME: Adicione-me WeChat ID: XUMING624, NOTA: Nome-Company-NLP Digite o grupo de troca do NLP.

Citação

Se você usar semelhanças em sua pesquisa, cite -a no seguinte formato:

APA:

 Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities

Bibtex:

 @misc{Xu_Similarities_Compute_similarity,
  title={Similarities: similarity calculation and semantic search toolkit},
  author={Xu Ming},
  year={2022},
  howpublished={url{https://github.com/shibing624/similarities}},
}

Licença

O contrato de licença é o Apache License 2.0, que pode ser usado para fins comerciais gratuitamente. Anexe o link e o contrato de autorização à descrição do produto.

Contribuir

O código do projeto ainda é muito difícil.

Adicionar testes de unidade correspondentes em tests
Use python -m pytest para executar todos os testes de unidade para garantir que todos os testes únicos sejam passados

Você pode enviar seu PR mais tarde.

Agradecimentos

Uma linha de base simples, mas difícil de vencer para incorporações de sentença [Sanjeev Arora e Yingyu Liang e Tengyu Ma, 2017]
https://github.com/liuhuanyong/sentencesimilaridade
https://github.com/qwertyforce/image_search
ImageHash - repositório oficial do GitHub
https://github.com/openai/clip
https://github.com/ofa-sys/chinese-clip
https://github.com/ukplab/sentence-transformers
https://github.com/rom1504/clip-rerivieval

Obrigado pelo seu ótimo trabalho!

Expandir

Informações adicionais

Versão 1.1.2
Tipo Outro código-fonte
Data da Última Atualização 2025-03-13
tamanho 8.53MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos