?? chino |
Similitudes : un kit de herramientas para el cálculo de similitud y la búsqueda semántica, admite texto e imagen.
Las similitudes implementan una variedad de cálculos de similitud y algoritmos de recuperación de coincidencia semántica para texto e imágenes, y admite miles de millones de datos de datos, búsqueda de texto y búsqueda de imágenes, desarrollo de Python3, instalación de PIP y fuera de la caja.
Guía
Demo de búsqueda de imágenes: https://huggingface.co/spaces/shibing624/clip-image-search

Demo de búsqueda de texto: https://huggingface.co/spaces/shibing624/similarities

pip install torch # conda install pytorch
pip install -U similarities
o
git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .
Ejemplo: ejemplos/text_similarity_demo.py
from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " ) # similarity score: 0.855146050453186model_name_or_path : el nombre o la ruta del modelo se descargará desde el HF Model Hub de forma predeterminada y el modelo de coincidencia semántica china Shibing624/Text2Vec-Base-Chinese se usa si se necesita multilingüe, puede ser reemplazado por Shibing624/Text2VEC-Base-Multilingüe-Multilinge, que respalda chino, inglés, japonés, alemán, italiano y otro lenguaje.Encuentre el texto que es más similar al de consulta en el conjunto de candidatos del documento, que a menudo se usa para coincidencias similares y búsquedas de texto en escenarios de control de calidad.
Ejemplo: ejemplos/text_semantic_search_demo.py
Ejemplo: ejemplos/fast_text_semantic_search_demo.py
Vector de transferencia de texto, indexación, búsqueda por lotes, servicio de inicio: ejemplos/faiss_bert_search_server_demo.py
Llamada de Python front-end: ejemplos/faiss_bert_search_client_demo.py
Admite el cálculo de la similitud y la búsqueda literal de sinónimos como cilina, cnki hownet, wordembedding, tfidf, simhash, bm25, etc., y a menudo se usa para el inicio de frío que coincide con texto.
Ejemplo: ejemplos/literal_text_semantic_search_demo.py
Admite el cálculo de la similitud de imágenes y la búsqueda coincidente de algoritmos como Clip, Phash y Sift.
Ejemplo: ejemplos/image_semantic_search_demo.py

Vector de giro de imágenes, indexación, búsqueda por lotes, servicio de inicio: ejemplos/faiss_clip_search_server_demo.py
Llamada de Python front-end: ejemplos/faiss_clip_search_client_demo.py
Llamada de gradio front-end: ejemplos/faiss_clip_search_gradio_demo.py

La agrupación se puede realizar en conjuntos de datos a gran escala a través de algoritmos Community_Detection para encontrar la agrupación (es decir, grupos de oraciones similares).
Ejemplo: ejemplos/text_clustering_demo.py
El algoritmo de minería de oraciones del sinónimo (parafrase_mining_embeddings) se puede usar para extraer pares de oraciones con significados similares de una gran cantidad de oraciones o documentos, que pueden usarse para detección gráfica y de texto redundante y dedupplicación semántica.
Código: cli.py
> similarities -h
NAME
similarities
SYNOPSIS
similarities COMMAND
COMMANDS
COMMAND is one of the following:
bert_embedding
Compute embeddings for a list of sentences
bert_index
Build indexes from text embeddings using autofaiss
bert_filter
Entry point of bert filter, batch search index
bert_server
Main entry point of bert search backend, start the server
clip_embedding
Embedding text and image with clip model
clip_index
Build indexes from embeddings using autofaiss
clip_filter
Entry point of clip filter, batch search index
clip_server
Main entry point of clip search backend, start the server
correr:
pip install similarities -U
similarities clip_embedding -h
# example
cd examples
similarities clip_embedding data/toy_clip/bert_embedding , etc. son comandos secundarios.similarities clip_embedding -hdata/toy_clip/ es el parámetro input_dir del método clip_embedding e ingrese el directorio de archivos (requerido) 
Si usa similitudes en su investigación, cite en el siguiente formato:
APA:
Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities
Bibtex:
@misc{Xu_Similarities_Compute_similarity,
title={Similarities: similarity calculation and semantic search toolkit},
author={Xu Ming},
year={2022},
howpublished={url{https://github.com/shibing624/similarities}},
}
El Acuerdo de Licencia es la Licencia APACHE 2.0, que puede usarse con fines comerciales de forma gratuita. Adjunte el enlace y el acuerdo de autorización a la descripción del producto.
El código del proyecto sigue siendo muy duro.
testspython -m pytest para ejecutar todas las pruebas unitarias para garantizar que se pasen todas las pruebas individualesPuede enviar su PR más tarde.
¡Gracias por su gran trabajo!