?? Chinois |
Similitudes : une boîte à outils pour le calcul de la similitude et la recherche sémantique, prend en charge le texte et l'image.
Les similitudes mettent en œuvre une variété de calculs de similitude et d'algorithmes de récupération de correspondance sémantique pour le texte et les images, et prend en charge des milliards de recherche de données, de recherche de texte et de recherche d'images, de développement Python3, d'installation PIP et hors de la boîte.
Guide
Demo de recherche d'images: https://huggingface.co/spaces/shibing624/clip-image-search

Demo de recherche de texte: https://huggingface.co/spaces/shibing624/similarities

pip install torch # conda install pytorch
pip install -U similarities
ou
git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .
Exemple: exemples / text_similarity_demo.py
from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " ) # similarity score: 0.855146050453186model_name_or_path : Le nom ou le chemin du modèle sera téléchargé à partir du HF Model Hub par défaut et le modèle de correspondance sémantique chinois Shibing624 / Text2Vec-Base-Chinese est utilisé.Trouvez le texte qui est le plus similaire à la requête dans l'ensemble de candidats de documents, qui est souvent utilisé pour des correspondances et des recherches de texte similaires dans les scénarios QA.
Exemple: Exemples / text_semantic_search_demo.py
Exemple: exemples / fast_text_semiticy_search_demo.py
Vector de transfert de texte, indexation, recherche par lots, service de démarrage: Exemples / Faiss_bert_search_Server_demo.py
Appel de python frontal: Exemples / Faiss_bert_search_client_demo.py
Il prend en charge le calcul de la similitude et la recherche de correspondance littérale pour des synonymes tels que Cilin, CNKI Hownet, Wordembedding, TFIDF, Simhash, BM25, etc., et est souvent utilisé pour le démarrage à froid correspondant au texte.
Exemple: Exemples / litteral_text_semantic_search_demo.py
Prend en charge le calcul de la similitude de l'image et la recherche de correspondance d'algorithmes tels que Clip, Phash et SIFT.
Exemple: Exemples / image_semantic_search_demo.py

Vector de virage d'image, indexation, recherche par lots, service de démarrage: Exemples / Faiss_clip_search_Server_demo.py
Appel Python frontal: Exemples / Faiss_Clip_Search_Client_demo.py
Appel de gradio frontal: Exemples / Faiss_clip_search_gradio_demo.py

Le clustering peut être effectué sur des ensembles de données à grande échelle via des algorithmes Community_dection pour trouver un clustering (c'est-à-dire des groupes de phrases similaires).
Exemple: Exemples / text_clustering_demo.py
L'algorithme d'extraction de phrase synonyme (paraphrase_mining_embeddings) peut être utilisé pour exploiter des paires de phrases avec des significations similaires d'un grand nombre de phrases ou de documents, qui peuvent être utilisés pour la détection graphique et de texte redondante et la déduplication sémantique.
Code: cli.py
> similarities -h
NAME
similarities
SYNOPSIS
similarities COMMAND
COMMANDS
COMMAND is one of the following:
bert_embedding
Compute embeddings for a list of sentences
bert_index
Build indexes from text embeddings using autofaiss
bert_filter
Entry point of bert filter, batch search index
bert_server
Main entry point of bert search backend, start the server
clip_embedding
Embedding text and image with clip model
clip_index
Build indexes from embeddings using autofaiss
clip_filter
Entry point of clip filter, batch search index
clip_server
Main entry point of clip search backend, start the server
courir:
pip install similarities -U
similarities clip_embedding -h
# example
cd examples
similarities clip_embedding data/toy_clip/bert_embedding etc. sont des commandes secondaires.similarities clip_embedding -hdata/toy_clip/ est le paramètre input_dir de la méthode clip_embedding et entrez le répertoire de fichiers (requis) 
Si vous utilisez des similitudes dans vos recherches, veuillez le citer dans le format suivant:
Apa:
Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities
Bibtex:
@misc{Xu_Similarities_Compute_similarity,
title={Similarities: similarity calculation and semantic search toolkit},
author={Xu Ming},
year={2022},
howpublished={url{https://github.com/shibing624/similarities}},
}
Le contrat de licence est l'Apache License 2.0, qui peut être utilisé à des fins commerciales gratuitement. Veuillez joindre le lien et l'accord d'autorisation à la description du produit.
Le code du projet est toujours très difficile.
testspython -m pytest pour exécuter tous les tests unitaires pour vous assurer que tous les tests uniques sont passésVous pouvez soumettre votre PR plus tard.
Merci pour leur excellent travail!