Téléchargement similarities - Téléchargement du code source similarities

similarities

Autre code source

1.1.2

Télécharger

?? Chinois |

Similitudes: calcul de similitude et recherche sémantique

Similitudes : une boîte à outils pour le calcul de la similitude et la recherche sémantique, prend en charge le texte et l'image.

Les similitudes mettent en œuvre une variété de calculs de similitude et d'algorithmes de récupération de correspondance sémantique pour le texte et les images, et prend en charge des milliards de recherche de données, de recherche de texte et de recherche d'images, de développement Python3, d'installation PIP et hors de la boîte.

Guide

Caractéristiques
Installer
Usage
Contact
Remerciements

Caractéristiques

Calcul de similitude de texte + recherche de texte

Modèle de correspondance sémantique [recommandé]: Ce projet met en œuvre le calcul de la similitude du texte et la recherche de texte du modèle de cosente basé sur Text2Vec
- Prend en charge les modèles pré-formés dans les classes chinoises et anglaises, multilingues, phrasebert
- Prend en charge la similitude Cos / Dot Produit / Hamming Distance / Distance euclidienne et autres méthodes de calcul de la similitude
- Prend en charge divers algorithmes de recherche de texte tels que SemanticSearch / FAISS / ENATY / HNSW
- Soutenir une récupération efficace de milliards de données
- Prise en charge du vecteur de transfert de texte de la ligne de commande (cartes multiples), d'indexation, de récupération par lots et de services de démarrage
Modèle de correspondance littérale: Ce projet met en œuvre divers modèles de correspondance littéraux tels que Word2Vec, BM25, RANKBM25, TFIDF, Simhash, Synonym Word Forest et CNKI Hownet signifiant correspondant original

Calcul de similitude d'image / Calcul de similitude graphique + recherche graphique / recherche de texte

Clip (Modèle de pré-formation de langue-image contrastive): Un modèle de correspondance graphique, qui peut être utilisé pour les fonctionnalités graphiques (intégres), le calcul de la similitude, la recherche graphique et la classification d'images zéro-échantillon.
- Prend en charge des modèles de séries de clips tels que Openai / Clip-Vit-Base-Patch32
- Prise en charge des modèles de séries chinoises tels que OFA-SYS / Chinese-Clip-Vit-Huge-Patch14
- Prend en charge le déploiement de séparation frontale, le service back-end Fastapi et l'écran frontal Gradio
- Prend en charge une récupération efficace de milliards de données, basées sur la récupération FAIS, soutient l'accélération du GPU
- Prend en charge la recherche d'images, la recherche de texte, la recherche de vecteur
- Supporter l'extraction d'intégration de l'image et l'extraction d'intégration de texte
- Support Calcul de similitude d'image et calcul de la similitude de l'image
- Prise en charge de la ligne de commande Image de virage (plusieurs cartes), d'indexation, de récupération par lots et de services de démarrage
Extraction des fonctionnalités de l'image: ce projet met en œuvre une variété d'algorithmes d'extraction de caractéristiques d'image tels que Phash, Dhash, Whash, Ahash, SIFT basé sur CV2

Démo

Demo de recherche d'images: https://huggingface.co/spaces/shibing624/clip-image-search

Demo de recherche de texte: https://huggingface.co/spaces/shibing624/similarities

Installer

 pip install torch # conda install pytorch
pip install -U similarities

ou

 git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .

Usage

1. Calcul de similitude de vecteur de texte

Exemple: exemples / text_similarity_demo.py

 from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " )  # similarity score: 0.855146050453186

model_name_or_path : Le nom ou le chemin du modèle sera téléchargé à partir du HF Model Hub par défaut et le modèle de correspondance sémantique chinois Shibing624 / Text2Vec-Base-Chinese est utilisé.

2. Recherche de vecteur de texte

Trouvez le texte qui est le plus similaire à la requête dans l'ensemble de candidats de documents, qui est souvent utilisé pour des correspondances et des recherches de texte similaires dans les scénarios QA.

Algorithme de recherche précis de SemanCearch, recherche de la similitude COS + topk, adapté aux ensembles de données en millions

Exemple: Exemples / text_semantic_search_demo.py

Les algorithmes de recherche approximatifs tels que ENAY et HNSWLIB conviennent à des millions d'ensembles de données

Exemple: exemples / fast_text_semiticy_search_demo.py

Recherche de vecteur efficace FAIS, adaptée à des milliards d'ensembles de données

Vector de transfert de texte, indexation, recherche par lots, service de démarrage: Exemples / Faiss_bert_search_Server_demo.py
Appel de python frontal: Exemples / Faiss_bert_search_client_demo.py

3. Calcul de similitude de texte basé sur le texte et recherche de texte

Il prend en charge le calcul de la similitude et la recherche de correspondance littérale pour des synonymes tels que Cilin, CNKI Hownet, Wordembedding, TFIDF, Simhash, BM25, etc., et est souvent utilisé pour le démarrage à froid correspondant au texte.

Exemple: Exemples / litteral_text_semantic_search_demo.py

4. Calcul de similitude d'image et recherche d'image

Prend en charge le calcul de la similitude de l'image et la recherche de correspondance d'algorithmes tels que Clip, Phash et SIFT.

Exemple: Exemples / image_semantic_search_demo.py

image_sim

Recherche de vecteur efficace FAIS, adaptée à des milliards d'ensembles de données

Vector de virage d'image, indexation, recherche par lots, service de démarrage: Exemples / Faiss_clip_search_Server_demo.py
Appel Python frontal: Exemples / Faiss_Clip_Search_Client_demo.py
Appel de gradio frontal: Exemples / Faiss_clip_search_gradio_demo.py

5. Clustering

Le clustering peut être effectué sur des ensembles de données à grande échelle via des algorithmes Community_dection pour trouver un clustering (c'est-à-dire des groupes de phrases similaires).

Exemple: Exemples / text_clustering_demo.py

6. La sémantique graphique et texte est supprimée

L'algorithme d'extraction de phrase synonyme (paraphrase_mining_embeddings) peut être utilisé pour exploiter des paires de phrases avec des significations similaires d'un grand nombre de phrases ou de documents, qui peuvent être utilisés pour la détection graphique et de texte redondante et la déduplication sémantique.

Texte de déduplication sémantique: exemples / text_duplicate_demo.py
Image Semantic Deduplication: Exemples / image_duplicate_demo.py

Mode ligne de commande (CLI)

Prise en charge l'acquisition par lots de vecteurs de texte et de vecteurs d'image (intégration)
Prend en charge la construction d'index (index)
Prend en charge la récupération par lots (filtre)
Prise en charge du service de démarrage (serveur)

Code: cli.py

 > similarities -h                                    

NAME
    similarities

SYNOPSIS
    similarities COMMAND

COMMANDS
    COMMAND is one of the following:

     bert_embedding
       Compute embeddings for a list of sentences

     bert_index
       Build indexes from text embeddings using autofaiss

     bert_filter
       Entry point of bert filter, batch search index

     bert_server
       Main entry point of bert search backend, start the server

     clip_embedding
       Embedding text and image with clip model

     clip_index
       Build indexes from embeddings using autofaiss

     clip_filter
       Entry point of clip filter, batch search index

     clip_server
       Main entry point of clip search backend, start the server

courir:

pip install similarities -U
similarities clip_embedding -h

# example
cd examples
similarities clip_embedding data/toy_clip/

bert_embedding etc. sont des commandes secondaires.
Voir similarities clip_embedding -h
Dans l'exemple ci-dessus, data/toy_clip/ est le paramètre input_dir de la méthode clip_embedding et entrez le répertoire de fichiers (requis)

Contact

Problème (suggestions):
Envoyez-moi un courriel: Xuming: [email protected]
WeChat Me: Ajoutez-moi ID WeChat: Xuming624, Remarque: NAY-COMPANY-NLP Entrez le groupe d'échange NLP.

Citation

Si vous utilisez des similitudes dans vos recherches, veuillez le citer dans le format suivant:

Apa:

 Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities

Bibtex:

 @misc{Xu_Similarities_Compute_similarity,
  title={Similarities: similarity calculation and semantic search toolkit},
  author={Xu Ming},
  year={2022},
  howpublished={url{https://github.com/shibing624/similarities}},
}

Licence

Le contrat de licence est l'Apache License 2.0, qui peut être utilisé à des fins commerciales gratuitement. Veuillez joindre le lien et l'accord d'autorisation à la description du produit.

Contribuer

Le code du projet est toujours très difficile.

Ajouter des tests unitaires correspondants dans tests
Utilisez python -m pytest pour exécuter tous les tests unitaires pour vous assurer que tous les tests uniques sont passés

Vous pouvez soumettre votre PR plus tard.

Remerciements

Une base de référence simple mais difficile à rythmer pour les intérêts des phrases [Sanjeev Arora et Yingyu Liang et Tengyu MA, 2017]
https://github.com/liuhuanyong/sencemilarity
https://github.com/qwertyforce/image_search
ImageHash - Référentiel officiel de GitHub
https://github.com/openai/clip
https://github.com/ofa-sys/chinese-clip
https://github.com/ukplab/sence-transformateurs
https://github.com/rom1504/clip-reprieval

Merci pour leur excellent travail!

Développer

Informations supplémentaires

Version 1.1.2
Type Autre code source
Date de mise à jour 2025-03-13
taille 8.53MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout