??中国語|
類似点:類似性の計算とセマンティック検索のツールキットは、テキストと画像、セマンティックマッチング検索ツールキットをサポートします。
類似点は、テキストと写真のさまざまな類似性計算とセマンティックマッチング検索アルゴリズムを実装し、数十億のデータ検索、テキスト検索、画像検索、Python3開発、PIPのインストール、およびボックスからサポートします。
ガイド
画像検索デモ:https://huggingface.co/spaces/shibing624/clip-image-search

テキスト検索デモ:https://huggingface.co/spaces/shibing624/similarities

pip install torch # conda install pytorch
pip install -U similarities
または
git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .
例:例/text_similarity_demo.py
from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " ) # similarity score: 0.855146050453186model_name_or_path :モデル名またはパスは、デフォルトでHFモデルハブからダウンロードされ、中国のセマンティックマッチングモデルShibing624/text2vec-base-chineseが必要な場合は、シッピング624/text2vec-base-multingualモデルに置き換えられます。ドキュメント候補セットのクエリに最も似ているテキストを見つけます。これは、QAシナリオでの同様の一致とテキスト検索によく使用されることがよくあります。
例:例/text_semantic_search_demo.py
例:例/fast_text_semantic_search_demo.py
テキスト転送ベクトル、インデックス、バッチ検索、サービスの開始:Examples/faiss_bert_search_server_demo.py
フロントエンドPythonコール:Examples/faiss_bert_search_client_demo.py
Cilin、Cnki Hownet、Wordembeding、TFIDF、Simhash、BM25などの同義語の類似性の計算と文字通りの一致検索をサポートし、テキストマッチングコールドスタートによく使用されます。
例:Examples/literal_text_semantic_search_demo.py
画像の類似性の計算と、Clip、Phash、Siftなどのアルゴリズムの一致する検索をサポートします。
例:例/image_semantic_search_demo.py

画像ターニングベクトル、インデックス、バッチ検索、サービスの開始:Examples/faiss_clip_search_server_demo.py
フロントエンドPythonコール:Examples/faiss_clip_search_client_demo.py
フロントエンドグラデーションコール:examples/faiss_clip_search_gradio_demo.py

クラスタリングは、Community_Detectionアルゴリズムを介して大規模なデータセットで実行して、クラスタリング(つまり、同様の文グループ)を見つけることができます。
例:例/text_clustering_demo.py
同義語文マイニング(paraphrase_mining_embeddings)アルゴリズムは、多数の文またはドキュメントから同様の意味を持つ文のペアをマイニングするために使用できます。
コード:Cli.py
> similarities -h
NAME
similarities
SYNOPSIS
similarities COMMAND
COMMANDS
COMMAND is one of the following:
bert_embedding
Compute embeddings for a list of sentences
bert_index
Build indexes from text embeddings using autofaiss
bert_filter
Entry point of bert filter, batch search index
bert_server
Main entry point of bert search backend, start the server
clip_embedding
Embedding text and image with clip model
clip_index
Build indexes from embeddings using autofaiss
clip_filter
Entry point of clip filter, batch search index
clip_server
Main entry point of clip search backend, start the server
走る:
pip install similarities -U
similarities clip_embedding -h
# example
cd examples
similarities clip_embedding data/toy_clip/bert_embeddingなどは、テキストの相関関係から始まります。similarities clip_embedding -h参照してくださいdata/toy_clip/ clip_embeddingメソッドのinput_dirパラメーターであり、ファイルディレクトリを入力します(必須) 
調査で類似点を使用している場合は、次の形式で引用してください。
APA:
Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities
bibtex:
@misc{Xu_Similarities_Compute_similarity,
title={Similarities: similarity calculation and semantic search toolkit},
author={Xu Ming},
year={2022},
howpublished={url{https://github.com/shibing624/similarities}},
}
ライセンス契約はApacheライセンス2.0で、商業目的で無料で使用できます。リンクと承認契約を製品の説明に添付してください。
プロジェクトコードはまだ非常にラフです。
testsに対応する単体テストを追加しますpython -m pytestを使用してすべての単位テストを実行して、すべての単一テストが渡されるようにします後でPRを送信できます。
彼らの素晴らしい仕事をありがとう!