similaritiesダウンロード - similaritiesソースコードのダウンロード

similarities

その他のソースコード

1.1.2

ダウンロード

??中国語|

類似性：類似性の計算とセマンティック検索

類似点：類似性の計算とセマンティック検索のツールキットは、テキストと画像、セマンティックマッチング検索ツールキットをサポートします。

類似点は、テキストと写真のさまざまな類似性計算とセマンティックマッチング検索アルゴリズムを実装し、数十億のデータ検索、テキスト検索、画像検索、Python3開発、PIPのインストール、およびボックスからサポートします。

ガイド

特徴
インストール
使用法
接触
謝辞

特徴

テキストの類似性計算 +テキスト検索

セマンティックマッチングモデル[推奨]：このプロジェクトは、Text2Vecに基づいてテキストの類似性の計算とCOSENTモデルのテキスト検索を実装しています
- 中国語と英語、多言語、文のクラスで事前に訓練されたモデルをサポートしています
- COSの類似性/ドット製品/ハミング距離/ユークリッド距離およびその他の類似性計算方法をサポートします
- Semanticsearch/Faiss/Asse/HNSWなどのさまざまなテキスト検索アルゴリズムをサポートしています
- 数十億のデータの効率的な検索をサポートします
- サポートコマンドラインテキスト転送ベクトル（複数のカード）、インデックス、バッチ取得、およびサービスの開始
リテラルマッチングモデル：このプロジェクトは、Word2vec、BM25、RANKBM25、TFIDF、SIMHASH、同義語Word Forest、Cnki Hownetなどのさまざまなリテラルマッチングモデルを実装しています。

画像の類似性計算/グラフィック類似性計算+グラフィック検索/テキスト検索

クリップ（コントラストイメージの事前トレーニング）モデル：グラフィック機能（埋め込み）、類似性の計算、グラフィック検索、およびゼロサンプル画像分類に使用できるグラフィックマッチングモデルは、ベクターの表現、構造インデックス（オートファイズに基づく）、バッチ検索、バックグラウンドモデル、およびフロントディスプレイに基づいています。
- OpenAI/Clip-Vit-Base-Patch32などのクリップシリーズモデルをサポートしています
- OFA-SYS/Chinese-Clip-Vit-Huge-Patch14などの中国クリップシリーズモデルをサポートしています
- フロントエンド分離の展開、FastAPIバックエンドサービス、グラデーションフロントエンドディスプレイをサポートします
- FAISS取得に基づいて、数十億のデータの効率的な検索をサポートし、GPU加速度をサポートします
- 画像検索、テキスト検索、ベクトル検索をサポートします
- サポート画像埋め込み抽出とテキスト埋め込み抽出
- 画像の類似性の計算と画像の類似性の計算をサポートします
- サポートコマンドライン画像ターニングベクトル（複数のカード）、インデックス作成、バッチ検索、およびスタートアップサービス
画像機能抽出：このプロジェクトは、CV2に基づいて、Phash、Dhash、Whash、Ahash、Siftなどのさまざまな画像機能抽出アルゴリズムを実装しています

デモ

画像検索デモ：https：//huggingface.co/spaces/shibing624/clip-image-search

テキスト検索デモ：https：//huggingface.co/spaces/shibing624/similarities

インストール

 pip install torch # conda install pytorch
pip install -U similarities

または

 git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .

使用法

1。テキストベクトルの類似性計算

例：例/text_similarity_demo.py

 from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " )  # similarity score: 0.855146050453186

model_name_or_path ：モデル名またはパスは、デフォルトでHFモデルハブからダウンロードされ、中国のセマンティックマッチングモデルShibing624/text2vec-base-chineseが必要な場合は、シッピング624/text2vec-base-multingualモデルに置き換えられます。

2。テキストベクトル検索

ドキュメント候補セットのクエリに最も似ているテキストを見つけます。これは、QAシナリオでの同様の一致とテキスト検索によく使用されることがよくあります。

semanticsearch正確な検索アルゴリズム、cos類似性 + topkクラスター検索、数百万以内のデータセットに適しています

例：例/text_semantic_search_demo.py

腹立たやhnswlibなどのおおよその検索アルゴリズムは、何百万ものデータセットに適しています

例：例/fast_text_semantic_search_demo.py

数十億のデータセットに適したFAISS効率的なベクトル検索

テキスト転送ベクトル、インデックス、バッチ検索、サービスの開始：Examples/faiss_bert_search_server_demo.py
フロントエンドPythonコール：Examples/faiss_bert_search_client_demo.py

3.文字通りに基づいたテキストの類似性の計算とテキスト検索

Cilin、Cnki Hownet、Wordembeding、TFIDF、Simhash、BM25などの同義語の類似性の計算と文字通りの一致検索をサポートし、テキストマッチングコールドスタートによく使用されます。

例：Examples/literal_text_semantic_search_demo.py

4。画像の類似性の計算と画像検索

画像の類似性の計算と、Clip、Phash、Siftなどのアルゴリズムの一致する検索をサポートします。

例：例/image_semantic_search_demo.py

image_sim

数十億のデータセットに適したFAISS効率的なベクトル検索

画像ターニングベクトル、インデックス、バッチ検索、サービスの開始：Examples/faiss_clip_search_server_demo.py
フロントエンドPythonコール：Examples/faiss_clip_search_client_demo.py
フロントエンドグラデーションコール：examples/faiss_clip_search_gradio_demo.py

5。クラスタリング

クラスタリングは、Community_Detectionアルゴリズムを介して大規模なデータセットで実行して、クラスタリング（つまり、同様の文グループ）を見つけることができます。

例：例/text_clustering_demo.py

6.グラフィックとテキストのセマンティクスが削除されます

同義語文マイニング（paraphrase_mining_embeddings）アルゴリズムは、多数の文またはドキュメントから同様の意味を持つ文のペアをマイニングするために使用できます。

テキストセマンティック重力：例/text_duplicates_demo.py
画像セマンティック重力：例/image_duplicates_demo.py

コマンドラインモード（CLI）

テキストベクトルと画像ベクトルのバッチ取得をサポート（埋め込み）
インデックスビルディング（インデックス）をサポートする
バッチ検索（フィルター）をサポート
サポートスタートアップサービス（サーバー）

コード：Cli.py

 > similarities -h                                    

NAME
    similarities

SYNOPSIS
    similarities COMMAND

COMMANDS
    COMMAND is one of the following:

     bert_embedding
       Compute embeddings for a list of sentences

     bert_index
       Build indexes from text embeddings using autofaiss

     bert_filter
       Entry point of bert filter, batch search index

     bert_server
       Main entry point of bert search backend, start the server

     clip_embedding
       Embedding text and image with clip model

     clip_index
       Build indexes from embeddings using autofaiss

     clip_filter
       Entry point of clip filter, batch search index

     clip_server
       Main entry point of clip search backend, start the server

走る：

pip install similarities -U
similarities clip_embedding -h

# example
cd examples
similarities clip_embedding data/toy_clip/

bert_embeddingなどは、テキストの相関関係から始まります。
similarities clip_embedding -h参照してください
上記の例では、 data/toy_clip/ clip_embeddingメソッドのinput_dirパラメーターであり、ファイルディレクトリを入力します（必須）

接触

問題（提案）：
私にメールしてください：xuming：[email protected]
Wechat Me：Me Wechat IDを追加：Xuming624、注：NAME-COMPANY-NLP NLP Exchange Groupに入ります。

引用

調査で類似点を使用している場合は、次の形式で引用してください。

APA：

 Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities

bibtex：

 @misc{Xu_Similarities_Compute_similarity,
  title={Similarities: similarity calculation and semantic search toolkit},
  author={Xu Ming},
  year={2022},
  howpublished={url{https://github.com/shibing624/similarities}},
}

ライセンス

ライセンス契約はApacheライセンス2.0で、商業目的で無料で使用できます。リンクと承認契約を製品の説明に添付してください。

貢献する

プロジェクトコードはまだ非常にラフです。

testsに対応する単体テストを追加します
python -m pytestを使用してすべての単位テストを実行して、すべての単一テストが渡されるようにします

後でPRを送信できます。

謝辞

文の埋め込みのためのシンプルだが頑丈なベースライン[Sanjeev arora and Yingyu liang and Tengyu MA、2017]
https://github.com/liuhuanyong/sentencesimilarity
https://github.com/qwertyforce/image_search
ImageHash-公式GitHubリポジトリ
https://github.com/openai/clip
https://github.com/ofa-sys/chinese-clip
https://github.com/ukplab/sentence-transformers
https://github.com/rom1504/clip-retrieval

彼らの素晴らしい仕事をありがとう！

拡大する

追加情報

バージョン 1.1.2
タイプその他のソースコード
更新時間 2025-03-13
サイズ 8.53MB
から Github

similarities

類似性：類似性の計算とセマンティック検索

特徴

テキストの類似性計算 +テキスト検索

画像の類似性計算/グラフィック類似性計算+グラフィック検索/テキスト検索

デモ

インストール

使用法

1。テキストベクトルの類似性計算

2。テキストベクトル検索

semanticsearch正確な検索アルゴリズム、cos類似性 + topkクラスター検索、数百万以内のデータセットに適しています

腹立たやhnswlibなどのおおよその検索アルゴリズムは、何百万ものデータセットに適しています

数十億のデータセットに適したFAISS効率的なベクトル検索

3.文字通りに基づいたテキストの類似性の計算とテキスト検索

4。画像の類似性の計算と画像検索

数十億のデータセットに適したFAISS効率的なベクトル検索

5。クラスタリング

6.グラフィックとテキストのセマンティクスが削除されます

コマンドラインモード（CLI）

接触

引用

ライセンス

貢献する

謝辞

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express