?? Bahasa Inggris |
Kesamaan : Toolkit untuk Perhitungan Kesamaan dan Pencarian Semantik, Mendukung Teks dan Gambar.
Kesamaan mengimplementasikan berbagai perhitungan kesamaan dan algoritma pencocokan semantik untuk teks dan gambar, dan mendukung miliaran pencarian data, pencarian teks, dan pencarian gambar, pengembangan Python3, instalasi PIP, dan di luar kotak.
Memandu
Demo Pencarian Gambar: https://huggingface.co/spaces/shibing624/clip-image-search

Demo Pencarian Teks: https://huggingface.co/spaces/shibing624/similarities

pip install torch # conda install pytorch
pip install -U similarities
atau
git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .
Contoh: Contoh/text_similarity_demo.py
from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " ) # similarity score: 0.855146050453186model_name_or_path : The model name or path will be downloaded from the HF model hub by default and the Chinese semantic matching model shibing624/text2vec-base-chinese is used. If multilingual is needed, it can be replaced with shibing624/text2vec-base-multilingual model, supporting Chinese, English, Korean, Japanese, German, Italian and other languages.Temukan teks yang paling mirip dengan kueri dalam set kandidat dokumen, yang sering digunakan untuk kecocokan serupa dan pencarian teks dalam skenario QA.
Contoh: Contoh/text_semantic_search_demo.py
Contoh: Contoh/fast_text_semantic_search_demo.py
Vektor transfer teks, pengindeksan, pencarian batch, Layanan Mulai: Contoh/faiss_bert_search_server_demo.py
Panggilan Python front-end: Contoh/faiss_bert_search_client_demo.py
Ini mendukung perhitungan kesamaan dan pencocokan literal pencarian sinonim seperti cilin, cnki hownet, wordembedding, tfidf, simhash, bm25, dll., Dan sering digunakan untuk pencocokan teks yang cocok dengan teks.
Contoh: Contoh/literal_text_semantic_search_demo.py
Mendukung Perhitungan Kesamaan Gambar dan Pencocokan Pencarian untuk Algoritma seperti Clip, Phash, dan SIFT.
Contoh: Contoh/gambar_semantic_search_demo.py

Vektor berputar gambar, pengindeksan, pencarian batch, Layanan Mulai: Contoh/faiss_clip_search_server_demo.py
Panggilan Python front-end: Contoh/faiss_clip_search_client_demo.py
Front-end Gradio Call: Contoh/faiss_clip_search_gradio_demo.py

Clustering dapat dilakukan pada dataset skala besar melalui algoritma Community_Detection untuk menemukan pengelompokan (mis., Grup kalimat serupa).
Contoh: Contoh/text_clustering_demo.py
Algoritma penambangan kalimat sinonim (paraphrase_mining_embeddings) dapat digunakan untuk menambang pasangan kalimat dengan makna yang sama dari sejumlah besar kalimat atau dokumen, yang dapat digunakan untuk deteksi grafik dan teks yang berlebihan dan deduplikasi semantik.
Kode: cli.py
> similarities -h
NAME
similarities
SYNOPSIS
similarities COMMAND
COMMANDS
COMMAND is one of the following:
bert_embedding
Compute embeddings for a list of sentences
bert_index
Build indexes from text embeddings using autofaiss
bert_filter
Entry point of bert filter, batch search index
bert_server
Main entry point of bert search backend, start the server
clip_embedding
Embedding text and image with clip model
clip_index
Build indexes from embeddings using autofaiss
clip_filter
Entry point of clip filter, batch search index
clip_server
Main entry point of clip search backend, start the server
berlari:
pip install similarities -U
similarities clip_embedding -h
# example
cd examples
similarities clip_embedding data/toy_clip/bert_embedding dll adalah perintah sekunder.similarities clip_embedding -hdata/toy_clip/ adalah parameter input_dir dari metode clip_embedding , dan masukkan direktori file (diperlukan) 
Jika Anda menggunakan kesamaan dalam penelitian Anda, silakan kutip dalam format berikut:
APA:
Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities
Bibtex:
@misc{Xu_Similarities_Compute_similarity,
title={Similarities: similarity calculation and semantic search toolkit},
author={Xu Ming},
year={2022},
howpublished={url{https://github.com/shibing624/similarities}},
}
Perjanjian lisensi adalah Lisensi Apache 2.0, yang dapat digunakan untuk tujuan komersial secara gratis. Harap lampirkan tautan dan perjanjian otorisasi ke deskripsi produk.
Kode proyek masih sangat kasar.
testspython -m pytest untuk menjalankan semua tes unit untuk memastikan bahwa semua tes tunggal dilewatkanAnda dapat mengirimkan PR Anda nanti.
Terima kasih atas pekerjaan hebat mereka!