Vector Database Milvus
1.0.0
該項目的目標是計算文本之間的相似性,並使用TreSholding方法找到重複的文本。項目包含兩個階段:
文本嵌入
使用矢量數據庫(MILVUS)的相似性搜索
首先,使用句子變壓器(bert)(bert)將句子轉換為嵌入式,並取得文本中所有句子的平均值。通過這種方式,從文本中提取了非結構化數據的語義含義。具有相似內容的文本在多維嵌入空間中更接近。餘弦相似性度量用於比較文本之間的相似性。

兩個嵌入向量之間的餘弦相似性可以計算如下。
cos(θ)=(a•b) /('a” *'b')

MILVUS矢量數據庫旨在存儲和管理,並索引高維矢量嵌入。它用於加速相似性搜索。 Milvus是使用Docker組成的。詳細信息可以在以下鏈接中找到:
https://milvus.io/docs/v2.0.x/install_stall_standalone-docker.md