Vector Database Milvus
1.0.0
该项目的目标是计算文本之间的相似性,并使用TreSholding方法找到重复的文本。项目包含两个阶段:
文本嵌入
使用矢量数据库(MILVUS)的相似性搜索
首先,使用句子变压器(bert)(bert)将句子转换为嵌入式,并取得文本中所有句子的平均值。通过这种方式,从文本中提取了非结构化数据的语义含义。具有相似内容的文本在多维嵌入空间中更接近。余弦相似性度量用于比较文本之间的相似性。

两个嵌入向量之间的余弦相似性可以计算如下。
cos(θ)=(a•b) /('a” *'b')

MILVUS矢量数据库旨在存储和管理,并索引高维矢量嵌入。它用于加速相似性搜索。 Milvus是使用Docker组成的。详细信息可以在以下链接中找到:
https://milvus.io/docs/v2.0.x/install_stall_standalone-docker.md