Vector Database Milvus
1.0.0
このプロジェクトの目標は、テキスト間の類似性を計算し、トレシェルディング方法を使用して重複するテキストを見つけることです。プロジェクトには2つの段階が含まれています。
テキスト埋め込み
Vectorデータベース(Milvus)を使用した類似性検索
まず、文は、双方向のコンテキスト(BERT)を考慮し、テキスト内のすべての文の平均を取得する文を使用して埋め込みに変換されます。このようにして、テキストから非構造化データの意味的な意味が抽出されます。同様のコンテンツを持つテキストは、多次元の埋め込み空間でより密接になります。コサインの類似性メトリックは、テキスト間の類似性を比較するために使用されます。

2つの埋め込みベクトル間のコサインの類似性は、次のように計算できます。
cos(θ)=(a•b) /(‖a‖ *‖b‖)

Milvus Vectorデータベースは、高次元ベクトル埋め込みを保存および管理するように設計されています。類似性検索を加速するために利用されます。 Milvusは、Docker Composeを使用してインストールされます。詳細は、次のリンクにあります。
https://milvus.io/docs/v2.0.x/install_standalone-docker.md