Unlinked
1.0.0
Unlinkedは、Stackoverflow、Medium、同様のフォーラムなどのプラットフォームなどのコミュニティベースの投稿で無関係なリンクを識別および検出するように設計されたWebスクレーパーです。
リンクされていないレバレッジベクトルベースの類似性検出は、投稿内のリンクの関連性を分析します。コアコンセプトは、 Vectorデータベースの使用を中心に構築されています。これは、データの膨大なコーパスで事前に訓練されています。スクレーパーは、人気のNLPライブラリであるSpacyを使用して、単語と文の埋め込みを計算します。
ベクトル空間では、意味的に関連する単語や文の間に角度が小さくなる傾向があり、その結果、コサインの類似性スコアが高くなります。逆に、無関係な単語や文はより大きな角度を持ち、その結果、コサインの類似性が低くなっています。これにより、アプリケーションは、投稿内のリンクがコンテンツにコンテキストに関連しているかどうかを判断できます。

ローカルマシンでリンクされていない実行するには、以下の手順に従ってください。
リポジトリをクローンします:
git clone https://github.com/Aashish1-1-1/Unlinkedプロジェクトディレクトリに移動します。
cd Unlinked/unlinkedDocker画像を作成します:
sudo docker build -t unlinked .アプリケーションを実行します:
sudo docker run -i unlinked