Unlinked
1.0.0
Unlink是一個旨在識別和檢測基於社區的帖子中無關鏈接的網絡刮板,例如在平台上的鏈接中的鏈接,例如Stackoverflow,Medium和類似論壇。
基於矢量的相似性檢測,以分析帖子中鏈接的相關性。核心概念是圍繞使用矢量數據庫的,該數據庫已在大量的數據范圍內進行了預訓練。刮板使用流行的NLP庫Spacy來計算單詞和句子嵌入。
在矢量空間中,語義相關的單詞或句子之間往往具有較小的角度,從而導致巨大的相似性得分。相反,無關的單詞或句子將具有較大的角度,從而導致較低或負面的餘弦相似性。這允許應用程序確定帖子中的鏈接是否與內容上下文相關。

要在本地計算機上運行未鏈接,請按照以下步驟操作:
克隆存儲庫:
git clone https://github.com/Aashish1-1-1/Unlinked導航到項目目錄:
cd Unlinked/unlinked構建Docker圖像:
sudo docker build -t unlinked .運行應用程序:
sudo docker run -i unlinked