Unlinked
1.0.0
Unlink是一个旨在识别和检测基于社区的帖子中无关链接的网络刮板,例如在平台上的链接中的链接,例如Stackoverflow,Medium和类似论坛。
基于矢量的相似性检测,以分析帖子中链接的相关性。核心概念是围绕使用矢量数据库的,该数据库已在大量的数据范围内进行了预训练。刮板使用流行的NLP库Spacy来计算单词和句子嵌入。
在矢量空间中,语义相关的单词或句子之间往往具有较小的角度,从而导致巨大的相似性得分。相反,无关的单词或句子将具有较大的角度,从而导致较低或负面的余弦相似性。这允许应用程序确定帖子中的链接是否与内容上下文相关。

要在本地计算机上运行未链接,请按照以下步骤操作:
克隆存储库:
git clone https://github.com/Aashish1-1-1/Unlinked导航到项目目录:
cd Unlinked/unlinked构建Docker图像:
sudo docker build -t unlinked .运行应用程序:
sudo docker run -i unlinked