Unclinked é um raspador da Web projetado para identificar e detectar links não relacionados em postagens comunitárias, como as em plataformas como Stackoverflow, médio e fóruns semelhantes.
A detecção de similaridade baseada em vetor de alavancas unidas para analisar a relevância dos links dentro de uma postagem. O conceito principal é construído em torno do uso de um banco de dados vetorial , que é pré-treinado em um vasto corpus de dados. O raspador usa Spacy , uma biblioteca popular da NLP, para calcular incorporações de palavras e frases.
No espaço vetorial, palavras ou frases semanticamente relacionadas tendem a ter ângulos menores entre eles, resultando em uma alta pontuação de similaridade de cosseno. Por outro lado, palavras ou frases não relacionadas terão ângulos maiores, resultando em similaridade de cosseno inferior ou negativo. Isso permite que o aplicativo determine se os links em uma postagem estão contextualmente relacionados ao conteúdo ou não.

Para executar a Unchinked em sua máquina local, siga as etapas abaixo:
Clone o repositório:
git clone https://github.com/Aashish1-1-1/UnlinkedNavegue até o diretório do projeto:
cd Unlinked/unlinkedConstrua a imagem do Docker:
sudo docker build -t unlinked .Execute o aplicativo:
sudo docker run -i unlinked