Unlinked es un raspador web diseñado para identificar y detectar enlaces no relacionados en publicaciones basadas en la comunidad, como las de plataformas como Stackoverflow, medios y foros similares.
Aprovechados no enlaces de la detección de similitud basada en vectores para analizar la relevancia de los enlaces dentro de una publicación. El concepto central se basa en el uso de una base de datos vectorial , que se captura previamente en un vasto corpus de datos. El raspador utiliza Spacy , una biblioteca NLP popular, para calcular las incrustaciones de palabras y oraciones.
En el espacio vectorial, las palabras o oraciones semánticamente relacionadas tienden a tener ángulos más pequeños entre ellas, lo que resulta en una alta puntuación de similitud de coseno. Por el contrario, las palabras o oraciones no relacionadas tendrán ángulos más grandes, lo que dará como resultado una similitud coseno más baja o negativa. Esto permite que la aplicación determine si los enlaces en una publicación están contextualmente relacionados con el contenido o no.

Para ejecutar no enlaces en su máquina local, siga los pasos a continuación:
Clon el repositorio:
git clone https://github.com/Aashish1-1-1/UnlinkedNavegue al directorio del proyecto:
cd Unlinked/unlinkedConstruye la imagen Docker:
sudo docker build -t unlinked .Ejecute la aplicación:
sudo docker run -i unlinked