Unlceeded-это веб-скребок, предназначенный для выявления и обнаружения не связанных ссылок в сообществах, таких как на платформах, таких как Stackoverflow, Medium и аналогичные форумы.
Незамеченные используют векторное обнаружение сходства для анализа актуальности ссылок в рамках поста. Основная концепция построена вокруг использования векторной базы данных , которая предварительно обучена на обширном корпусе данных. Scraper использует Spacy , популярную библиотеку NLP, для вычисления Word and Predence Engeddings.
В векторном пространстве семантически связанные слова или предложения, как правило, имеют меньшие углы между ними, что приводит к высоким показателям сходства косинуса. И наоборот, неродственные слова или предложения будут иметь большие углы, что приведет к более низкому или негативному сходству косинуса. Это позволяет приложению определять, связаны ли ссылки в посте контекстуально связаны с контентом или нет.

Чтобы запустить неопределенную на местной машине, выполните следующие действия:
Клонировать репозиторий:
git clone https://github.com/Aashish1-1-1/UnlinkedПерейдите к каталогу проекта:
cd Unlinked/unlinkedСоздайте изображение Docker:
sudo docker build -t unlinked .Запустите приложение:
sudo docker run -i unlinked