Статус проекта: все еще находится в активном развитии! Тем не менее, большая часть этого уже используется. Добро пожаловать в альфа -тестеры! Полная статистика на ежедневной работе здесь.
Обратите внимание : это новая официальная репо для проекта, старые репозитории C ++ и ржавчины теперь закрыты и больше не доступны/поддерживаются. Пожалуйста, используйте это для любой новой разработки.
Crowler-это богатый функциями, богатый функциями, разработанный с уникальной философией по своей сути: быть максимально нежным и низким шумом. Другими словами, Crowler пытается выделиться, обеспечивая минимальное влияние на сайты, которые он ползает, максимизируя удобство для своих пользователей.
Кроме того, система оснащена API, обеспечивая оптимизированный интерфейс для запросов данных. Эта функция обеспечивает легкую интеграцию и доступ к индексированным данным для различных приложений.
Crowler предназначен для того, чтобы основываться на микро-сервисах, поэтому его можно легко развернуть в контейнерной среде.
Для получения дополнительной информации о функциях см. Страницу «Функции».
Crowler предназначен для решения ряда проблем в отношении ползания в Интернете, обнаружения контента, обнаружения технологий и извлечения данных.
Хотя главная цель состоит в том, чтобы позволить частным, профессиональным и корпоративным пользователям быстро разрабатывать свои решения для обнаружения контента, он также предназначен для того, чтобы иметь возможность ползать в частных сетях и интрасети, чтобы вы могли использовать его для создания собственной или вашей поисковой системы компании.
Кроме того, он также может быть использован в качестве «базы» для более сложного инструмента кибербезопасности, так как его можно использовать для сбора информации о веб -сайте, его сети, ее владельцах, уязвимостях, какие услуги подвергаются и т. Д.
Учитывая, что она также может извлечь информацию, ее можно использовать для создания баз знаний со ссылкой на источники или для создания базы данных информации о конкретной теме.
Очевидно, что его также можно использовать для анализа ключевых слов, обнаружения языка и т. Д. Но это то, для чего можно использовать каждый человек. Однако все «классические» функции реализованы/реализованы.
Это произносится как / ðə / Когда перед согласным звуком, это звучит как «Чт».
Кроу : произносится как /kroʊ /, рифмуется с «знания» или «снега».
LER : Последняя часть произносится как /lər /, аналогично окончанию слова «гусеница» или слово «LER» в «Tumbler».
Собрать все вместе, это звучит как " Чу-kroh-lər "
«Кровер - это не просто инструмент; это обязательство этическим, эффективным и эффективным веб -ползаниям. Проведение вы проводят академические исследования, анализ рынка или улучшаете свои положения кибербезопасности, Кроулер обеспечивает целостность и точность.
Присоединяйтесь к нам в переопределении стандартов веб -ползания. Исследуйте больше и внесите вклад в путешествие Кроулера к более уважительному и проницательному цифровому исследованию ».
? Это явно немного наверху, но это было весело, и я решил включить его здесь, просто для удовольствия. Кстати, это заставляет меня падать так, как я хочу добавить:
"... и есть еще одна вещь!" (Интересно, почему?!?!)?
Crowler предназначен для того, чтобы основываться на микро-сервисах, поэтому вам нужно установить следующее:
Для установки на основе Docker Compose это все, что вам нужно. Если у вас установлен Docker и Docker Compose, вы можете пропустить следующий раздел и перейти прямо в раздел установки .
Самый простой способ установить Crowler - это использовать файл Docker Compose. Для этого следуйте инструкциям здесь.
Обратите внимание (1) : Если у вас есть вопросы о config.yaml или env vars, или на сборе правил и т. Д., Вы можете использовать GPT Chatbot, чтобы помочь вам. Просто перейдите по этой ссылке здесь (она свободно доступна для всех)
Обратите внимание (2) : Если вы управляете Crowler на Raspberry Pi, вам нужно построить Crowler для платформы arm64 . Для этого более простой способ состоит в том, чтобы построить Crowler с помощью сценария docker-build.sh непосредственно на Raspberry Pi.
Если вместо этого вы планируете установить Crowler вручную, вам нужно установить следующий контейнер Docker:
PostgreSQL Контейнер
Также обратите внимание: Crowler понадобится его изображение VDI, поэтому вам также нужно построить изображение VDI.
Если вы используете Docker Compose, то все будет построить автоматически, все, что вам нужно сделать, это следовать инструкциям в разделе установки.
Если вместо этого вы хотите построить локально на своей машине, следуйте инструкциям в этом разделе.
Чтобы построить Crowler из источника, вам нужно установить следующее:
Затем вам нужно будет клонировать репозиторий и построить необходимые вам цели.
Чтобы построить все сразу запустить следующую команду:
./autobuild.shЧтобы построить отдельные цели:
Во -первых, проверьте, какие цели могут быть построены и доступны, запустите следующую команду:
./autobuild name-of-the-target Это построит запрошенной компонент в ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Создайте их, как вам нужны, или запустите autobuild.sh (без аргументов), чтобы построить их все.
При желании вы можете построить изображение Docker, чтобы выполнить следующую команду:
docker build -t < image name > .Примечание . Если вы создаете контейнер Docker Docker Crowler, не забудьте запустить его со следующей командой Docker (это требуется!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineВажное примечание : если вы создаете из источника, вам все равно нужно построить изображение Crowler VDI Docker, которое необходимо, потому что Crowler использует кучу внешних инструментов для выполнения своей работы, и все эти инструменты сгруппированы и встроены в изображение VDI (виртуальное изображение рабочего стола).
Для инструкции о том, как использовать его, см. Здесь.
Если вы хотите использовать Crowler в производстве, я рекомендую использовать установку Docker Compose. Это самый простой способ установить его, и это самый надежный.
Для лучшей безопасности я настоятельно рекомендую развернуть API в отдельном контейнере, чем Crowler. Кроме того, нет необходимости выставлять контейнер Crowler на внешний мир, ему потребуется мысль о доступе в Интернете.
Конфигурация по умолчанию Crowler использует PostgreSQL в качестве базы данных. База данных хранится в томе Docker и постоянна.
БД не нуждается в техническом обслуживании, Кроулер позаботится об этом. Каждый раз, когда нет никакой активности ползания, и его проходили 1 часы после предыдущего технического обслуживания, Crowler очистит базу данных и оптимизирует индексы.
Crowler имеет лицензию по лицензии Apache 2.0. Для получения дополнительной информации см. Файл лицензии.
Если вы хотите внести свой вклад в проект, прочитайте файл Anploying.
Краулер принял кодекс поведения завета участника. Для получения дополнительной информации см. Файл code_of_conduct.
Crowler строится на многих проектах с открытым исходным кодом, и я хочу поблагодарить всех разработчиков, которые внесли свой вклад в эти проекты. Без них Кроулер был бы невозможным.
Кроме того, я хочу поблагодарить людей, которые помогают мне с проектом, либо внося код, тестируя его, либо предоставляя обратную связь. Спасибо всем!
Crowler - это инструмент, предназначенный для того, чтобы помочь вам с уважением ползти. Тем не менее, вы должны использовать его с уважением. Кроулер не несет ответственности за какое -либо неправильное использование инструмента.