XXL-Crawler
XXL-Crawler, распределенный веб-липлер.
-домашняя страница-
Введение
XXL-Crawler-это распределенная платформа для веб-хруппа. Одна строка кода разрабатывает распределенного гусеница. Такие функции, как «многопоточный, асинхронный, динамический IP-прокси, распределенный, JavaScript-Rendering».
XXL-Crawler-это распределенная структура Crawler. Разработать распределенного гусенита с одной линией кода, которая имеет характеристики «многопоточного, асинхронного, IP-динамического прокси, распределенного, рендеринг JS» и других функций;
Документация
Функции
- 1. Краткий: API интуитивно понятный и краткий, и может быть быстро начат;
- 2. Легкий: основная реализация зависит только от JSoup, что является простым и эффективным;
- 3. Модульный: модульный конструктивный дизайн, простой в расширении
- 4. объектно-ориентированный: поддерживает простое отображение данных страниц с объектами PageVO через аннотации, а базовый уровень автоматически завершает извлечение данных и возврат инкапсуляции объектов PageVO; Одна страница поддерживает извлечение одной или нескольких страниц.
- 5. Многопользовательское: запустить в пуле потоков, чтобы повысить эффективность сбора;
- 6. Распределенная поддержка: распределенная может быть достигнута путем расширения модуля «Rundata» и объединения Redis или DB -общих данных. Localrundata автономный хрупкий по умолчанию предоставляется по умолчанию.
- 7. js рендеринг: расширяя модуль «PageLoader», он поддерживает получение данных динамического рендеринга JS. Назнакомительно, он предоставляет jsoup (рендеринг без js, быстрее), HTMlunit (рендеринг JS), Selenium+Phantomjs (рендеринг JS, высокая совместимость) и другие реализации, поддерживая бесплатное расширение других реализаций.
- 8. Неудачный повторный ритм: повторение после сбоя запроса и поддерживает установление количества времен повторной попытки;
- 9. Агент IP: Правила политики против приобретения WAF;
- 10. Dynamic Proxy: поддерживает динамическую регулировку прокси -бассейнов во время выполнения и настраивает политики маршрутизации Proxy Pool;
- 11. Асинхронный: поддерживает два способа запуска синхронного и асинхронного;
- 12. Распространение всего сайта: диффузия поддержки и ползание всего сайта из существующего URL в качестве отправной точки;
- 13. дедупликация: предотвратить повторное ползание;
- 14. URL Whitelist: поддерживает настройку страниц правил белого списка и фильтрации URL;
- 15. Пользовательская информация о запросе, такую как: параметры запроса, файлы cookie, заголовок, опрос пользователя, рефератель и т. Д.;
- 16. Динамические параметры: поддержка динамическая корректировка параметров запроса во время выполнения;
- 17. Контроль тайм -аута: поддержание установки времени ожидания запроса Crawler;
- 18. Активная пауза: потока гусеницы активно пауза после обработки страницы, чтобы не перехватывать слишком часто;
Коммуникация
Внося
Взносы приветствуются! Откройте запрос на притяжение, чтобы исправить ошибку, или откройте проблему, чтобы обсудить новую функцию или изменения.
Добро пожаловать, чтобы принять участие в вкладе проекта! Например, отправьте пиар, чтобы исправить ошибку или создать новую проблему для обсуждения новых функций или изменений.
Доступ к регистрации
Для большего количества компаний, которые получают доступ, пожалуйста, зарегистрируйтесь по адресу регистрации. Регистрация предназначена только для продвижения продукта.
Авторские права и лицензия
Этот продукт является открытым исходным кодом и бесплатным, и будет продолжать предоставлять бесплатную техническую поддержку сообщества. Индивидуальные или корпоративные пользователи могут свободно получить доступ и использовать.
- Лицензирован по лицензии Apache, версия 2.0.
- Copyright (C) 2015-Present, Xuxueli.
Продукт является открытым исходным кодом и бесплатным, а бесплатная техническая поддержка сообщества будет предоставляться. Бесплатный доступ и использование в отдельных лицах или предприятиях.
Пожертвовать
Независимо от того, сколько суммы достаточно, чтобы выразить вашу мысль, большое спасибо :) пожертвовать
Независимо от того, сколько это сумма, этого достаточно, чтобы выразить ваши чувства. Большое спасибо :) иди пожертвовать