RIP Данные из сети, не оставляя никаких следов. Добро пожаловать в будущее сети.
Cyberscraper 2077 - это не просто еще один инструмент для скребки в Интернете - это проблеск будущего извлечения данных. Этот скребок с AI, родившийся на неоновых улицах мира киберпанка, использует модели OpenAI, Gemini и Localllm, чтобы прорезать защиту в Интернете, извлекая данные, необходимые вам с непревзойденной точностью и стилем.
Являетесь ли вы аналитиком по данным Corpo, уличным сетевым Netrunner или просто кто-то, кто хочет получить информацию из цифровой сферы, Cyberscraper 2077 помог вам.
Проверьте нашу перепроектированную и улучшенную версию Cyberscraper-2077 с большей функциональностью видео на YouTube для полного прохождения возможностей Cyberscraper 2077.
Проверьте нашу первую сборку (старое видео) видео на YouTube
Пожалуйста, следуйте руководству по контейнеру Docker, приведенному ниже, так как я не смогу сохранить другую версию для Windows Systems.
Примечание: Cyberscraper 2077 требует Python 3.10 или выше.
Клонировать это хранилище:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Создать и активировать виртуальную среду:
virtualenv venv
source venv/bin/activate # OptionalУстановите необходимые пакеты:
pip install -r requirements.txtУстановите драматург:
playwright installУстановите ключ Openai & Gemini в вашей среде:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Если вы хотите использовать Ollama:
Примечание: я рекомендую использовать только API OpenAI и Gemini, так как эти модели действительно хороши в следующих инструкциях. Если вы используете LLMS с открытым исходным кодом, убедитесь, что у вас есть хорошая система, поскольку скорость генерации/презентации данных зависит от того, насколько хорошо ваша система может запустить LLM. Возможно, вам также придется точно настроить подсказку и самостоятельно добавить несколько дополнительных фильтров.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Если вы предпочитаете использовать Docker, следуйте этим шагам, чтобы настроить и запустить Cyberscraper 2077:
Убедитесь, что у вас установлен Docker в вашей системе.
Клонировать это хранилище:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Создайте изображение Docker:
docker build -t cyberscraper-2077 .Запустите контейнер:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 Откройте свой браузер и перейдите к http://localhost:8501 .
Если вы хотите использовать Ollama с настройкой Docker:
Установите Ollama на вашем хост -машине, следуя инструкциям по адресу https://ollama.com/download
Запустите Ollama на вашем хост -машине:
ollama pull llama3.1Найдите IP -адрес вашего хост -машины:
ifconfig или ip addr showipconfigЗапустите контейнер Docker с хост -сетью и установите URL Ollama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077На Linux вам может потребоваться использовать это ниже:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 Замените <your-host-ip> на фактический IP-адрес хост-машины.
В интерфейсе Streamlit выберите модель Ollama, которую вы хотите использовать (например, «Ollama: Llama3.1»).
ПРИМЕЧАНИЕ. Убедитесь, что ваш брандмауэр позволяет соединения с портом 11434 для Ollama.
Запустите приложение для потока:
streamlit run main.py Откройте свой браузер и перейдите к http://localhost:8501 .
Введите URL -адрес сайта, который вы хотите поцарапать или задать вопрос о необходимых данных.
Попросите чат -бот извлечь данные в любом формате. Выберите любые данные, которые вы хотите экспортировать, или даже все с веб -страницы.
Посмотрите, как Cyberscraper 2077 разрывается в сети, извлекая ваши данные быстрее, чем вы можете сказать «плоская линия»!
Примечание . Функция массовой массы многостраничного в настоящее время находится в бета-версии. Несмотря на функциональные, вы можете столкнуться с случайными проблемами или неожиданным поведением. Мы ценим ваши отзывы и терпение, поскольку мы продолжаем улучшать эту функцию.
Cyberscraper 2077 теперь поддерживает многостраничное соскоб, что позволяет вам извлекать данные с нескольких страниц веб-сайта за один раз. Эта функция идеально подходит для соскабливания страничного содержания, результатов поиска или любого сайта с данными, распространяемыми на нескольких страницах.
Я предлагаю вам вводить структуру URL каждый раз, если вы хотите очистить несколько страниц, чтобы она могла легко обнаружить структуру URL. Он обнаруживает почти все типы URL.
Основное использование : чтобы очистить несколько страниц, используйте следующий формат при входе в URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Это будет очищать страницы с 1 по 5 сайта.
Пользовательские страницы : вы можете указать пользовательские диапазоны страниц:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Это будет очищать страницы с 1 по 5, стр. 7 и страницы с 9 по 12.
Узоры URL : для веб -сайтов с различными структурами URL вы можете указать шаблон:
https://example.com/search?q=cyberpunk&page={page} 1-5
Замените {page} , где номер страницы должен быть в URL.
Автоматическое обнаружение рисунка : если вы не указаете шаблон, Cyberscraper 2077 попытается автоматически обнаружить шаблон URL. Однако для достижения наилучших результатов рекомендуется определение шаблона.
simulate_human для более естественного поведения соскобки на участках с анти-ботскими показателями.robots.txt и Условия обслуживания, чтобы обеспечить соответствие.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "Если вы хотите соскрести определенную страницу, просто введите запрос «Пожалуйста, соскребьте страницу № 1 или 2». Если вы хотите поцарапать все страницы, просто дайте запрос, подобный «Scrape All Pages в CSV», или в любом формате, который вы хотите.
Если вы сталкиваетесь с ошибками во время многостраничного соскоба:
Поскольку эта функция в бета -версии, мы очень ценим ваши отзывы. Если вы сталкиваетесь с какими -либо проблемами или у вас есть предложения по улучшению, пожалуйста:
Ваш вклад имеет решающее значение для того, чтобы помочь нам уточнить и стабилизировать эту функцию для будущих выпусков.
ПРИМЕЧАНИЕ . Функция скребки сети TOR позволяет вам получить доступ и очищать сайты .onion. Эта функция требует дополнительной настройки и должна использоваться ответственно и юридически.
Cyberscraper 2077 теперь поддерживает соскабливание сайтов .onion через сеть TOR, позволяя вам безопасно и анонимно добраться и извлекать данные из темной сети. Эта функция идеально подходит для исследователей, аналитиков безопасности и следователей, которым необходимо собирать информацию из скрытых услуг TOR.
Установите Tor в вашу систему:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSУстановите дополнительные пакеты Python:
pip install PySocks requests[socks]Основное использование : просто введите URL .onion, и киберсборщик автоматически обнаружит и проходит через сеть TOR:
http://example123abc.onion
Особенности безопасности :
Вы можете настроить поведение скрепования TOR, настраивая следующие настройки:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Для пользователей Docker добавьте эти дополнительные флаги, чтобы включить поддержку TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Если вы сталкиваетесь с проблемами с царапином Tor:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json . Настройте настройки PlaywrightScraper , чтобы соответствовать вашим потребностям соскоб. Если некоторые веб -сайты дают вам проблемы, вы можете проверить поведение веб -сайта:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:Отрегулируйте эти настройки на основе вашего целевого веб -сайта и среды для оптимальных результатов.
Вы также можете обойти капчу, используя параметр -captcha в конце URL. Окно браузера появится, завершит капчу и вернется в окно вашего терминала. Нажмите Enter, и бот выполнит свою задачу.
Мы приветствуем всех киберпунков, Netrunners и Code Samurais, чтобы внести свой вклад в Cyberscraper 2077!
Столкнулся с глюком в матрице? Дайте мне знать, добавив проблему в этот репо, чтобы мы могли исправить его вместе.
В: Cyberscraper 2077 легал в использовании? A: Cyberscraper 2077 предназначен для этического соскоба. Всегда убедитесь, что вы имеете право соскрести веб -сайт и уважать их файл robots.txt.
В: Могу ли я использовать это для коммерческих целей? A: Да, в соответствии с условиями лицензии MIT. Но помните, в ночном городе всегда есть цена. Просто шучу!
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл лицензии. Используйте его, мод, продай - просто не вините нас, если вы в конечном итоге.
Есть вопросы? Нужна поддержка? Хотите нанять меня для концерта?
Слушай, Чумбас! Перед тем, как вы вступите в этот код, вам лучше понять риски:
Это программное обеспечение предоставляется «как есть», без гарантии любого рода, явного или подразумеваемого.
Авторы не несут ответственности за любые убытки или убытки, вызванные использованием этого программного обеспечения.
Этот инструмент предназначен только для образовательных и исследовательских целей. Любое незаконное использование строго запрещено.
Мы не гарантируем точность, полноту или надежность любых данных, полученных с помощью этого инструмента.
Используя это программное обеспечение, вы признаете, что делаете это на свой страх и риск.
Вы несете ответственность за соблюдение всех применимых законов и правил при использовании этого программного обеспечения.
Мы оставляем за собой право изменять или прекращать программное обеспечение в любое время без предварительного уведомления.
Помните, Samurai: В темном будущем сети знание-это сила, но это также обоюдоострый меч. Используйте этот инструмент с умом, и пусть ваше соединение всегда будет сильным, а ваши брандмауэры непроницаемы. Оставайтесь на морозной на цифровой границе.
Cyberscraper 2077 - Потому что в 2077 году, что делает кого -то преступником? Быть пойманным.
Построен с ❤ и хромом у улиц Ночного города | © 2077 Оуэн Сингх