从网络中撕裂数据,没有痕迹。欢迎来到网络刮擦的未来。
CybersCraper 2077不仅是另一个网络刮擦工具,还可以瞥见数据提取的未来。这款AI驱动的刮刀源自网络朋克世界的霓虹灯街道,使用OpenAI,Gemini和Localllm模型切成网络的防御措施,以无与伦比的精度和样式提取所需的数据。
无论您是Corpo数据分析师,街头智能NetRunner,还是只是希望从数字领域中获取信息的人,Cyberscraper 2077都可以覆盖您。
通过更多功能YouTube视频查看我们的重新设计和改进的Cyberscraper-2077版本,以全面了解Cyberscraper 2077的功能。
查看我们的第一个构建(旧视频)YouTube视频
请按照下面的“ Docker容器指南”进行操作,因为我将无法维护Windows系统的另一个版本。
注意:CybersCraper 2077要求Python 3.10或更高。
克隆这个存储库:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077创建并激活虚拟环境:
virtualenv venv
source venv/bin/activate # Optional安装所需的软件包:
pip install -r requirements.txt安装剧作家:
playwright install在您的环境中设置OpenAi&Gemini密钥:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "如果您想使用Ollama:
注意:我仅建议使用OpenAI和Gemini API,因为这些模型确实擅长以下说明。如果您使用的是开源LLMS,请确保您的系统良好,因为数据生成/演示的速度取决于您的系统运行LLM的能力。您可能还必须微调提示,并自己添加一些其他过滤器。
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.如果您愿意使用Docker,请按照以下步骤设置并运行Cyberscraper 2077:
确保系统上安装了Docker。
克隆这个存储库:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077构建Docker图像:
docker build -t cyberscraper-2077 .运行容器:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077打开浏览器并导航到http://localhost:8501 。
如果您想将Ollama与Docker设置一起使用:
按照https://ollama.com/download的说明,将Ollama安装在主机机上
在您的主机上运行Ollama:
ollama pull llama3.1查找主机机器的IP地址:
ifconfig或ip addr showipconfig使用主机网络运行Docker容器,并设置Ollama URL:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077在Linux上,您可能需要在下面使用它:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077用实际的主机IP地址替换<your-host-ip> 。
在简化接口中,选择要使用的Ollama模型(例如,“ Ollama:Llama3.1”)。
注意:确保您的防火墙允许连接到Ollama的端口11434。
启动简化应用程序:
streamlit run main.py打开浏览器并导航到http://localhost:8501 。
输入要刮擦网站的URL或询问有关所需数据的问题。
要求聊天机器人以任何格式提取数据。选择要导出的任何数据,甚至从网页中导出的所有数据。
观看网络cret绕2077的眼泪,比您说的“ flatline”更快地提取数据!
注意:多页刮擦功能当前在beta中。在功能上,您可能会遇到偶尔出现的问题或意外行为。我们感谢您的反馈和耐心,因为我们继续改善此功能。
Cyberscraper 2077现在支持多页刮擦,使您可以一次从网站的多个页面中提取数据。此功能非常适合刮擦分页内容,搜索结果或任何数据分布在多个页面上的网站。
我建议您每次要刮擦多个页面,以便您可以轻松检测到URL结构。它检测到几乎所有URL类型。
基本用法:要刮擦多个页面,请在输入URL时使用以下格式:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
这将刮擦网站的第1至5页。
自定义页面范围:您可以指定自定义页面范围:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
这将刮擦第1到5,第7页和第9至12页。
URL模式:对于具有不同URL结构的网站,您可以指定一个模式:
https://example.com/search?q=cyberpunk&page={page} 1-5
将{page}替换为页码应在URL中的位置。
自动图案检测:如果您没有指定模式,则网络craper 2077将尝试自动检测URL模式。但是,为了获得最佳结果,建议使用该模式。
simulate_human选项,在具有反机器人措施的站点上进行更自然的刮擦行为。robots.txt文件和服务条款,以确保合规性。URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "如果要刮擦特定页面,只需输入查询“请刮擦第1或2页”。如果您想刮擦所有页面,只需提供诸如“刮擦CSV中的所有页面”或您想要的任何格式之类的查询。
如果您在多页刮擦过程中遇到错误:
由于此功能是在Beta中,因此我们高度重视您的反馈。如果您遇到任何问题或有改进的建议,请:
您的意见对于帮助我们完善和稳定此功能至关重要。
注意:TOR网络刮擦功能使您可以访问和刮擦.onion站点。此功能需要其他设置,应负责任地和合法地使用。
Cyberscraper 2077现在支持通过TOR网络刮擦。on onion站点,使您可以安全地访问和匿名从黑暗网络中访问和提取数据。此功能非常适合需要从隐藏服务中收集信息的研究人员,安全分析师和研究人员。
在系统上安装TOR:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS安装其他Python软件包:
pip install PySocks requests[socks]基本用法:只需输入.Onion URL,并且网络craper将自动检测并通过TOR网络路由它:
http://example123abc.onion
安全功能:
您可以通过调整以下设置来自定义TOR刮擦行为:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)对于Docker用户,添加这些其他标志以启用TOR支持:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077如果您遇到Tor刮擦问题:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json 。 自定义PlaywrightScraper设置以满足您的刮擦需求。如果某些网站给您问题,您可能需要检查网站的行为:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:根据您的目标网站和环境调整这些设置,以获得最佳结果。
您还可以使用URL末尾的-captcha参数绕过验证码。浏览器窗口将弹出,完成验证码,然后返回您的终端窗口。按Enter,机器人将完成其任务。
我们欢迎所有的网络朋克,网络弹奏者和代码武士为2077年的网络贸易师做出贡献!
在矩阵中遇到一个小故障?通过将问题添加到此存储库中,让我知道,以便我们可以将其解决。
问:Cyberscraper 2077是否合法使用?答:Cyberscraper 2077专为道德网络刮擦而设计。始终确保您有权刮擦网站并尊重他们的机器人.txt文件。
问:我可以将其用于商业目的吗?答:是的,根据MIT许可的条款。但是请记住,在夜城,总有要付的代价。只是在开玩笑!
该项目是根据MIT许可证获得许可的 - 有关详细信息,请参见许可证文件。使用它,mod,出售它 - 如果您结束时,请不要怪我们。
有问题吗?需要支持吗?想雇用我参加演出吗?
听着,乔巴斯!在插入此代码之前,您最好了解风险:
该软件是“原样”提供的,没有任何形式的明示或暗示保修。
作者对使用此软件造成的任何损害或损失不承担任何责任。
该工具仅用于教育和研究目的。严格禁止任何非法使用。
我们不能保证通过此工具获得的任何数据的准确性,完整性或可靠性。
通过使用此软件,您可以承认自己正在自担风险。
您有责任在使用本软件时遵守所有适用的法律法规。
我们保留随时修改或停止软件的权利,恕不另行通知。
请记住,武士:在网络的黑暗未来中,知识是力量,但它也是一把双刃剑。明智地使用此工具,并且您的连接始终是牢固的,而您的防火墙则无法穿透。在数字边界保持冷淡。
Cyberscraper 2077 - 因为在2077年,是什么使某人成为罪犯?被抓住。
用❤️和Chrome建造的夜城街道| ©2077 Owen Singh