從網絡中撕裂數據,沒有痕跡。歡迎來到網絡刮擦的未來。
CybersCraper 2077不僅是另一個網絡刮擦工具,還可以瞥見數據提取的未來。這款AI驅動的刮刀源自網絡朋克世界的霓虹燈街道,使用OpenAI,Gemini和Localllm模型切成網絡的防禦措施,以無與倫比的精度和样式提取所需的數據。
無論您是Corpo數據分析師,街頭智能NetRunner,還是只是希望從數字領域中獲取信息的人,Cyberscraper 2077都可以覆蓋您。
通過更多功能YouTube視頻查看我們的重新設計和改進的Cyberscraper-2077版本,以全面了解Cyberscraper 2077的功能。
查看我們的第一個構建(舊視頻)YouTube視頻
請按照下面的“ Docker容器指南”進行操作,因為我將無法維護Windows系統的另一個版本。
注意:CybersCraper 2077要求Python 3.10或更高。
克隆這個存儲庫:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077創建並激活虛擬環境:
virtualenv venv
source venv/bin/activate # Optional安裝所需的軟件包:
pip install -r requirements.txt安裝劇作家:
playwright install在您的環境中設置OpenAi&Gemini密鑰:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "如果您想使用Ollama:
注意:我僅建議使用OpenAI和Gemini API,因為這些模型確實擅長以下說明。如果您使用的是開源LLMS,請確保您的系統良好,因為數據生成/演示的速度取決於您的系統運行LLM的能力。您可能還必須微調提示,並自己添加一些其他過濾器。
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.如果您願意使用Docker,請按照以下步驟設置並運行Cyberscraper 2077:
確保系統上安裝了Docker。
克隆這個存儲庫:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077構建Docker圖像:
docker build -t cyberscraper-2077 .運行容器:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077打開瀏覽器並導航到http://localhost:8501 。
如果您想將Ollama與Docker設置一起使用:
按照https://ollama.com/download的說明,將Ollama安裝在主機機上
在您的主機上運行Ollama:
ollama pull llama3.1查找主機機器的IP地址:
ifconfig或ip addr showipconfig使用主機網絡運行Docker容器,並設置Ollama URL:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077在Linux上,您可能需要在下面使用它:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077用實際的主機IP地址替換<your-host-ip> 。
在簡化接口中,選擇要使用的Ollama模型(例如,“ Ollama:Llama3.1”)。
注意:確保您的防火牆允許連接到Ollama的端口11434。
啟動簡化應用程序:
streamlit run main.py打開瀏覽器並導航到http://localhost:8501 。
輸入要刮擦網站的URL或詢問有關所需數據的問題。
要求聊天機器人以任何格式提取數據。選擇要導出的任何數據,甚至從網頁中導出的所有數據。
觀看網絡cret繞2077的眼淚,比您說的“ flatline”更快地提取數據!
注意:多頁刮擦功能當前在beta中。在功能上,您可能會遇到偶爾出現的問題或意外行為。我們感謝您的反饋和耐心,因為我們繼續改善此功能。
Cyberscraper 2077現在支持多頁刮擦,使您可以一次從網站的多個頁面中提取數據。此功能非常適合刮擦分頁內容,搜索結果或任何數據分佈在多個頁面上的網站。
我建議您每次要刮擦多個頁面,以便您可以輕鬆檢測到URL結構。它檢測到幾乎所有URL類型。
基本用法:要刮擦多個頁面,請在輸入URL時使用以下格式:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
這將刮擦網站的第1至5頁。
自定義頁面範圍:您可以指定自定義頁面範圍:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
這將刮擦第1到5,第7頁和第9至12頁。
URL模式:對於具有不同URL結構的網站,您可以指定一個模式:
https://example.com/search?q=cyberpunk&page={page} 1-5
將{page}替換為頁碼應在URL中的位置。
自動圖案檢測:如果您沒有指定模式,則網絡craper 2077將嘗試自動檢測URL模式。但是,為了獲得最佳結果,建議使用該模式。
simulate_human選項,在具有反機器人措施的站點上進行更自然的刮擦行為。robots.txt文件和服務條款,以確保合規性。URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "如果要刮擦特定頁面,只需輸入查詢“請刮擦第1或2頁”。如果您想刮擦所有頁面,只需提供諸如“刮擦CSV中的所有頁面”或您想要的任何格式之類的查詢。
如果您在多頁刮擦過程中遇到錯誤:
由於此功能是在Beta中,因此我們高度重視您的反饋。如果您遇到任何問題或有改進的建議,請:
您的意見對於幫助我們完善和穩定此功能至關重要。
注意:TOR網絡刮擦功能使您可以訪問和刮擦.onion站點。此功能需要其他設置,應負責任地和合法地使用。
Cyberscraper 2077現在支持通過TOR網絡刮擦。on onion站點,使您可以安全地訪問和匿名從黑暗網絡中訪問和提取數據。此功能非常適合需要從隱藏服務中收集信息的研究人員,安全分析師和研究人員。
在系統上安裝TOR:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS安裝其他Python軟件包:
pip install PySocks requests[socks]基本用法:只需輸入.Onion URL,並且網絡craper將自動檢測並通過TOR網絡路由它:
http://example123abc.onion
安全功能:
您可以通過調整以下設置來自定義TOR刮擦行為:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)對於Docker用戶,添加這些其他標誌以啟用TOR支持:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077如果您遇到Tor刮擦問題:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json 。 自定義PlaywrightScraper設置以滿足您的刮擦需求。如果某些網站給您問題,您可能需要檢查網站的行為:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:根據您的目標網站和環境調整這些設置,以獲得最佳結果。
您還可以使用URL末尾的-captcha參數繞過驗證碼。瀏覽器窗口將彈出,完成驗證碼,然後返回您的終端窗口。按Enter,機器人將完成其任務。
我們歡迎所有的網絡朋克,網絡彈奏者和代碼武士為2077年的網絡貿易師做出貢獻!
在矩陣中遇到一個小故障?通過將問題添加到此存儲庫中,讓我知道,以便我們可以將其解決。
問:Cyberscraper 2077是否合法使用?答:Cyberscraper 2077專為道德網絡刮擦而設計。始終確保您有權刮擦網站並尊重他們的機器人.txt文件。
問:我可以將其用於商業目的嗎?答:是的,根據MIT許可的條款。但是請記住,在夜城,總有要付的代價。只是在開玩笑!
該項目是根據MIT許可證獲得許可的 - 有關詳細信息,請參見許可證文件。使用它,mod,出售它 - 如果您結束時,請不要怪我們。
有問題嗎?需要支持嗎?想僱用我參加演出嗎?
聽著,喬巴斯!在插入此代碼之前,您最好了解風險:
該軟件是“原樣”提供的,沒有任何形式的明示或暗示保修。
作者對使用此軟件造成的任何損害或損失不承擔任何責任。
該工具僅用於教育和研究目的。嚴格禁止任何非法使用。
我們不能保證通過此工具獲得的任何數據的準確性,完整性或可靠性。
通過使用此軟件,您可以承認自己正在自擔風險。
您有責任在使用本軟件時遵守所有適用的法律法規。
我們保留隨時修改或停止軟件的權利,恕不另行通知。
請記住,武士:在網絡的黑暗未來中,知識是力量,但它也是一把雙刃劍。明智地使用此工具,並且您的連接始終是牢固的,而您的防火牆則無法穿透。在數字邊界保持冷淡。
CybersCraper 2077 - 因為在2077年,是什麼使某人成為罪犯?被抓住。
用❤️和Chrome建造的夜城街道| ©2077 Owen Singh