RIP ข้อมูลจากเน็ตไม่ทิ้งร่องรอย ยินดีต้อนรับสู่อนาคตของการขูดเว็บ
Cyberscraper 2077 ไม่ได้เป็นเพียงเครื่องมือขูดเว็บอีกตัว - มันเป็นภาพรวมของอนาคตของการสกัดข้อมูล เกิดจากถนนนีออนที่มีแสงนีออนในโลกไซเบอร์
ไม่ว่าคุณจะเป็นนักวิเคราะห์ข้อมูล Corpo, Netrunner ที่ฉลาดถนนหรือเพียงแค่คนที่ต้องการดึงข้อมูลจาก Digital Realm, Cyberscraper 2077 ทำให้คุณได้รับความคุ้มครอง
ตรวจสอบ Cyberscraper-2077 รุ่นที่ออกแบบใหม่และปรับปรุงใหม่ด้วยวิดีโอ YouTube ที่ใช้งานได้มากขึ้นสำหรับความสามารถของ Cyberscraper 2077 เต็มรูปแบบ
ตรวจสอบวิดีโอสร้างครั้งแรกของเรา (วิดีโอเก่า) YouTube
โปรดติดตามคู่มือคอนเทนเนอร์ Docker ที่ระบุไว้ด้านล่างเนื่องจากฉันจะไม่สามารถรักษาเวอร์ชันอื่นสำหรับระบบ Windows ได้
หมายเหตุ: Cyberscraper 2077 ต้องการ Python 3.10 หรือสูงกว่า
โคลนที่เก็บนี้:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077สร้างและเปิดใช้งานสภาพแวดล้อมเสมือนจริง:
virtualenv venv
source venv/bin/activate # Optionalติดตั้งแพ็คเกจที่ต้องการ:
pip install -r requirements.txtติดตั้งบทละคร:
playwright installตั้งค่าคีย์ OpenAI & Gemini ในสภาพแวดล้อมของคุณ:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "หากคุณต้องการใช้ Ollama:
หมายเหตุ: ฉันแนะนำให้ใช้ OpenAI และ Gemini API เท่านั้นเนื่องจากรุ่นเหล่านี้ดีมากในคำแนะนำต่อไปนี้ หากคุณใช้ LLM แบบโอเพนซอร์ซตรวจสอบให้แน่ใจว่าคุณมีระบบที่ดีเนื่องจากความเร็วของการสร้างข้อมูล/การนำเสนอขึ้นอยู่กับว่าระบบของคุณสามารถทำงาน LLM ได้ดีเพียงใด คุณอาจต้องปรับแต่งพรอมต์และเพิ่มตัวกรองเพิ่มเติมด้วยตัวเอง
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.หากคุณต้องการใช้ Docker ให้ทำตามขั้นตอนเหล่านี้เพื่อตั้งค่าและเรียกใช้ Cyberscraper 2077:
ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Docker ในระบบของคุณ
โคลนที่เก็บนี้:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077สร้างภาพนักเทียบท่า:
docker build -t cyberscraper-2077 .เรียกใช้คอนเทนเนอร์:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 เปิดเบราว์เซอร์ของคุณและนำทางไปที่ http://localhost:8501
หากคุณต้องการใช้ Ollama กับการตั้งค่า Docker:
ติดตั้ง Ollama บนเครื่องโฮสต์ของคุณตามคำแนะนำที่ https://ollama.com/download
เรียกใช้ Ollama บนเครื่องโฮสต์ของคุณ:
ollama pull llama3.1ค้นหาที่อยู่ IP ของโฮสต์ของคุณ:
ifconfig หรือ ip addr showipconfigเรียกใช้คอนเทนเนอร์ Docker ด้วยเครือข่ายโฮสต์และตั้งค่า URL Ollama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077บน Linux คุณอาจต้องใช้สิ่งนี้ด้านล่าง:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 แทนที่ <your-host-ip> ด้วยที่อยู่ IP ของเครื่องโฮสต์จริงของคุณ
ในอินเทอร์เฟซ Streamlit เลือกรุ่น Ollama ที่คุณต้องการใช้ (เช่น "Ollama: Llama3.1")
หมายเหตุ: ตรวจสอบให้แน่ใจว่าไฟร์วอลล์ของคุณอนุญาตให้เชื่อมต่อกับพอร์ต 11434 สำหรับ Ollama
ดับแอพ Streamlit:
streamlit run main.py เปิดเบราว์เซอร์ของคุณและนำทางไปที่ http://localhost:8501
ป้อน URL ของเว็บไซต์ที่คุณต้องการขูดหรือถามคำถามเกี่ยวกับข้อมูลที่คุณต้องการ
ขอให้ chatbot แยกข้อมูลในรูปแบบใด ๆ เลือกข้อมูลใดก็ตามที่คุณต้องการส่งออกหรือแม้แต่ทุกอย่างจากหน้าเว็บ
ดูเป็น Cyberscraper 2077 น้ำตาผ่านเน็ตสกัดข้อมูลของคุณเร็วกว่าที่คุณสามารถพูดได้ว่า "flatline"!
หมายเหตุ : คุณลักษณะการขูดแบบหลายหน้าอยู่ในช่วงเบต้า ในขณะที่ใช้งานได้คุณอาจพบปัญหาเป็นครั้งคราวหรือพฤติกรรมที่ไม่คาดคิด เราขอขอบคุณข้อเสนอแนะและความอดทนของคุณในขณะที่เรายังคงปรับปรุงคุณสมบัตินี้ต่อไป
ตอนนี้ Cyberscraper 2077 รองรับการขูดแบบหลายหน้าช่วยให้คุณสามารถดึงข้อมูลจากหลาย ๆ หน้าของเว็บไซต์ในครั้งเดียว คุณลักษณะนี้เหมาะสำหรับการขูดเนื้อหา paginated ผลการค้นหาหรือไซต์ใด ๆ ที่มีการแพร่กระจายข้อมูลในหลาย ๆ หน้า
ฉันขอแนะนำให้คุณเข้าสู่โครงสร้าง URL ทุกครั้งหากคุณต้องการขูดหลายหน้าเพื่อให้สามารถตรวจจับโครงสร้าง URL ได้อย่างง่ายดาย มันตรวจพบ URL เกือบทั้งหมด
การใช้งานขั้นพื้นฐาน : หากต้องการขูดหลายหน้าใช้รูปแบบต่อไปนี้เมื่อป้อน URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
สิ่งนี้จะขูดหน้า 1 ถึง 5 ของเว็บไซต์
ช่วงหน้าแบบกำหนดเอง : คุณสามารถระบุช่วงหน้าแบบกำหนดเอง:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
สิ่งนี้จะขูดหน้า 1 ถึง 5 หน้า 7 และหน้า 9 ถึง 12
รูปแบบ URL : สำหรับเว็บไซต์ที่มีโครงสร้าง URL ที่แตกต่างกันคุณสามารถระบุรูปแบบ:
https://example.com/search?q=cyberpunk&page={page} 1-5
แทนที่ {page} โดยที่หมายเลขหน้าควรอยู่ใน URL
การตรวจจับรูปแบบอัตโนมัติ : หากคุณไม่ได้ระบุรูปแบบ Cyberscraper 2077 จะพยายามตรวจจับรูปแบบ URL โดยอัตโนมัติ อย่างไรก็ตามเพื่อผลลัพธ์ที่ดีที่สุดแนะนำให้ระบุรูปแบบ
simulate_human สำหรับพฤติกรรมการขูดที่เป็นธรรมชาติมากขึ้นในไซต์ที่มีมาตรการต่อต้านบอทrobots.txt ของเว็บไซต์เป็นประจำและข้อกำหนดในการให้บริการเพื่อให้แน่ใจว่ามีการปฏิบัติตามURL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "หากคุณต้องการขูดหน้าเฉพาะเพียงป้อนแบบสอบถาม "โปรดขูดหน้าหมายเลข 1 หรือ 2" หากคุณต้องการขูดทุกหน้าเพียงแค่ให้แบบสอบถามเช่น "ขูดทุกหน้าใน CSV" หรือรูปแบบใด ๆ ที่คุณต้องการ
หากคุณพบข้อผิดพลาดระหว่างการขูดแบบหลายหน้า:
เนื่องจากคุณสมบัตินี้อยู่ในเบต้าเราให้ความสำคัญกับความคิดเห็นของคุณ หากคุณพบปัญหาใด ๆ หรือมีข้อเสนอแนะสำหรับการปรับปรุงโปรด:
อินพุตของคุณมีความสำคัญในการช่วยให้เราปรับแต่งและทำให้คุณสมบัตินี้มีเสถียรภาพสำหรับการเผยแพร่ในอนาคต
หมายเหตุ : คุณลักษณะการขูดเครือข่าย TOR ช่วยให้คุณสามารถเข้าถึงและตรวจสอบไซต์ onion. คุณลักษณะนี้ต้องการการตั้งค่าเพิ่มเติมและควรใช้อย่างรับผิดชอบและถูกต้องตามกฎหมาย
ตอนนี้ Cyberscraper 2077 รองรับการขูดไซต์. onion ผ่านเครือข่าย Tor ช่วยให้คุณสามารถเข้าถึงและแยกข้อมูลจากเว็บมืดได้อย่างปลอดภัยและไม่ระบุชื่อ คุณลักษณะนี้เหมาะสำหรับนักวิจัยนักวิเคราะห์ความปลอดภัยและนักวิจัยที่ต้องการรวบรวมข้อมูลจากบริการที่ซ่อนอยู่ของ Tor
ติดตั้ง TOR ในระบบของคุณ:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSติดตั้งแพ็คเกจ Python เพิ่มเติม:
pip install PySocks requests[socks]การใช้งานขั้นพื้นฐาน : เพียงป้อน URL. onion และไซเบอร์ cryper จะตรวจจับและกำหนดเส้นทางผ่านเครือข่าย TOR โดยอัตโนมัติ:
http://example123abc.onion
คุณสมบัติด้านความปลอดภัย :
คุณสามารถปรับแต่งพฤติกรรมการขูด TOR โดยการปรับการตั้งค่าต่อไปนี้:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)สำหรับผู้ใช้ Docker ให้เพิ่มธงเพิ่มเติมเหล่านี้เพื่อเปิดใช้งานการสนับสนุน TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077หากคุณพบปัญหาเกี่ยวกับการขูด Tor:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json ปรับแต่งการตั้งค่า PlaywrightScraper ให้เหมาะกับความต้องการการขูดของคุณ หากเว็บไซต์บางแห่งให้ปัญหากับคุณคุณอาจต้องการตรวจสอบพฤติกรรมของเว็บไซต์:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:ปรับการตั้งค่าเหล่านี้ตามเว็บไซต์และสภาพแวดล้อมเป้าหมายของคุณเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
นอกจากนี้คุณยังสามารถข้าม CAPTCHA โดยใช้พารามิเตอร์ -captcha ที่ส่วนท้ายของ URL หน้าต่างเบราว์เซอร์จะปรากฏขึ้นเสร็จสมบูรณ์ captcha และกลับไปที่หน้าต่างเทอร์มินัลของคุณ กด Enter และ Bot จะทำงานให้เสร็จ
เรายินดีต้อนรับ CyberPunks, NetRunners และ Code Samurais ทุกคนเพื่อสนับสนุนไซเบอร์ Crybers 2077!
วิ่งเข้าไปในความผิดพลาดในเมทริกซ์? แจ้งให้เราทราบโดยเพิ่มปัญหาลงใน repo นี้เพื่อให้เราสามารถแก้ไขได้ด้วยกัน
ถาม: Cyberscraper 2077 ถูกต้องตามกฎหมายหรือไม่? ตอบ: Cyberscraper 2077 ได้รับการออกแบบมาสำหรับการขูดเว็บที่มีจริยธรรม ตรวจสอบให้แน่ใจเสมอว่าคุณมีสิทธิ์ที่จะขูดเว็บไซต์และเคารพไฟล์ robots.txt ของพวกเขา
ถาม: ฉันสามารถใช้สิ่งนี้เพื่อวัตถุประสงค์ทางการค้าได้หรือไม่? ตอบ: ใช่ภายใต้เงื่อนไขของใบอนุญาต MIT แต่โปรดจำไว้ว่าในเมืองกลางคืนมีราคาที่ต้องจ่ายอยู่เสมอ ล้อเล่น!
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ใบอนุญาตสำหรับรายละเอียด ใช้มันดัดแปลงขาย - อย่าโทษเราถ้าคุณจบลงด้วยการแบน
มีคำถาม? ต้องการการสนับสนุน? ต้องการจ้างฉันเพื่อขอกิ๊ก?
ฟัง choombas! ก่อนที่คุณจะเข้าสู่รหัสนี้คุณจะเข้าใจความเสี่ยงได้ดีขึ้น:
ซอฟต์แวร์นี้มีให้ "ตามสภาพ" โดยไม่มีการรับประกันใด ๆ โดยชัดแจ้งหรือโดยนัย
ผู้เขียนจะไม่รับผิดชอบต่อความเสียหายหรือการสูญเสียใด ๆ ที่เกิดจากการใช้ซอฟต์แวร์นี้
เครื่องมือนี้มีวัตถุประสงค์เพื่อการศึกษาและการวิจัยเท่านั้น การใช้งานที่ผิดกฎหมายใด ๆ เป็นสิ่งต้องห้ามอย่างเคร่งครัด
เราไม่รับประกันความถูกต้องความสมบูรณ์หรือความน่าเชื่อถือของข้อมูลใด ๆ ที่ได้รับผ่านเครื่องมือนี้
ด้วยการใช้ซอฟต์แวร์นี้คุณรับทราบว่าคุณกำลังทำเช่นนั้นด้วยความเสี่ยงของคุณเอง
คุณมีหน้าที่รับผิดชอบในการปฏิบัติตามกฎหมายและข้อบังคับที่เกี่ยวข้องทั้งหมดในการใช้ซอฟต์แวร์นี้
เราขอสงวนสิทธิ์ในการแก้ไขหรือหยุดซอฟต์แวร์ได้ตลอดเวลาโดยไม่ต้องแจ้งให้ทราบล่วงหน้า
โปรดจำไว้ว่าซามูไร: ในอนาคตอันมืดมนของตาข่ายความรู้คือพลัง แต่ก็เป็นดาบสองคม ใช้เครื่องมือนี้อย่างชาญฉลาดและการเชื่อมต่อของคุณอาจจะแข็งแกร่งและไฟร์วอลล์ของคุณไม่สามารถยอมรับได้ แช่แข็งอยู่ที่นั่นใน Frontier ดิจิตอล
Cyberscraper 2077 - เพราะในปี 2077 อะไรทำให้ใครบางคนเป็นอาชญากร? ถูกจับได้
สร้างขึ้นด้วย❤และโครเมี่ยมตามถนนในเมืองกลางคืน | © 2077 Owen Singh