RIP -Daten aus dem Netz und keine Spur hinterlassen. Willkommen in der Zukunft des Web -Scrapings.
Cyberscraper 2077 ist nicht nur ein weiteres Web -Scraping -Tool - es ist ein Einblick in die Zukunft der Datenextraktion. Dieser von der Neon beleuchtete Straßen einer Cyberpunk-Welt geboren aus dem KI-betriebenen Schaber verwendet OpenAI-, Gemini- und Localllm-Modelle, um die Abwehrkräfte des Webs zu durchschneiden und die Daten zu extrahieren, die Sie benötigen, mit beispielloser Präzision und Stil.
Egal, ob Sie ein Corpo-Datenanalyst, ein Straßenschlitz Netrunner oder nur jemand, der Informationen aus dem digitalen Bereich abrufen möchte, Cyberscraper 2077 hat Sie versichert.
Schauen Sie sich unsere neu gestaltete und verbesserte Version von Cyberscraper-2077 mit mehr Funktionen YouTube-Video für eine vollständige Exemplar der Funktionen von Cyberscraper 2077 an.
Schauen Sie sich unser erstes Build (altes Video) YouTube -Video an
Bitte folgen Sie dem unten angegebenen Docker -Containerhandbuch, da ich keine andere Version für Windows -Systeme verwalten kann.
Hinweis: Cyberscraper 2077 benötigt Python 3.10 oder höher.
Klonen Sie dieses Repository:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Erstellen und aktivieren Sie eine virtuelle Umgebung:
virtualenv venv
source venv/bin/activate # OptionalInstallieren Sie die erforderlichen Pakete:
pip install -r requirements.txtInstallieren Sie den Dramatiker:
playwright installSetzen Sie Openai & Gemini Key in Ihrer Umgebung:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Wenn Sie Ollama verwenden möchten:
Hinweis: Ich empfehle nur die Verwendung von OpenAI- und Gemini -API, da diese Modelle wirklich gut in den folgenden Anweisungen sind. Wenn Sie Open-Source-LLMs verwenden, stellen Sie sicher, dass Sie ein gutes System haben, da die Geschwindigkeit der Datenerzeugung/-präsentation davon abhängt, wie gut Ihr System die LLM ausführen kann. Möglicherweise müssen Sie die Eingabeaufforderung auch gut abschneiden und einige zusätzliche Filter selbst hinzufügen.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Wenn Sie es vorziehen, Docker zu verwenden, befolgen Sie diese Schritte, um Cyberscraper 2077 einzurichten und auszuführen:
Stellen Sie sicher, dass Sie Docker auf Ihrem System installiert haben.
Klonen Sie dieses Repository:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Erstellen Sie das Docker -Bild:
docker build -t cyberscraper-2077 .Führen Sie den Container aus:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 Öffnen Sie Ihren Browser und navigieren Sie zu http://localhost:8501 .
Wenn Sie Ollama mit dem Docker -Setup verwenden möchten:
Installieren Sie Ollama auf Ihrem Host -Computer den Anweisungen unter https://ollama.com/download
Führen Sie Ollama auf Ihrem Host -Computer aus:
ollama pull llama3.1Finden Sie die IP -Adresse Ihres Host -Computers:
ifconfig oder ip addr showipconfigFühren Sie den Docker -Container mit dem Host -Netzwerk aus und setzen Sie die Ollama -URL:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077Unter Linux müssen Sie dies möglicherweise unten verwenden:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 Ersetzen Sie <your-host-ip> durch Ihre tatsächliche IP-Adresse des Host-Computers.
Wählen Sie in der optimistischen Schnittstelle das OLLAMA -Modell aus, das Sie verwenden möchten (z. B. "Ollama: LLAMA3.1").
Hinweis: Stellen Sie sicher, dass Ihre Firewall Verbindungen zu Port 11434 für Ollama ermöglicht.
Starten Sie die Stromlit -App:
streamlit run main.py Öffnen Sie Ihren Browser und navigieren Sie zu http://localhost:8501 .
Geben Sie die URL der Website ein, die Sie kratzen möchten, oder stellen Sie eine Frage zu den Daten, die Sie benötigen.
Bitten Sie den Chatbot, die Daten in jedem Format zu extrahieren. Wählen Sie die Daten aus, die Sie exportieren möchten, oder sogar alles von der Webseite.
Beobachten Sie, wie Cyberscraper 2077 durch das Netz reißt und Ihre Daten schneller extrahiert, als Sie "Flatline" sagen können!
Hinweis : Die Multi-Page-Scraping-Funktion befindet sich derzeit in Beta. Während Sie funktional sind, können Sie gelegentliche Probleme oder unerwartetes Verhalten stoßen. Wir schätzen Ihr Feedback und Ihre Geduld, wenn wir diese Funktion weiter verbessern.
Cyberscraper 2077 unterstützt jetzt mehrseitige Schablonen und ermöglicht es Ihnen, Daten auf einmal von mehreren Seiten einer Website zu extrahieren. Diese Funktion eignet sich perfekt zum Abkratzen von paginierten Inhalten, Suchergebnissen oder einer Website mit Daten auf mehreren Seiten.
Ich schlage vor, dass Sie jedes Mal die URL -Struktur eingeben, wenn Sie mehrere Seiten kratzen möchten, damit die URL -Struktur leicht erkennen kann. Es erkennt fast alle URL -Typen.
Grundlegende Verwendung : Verwenden Sie beim Eingeben der URL das folgende Format, um mehrere Seiten zu kratzen:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Dadurch werden die Seiten 1 bis 5 der Website erkrankt.
Benutzerdefinierte Seitenbereiche : Sie können benutzerdefinierte Seitenbereiche angeben:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Dadurch werden die Seiten 1 bis 5, Seite 7 und die Seiten 9 bis 12 abgehoben.
URL -Muster : Für Websites mit unterschiedlichen URL -Strukturen können Sie ein Muster angeben:
https://example.com/search?q=cyberpunk&page={page} 1-5
Ersetzen Sie {page} durch die Seitennummer in der URL.
Automatische Mustererkennung : Wenn Sie kein Muster angeben, versucht Cyberscraper 2077, das URL -Muster automatisch zu erkennen. Für die besten Ergebnisse wird jedoch empfohlen, das Muster anzugeben.
simulate_human , um ein natürlicheres Krabbungsverhalten an Stellen mit Anti-BOT-Maßnahmen zu erhalten.robots.txt -Datei der Website und die Nutzungsbedingungen, um die Einhaltung der Einhaltung zu gewährleisten.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "Wenn Sie eine bestimmte Seite kratzen möchten, geben Sie einfach die Abfrage ein "Bitte kratzen Sie die Seite 1 oder 2 ab". Wenn Sie alle Seiten kratzen möchten, geben Sie einfach eine Abfrage wie "alle Seiten in CSV kratzen" oder welches Format Sie möchten.
Wenn Sie beim Multi-Page-Scraping Fehler stoßen:
Da diese Funktion in Beta ist, schätzen wir Ihr Feedback stark. Wenn Sie auf Probleme stoßen oder Verbesserungsvorschläge haben, bitte:
Ihre Input ist entscheidend, um diese Funktion für zukünftige Veröffentlichungen zu verfeinern und zu stabilisieren.
HINWEIS : Mit der TOR -Network -Scraping -Funktion können Sie auf Websites zugreifen und. Diese Funktion erfordert zusätzliches Setup und sollte verantwortungsbewusst und legal verwendet werden.
Cyberscraper 2077 unterstützt nun das Scraping .onion -Websites über das Tor -Netzwerk, sodass Sie sicher und anonym auf Daten aus dem dunklen Web zugreifen und sie extrahieren können. Diese Funktion eignet sich perfekt für Forscher, Sicherheitsanalysten und Ermittler, die Informationen von Tor aus versteckten Diensten sammeln müssen.
Installieren Sie TOR auf Ihrem System:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSInstallieren Sie zusätzliche Python -Pakete:
pip install PySocks requests[socks]Grundlegende Nutzung : Geben Sie einfach eine .onion -URL ein, und Cyberscraper erkennt sie automatisch über das TOR -Netzwerk:
http://example123abc.onion
Sicherheitsmerkmale :
Sie können das Tor -Scraping -Verhalten anpassen, indem Sie die folgenden Einstellungen anpassen:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Fügen Sie für Docker -Benutzer diese zusätzlichen Flags hinzu, um die TOR -Unterstützung zu ermöglichen:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Wenn Sie Probleme mit Tor Scraping stoßen:
sudo service tor status )netstat -an | grep 9050 ) überprüfentor --versionclient_secret.json um. Passen Sie die Einstellungen PlaywrightScraper so an, dass Sie Ihren Krabbungsanforderungen entsprechen. Wenn einige Websites Ihnen Probleme geben, möchten Sie möglicherweise das Verhalten der Website überprüfen:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:Passen Sie diese Einstellungen anhand Ihrer Zielwebsite und -umgebung an, um optimale Ergebnisse zu erzielen.
Sie können den Captcha auch mit dem Parameter -captcha am Ende der URL umgehen. Das Browserfenster wird angezeigt, die CAPTCHA vervollständigt und zu Ihrem Terminalfenster zurückkehren. Drücken Sie die Eingabetaste und der Bot wird seine Aufgabe erledigen.
Wir begrüßen alle Cyberpunks, Netrunners und Code Samurais, um zum Cyberscraper 2077 beizutragen!
Stürzte in der Matrix einen Fehler? Lassen Sie es mich wissen, indem Sie das Problem zu diesem Repo hinzufügen, damit wir es gemeinsam beheben können.
F: Ist Cyberscraper 2077 legal zu bedienen? A: Cyberscraper 2077 ist für ethisches Web -Scraping ausgelegt. Stellen Sie immer sicher, dass Sie das Recht haben, eine Website zu kratzen und ihre Datei robots.txt zu respektieren.
F: Kann ich das für kommerzielle Zwecke verwenden? A: Ja, unter den Bedingungen der MIT -Lizenz. Aber denken Sie daran, in der Nachtstadt gibt es immer einen Preis zu zahlen. Nur ein Scherz!
Dieses Projekt ist unter der MIT -Lizenz lizenziert - Einzelheiten finden Sie in der Lizenzdatei. Verwenden Sie es, modieren Sie es, verkaufen Sie es - beschuldigen Sie uns einfach nicht, wenn Sie flach sind.
Hast du Fragen? Benötigen Sie Unterstützung? Möchten Sie mich für einen Auftritt einstellen?
Hör zu, Choombas! Bevor Sie diesen Code in diesen Code eintauchen, verstehen Sie die Risiken besser:
Diese Software wird "wie es ist" ohne Garantie jeglicher Art bereitgestellt, ausdrücklich oder impliziert.
Die Autoren haften nicht für Schäden oder Verluste, die sich aus der Verwendung dieser Software ergeben.
Dieses Tool ist nur für Bildungs- und Forschungszwecke gedacht. Jede illegale Verwendung ist strengstens untersagt.
Wir garantieren nicht die Genauigkeit, Vollständigkeit oder Zuverlässigkeit von Daten, die durch dieses Tool erhalten wurden.
Durch die Verwendung dieser Software erkennen Sie an, dass Sie dies auf eigenes Risiko tun.
Sie sind dafür verantwortlich, alle anwendbaren Gesetze und Vorschriften bei der Verwendung dieser Software zu erfüllen.
Wir behalten uns das Recht vor, die Software jederzeit ohne vorherige Ankündigung zu ändern oder einzustellen.
Denken Sie daran, Samurai: In der dunklen Zukunft des Netzes ist Wissen Macht, aber es ist auch ein zweischneidiges Schwert. Verwenden Sie dieses Tool mit Bedacht, und kann Ihre Verbindung immer stark und Ihre Firewalls undurchdringlich sein. Bleiben Sie dort draußen in der digitalen Grenze.
Cyberscraper 2077 - Weil 2077 jemanden zu einem Verbrecher macht? Erwischt werden.
Erbaut mit ❤️ und Chrom von den Straßen der Nachtstadt | © 2077 Owen Singh