RIP Données du net, ne laissant aucune trace. Bienvenue dans l'avenir du grattage Web.
Cyberscraper 2077 n'est pas seulement un autre outil de grattage Web - c'est un aperçu de l'avenir de l'extraction des données. Né des rues éclairées au néon d'un monde cyberpunk, ce grattoir propulsé par l'IA utilise des modèles Openai, Gemini et Localllm pour traverser les défenses du Web, en extraisant les données dont vous avez besoin avec une précision et un style sans précédent.
Que vous soyez un analyste de données Corpo, un netrunner de la rue, ou simplement quelqu'un qui cherche à extraire des informations du domaine numérique, Cyberscraper 2077 vous a couvert.
Découvrez notre version redessinée et améliorée de Cyberscraper-2077 avec plus de fonctionnalités YouTube Video pour une procédure pas à pas complète des capacités de Cyberscraper 2077.
Découvrez notre première version (ancienne vidéo) YouTube Video
Veuillez suivre le guide Docker Container ci-dessous, car je ne pourrai pas conserver une autre version pour les systèmes Windows.
Remarque: Cyberscraper 2077 nécessite Python 3.10 ou plus.
Cloner ce référentiel:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Créer et activer un environnement virtuel:
virtualenv venv
source venv/bin/activate # OptionalInstallez les packages requis:
pip install -r requirements.txtInstallez le dramaturge:
playwright installDéfinissez la clé Openai & Gemini dans votre environnement:
Linux / Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Si vous souhaitez utiliser Olllama:
Remarque: Je recommande uniquement d'utiliser l'Openai et l'API Gemini car ces modèles sont vraiment bons pour suivre les instructions. Si vous utilisez des LLM open-source, assurez-vous d'avoir un bon système car la vitesse de la génération / présentation de données dépend de la façon dont votre système peut exécuter le LLM. Vous devrez peut-être également affiner l'invite et ajouter vous-même quelques filtres supplémentaires.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Si vous préférez utiliser Docker, suivez ces étapes pour configurer et exécuter Cyberscraper 2077:
Assurez-vous que Docker est installé sur votre système.
Cloner ce référentiel:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Construisez l'image Docker:
docker build -t cyberscraper-2077 .Exécutez le conteneur:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 Ouvrez votre navigateur et accédez à http://localhost:8501 .
Si vous souhaitez utiliser Olllama avec la configuration Docker:
Installez Olllama sur votre machine hôte en suivant les instructions sur https://ollama.com/download
Exécutez Olllama sur votre machine hôte:
ollama pull llama3.1Trouvez l'adresse IP de votre machine hôte:
ifconfig ou ip addr showipconfigExécutez le conteneur Docker avec le réseau hôte et définissez l'URL Olllama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077Sur Linux, vous devrez peut-être l'utiliser ci-dessous:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 Remplacez <your-host-ip> par votre adresse IP de machine hôte réelle.
Dans l'interface rationalisée, sélectionnez le modèle Olllama que vous souhaitez utiliser (par exemple, "Olllama: Llama3.1").
Remarque: Assurez-vous que votre pare-feu autorise les connexions au port 11434 pour Ollama.
Tirez l'application Sationlit:
streamlit run main.py Ouvrez votre navigateur et accédez à http://localhost:8501 .
Entrez l'URL du site que vous souhaitez gratter ou poser une question sur les données dont vous avez besoin.
Demandez au chatbot d'extraire les données dans n'importe quel format. Sélectionnez les données que vous souhaitez exporter ou même tout de la page Web.
Regardez les déchirures de Cyberscraper 2077 à travers le filet, en extraction de vos données plus rapidement que vous ne pouvez dire "Flatline"!
Remarque : la fonction de grattement de plusieurs pages est actuellement en version bêta. Bien que fonctionnel, vous pouvez rencontrer des problèmes occasionnels ou un comportement inattendu. Nous apprécions vos commentaires et votre patience alors que nous continuons à améliorer cette fonctionnalité.
Cyberscraper 2077 prend désormais en charge le grattage de plusieurs pages, vous permettant d'extraire des données de plusieurs pages d'un site Web en une seule fois. Cette fonctionnalité est parfaite pour gratter le contenu paginé, les résultats de recherche ou tout site avec des données réparties sur plusieurs pages.
Je vous suggère de saisir la structure de l'URL à chaque fois si vous souhaitez gratter plusieurs pages afin qu'elle puisse détecter facilement la structure de l'URL. Il détecte presque tous les types d'URL.
Utilisation de base : pour gratter plusieurs pages, utilisez le format suivant lorsque vous saisissez l'URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Cela va grattera les pages 1 à 5 du site Web.
Plages de pages personnalisées : vous pouvez spécifier des gammes de pages personnalisées:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Cela va grattera les pages 1 à 5, la page 7 et les pages 9 à 12.
Modèles d'URL : pour les sites Web avec différentes structures URL, vous pouvez spécifier un modèle:
https://example.com/search?q=cyberpunk&page={page} 1-5
Remplacez {page} par où le numéro de page doit être dans l'URL.
Détection automatique du modèle : si vous ne spécifiez pas de modèle, Cyberscraper 2077 tentera de détecter automatiquement le modèle URL. Cependant, pour de meilleurs résultats, la spécification du modèle est recommandée.
simulate_human pour un comportement de grattage plus naturel sur les sites avec des mesures anti-bot.robots.txt du site Web et les conditions d'utilisation pour assurer la conformité.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "Si vous souhaitez gratter une page spécifique, entrez simplement la requête "Veuillez gratter la page numéro 1 ou 2". Si vous souhaitez gratter toutes les pages, donnez simplement une requête comme "Stracle toutes les pages en CSV" ou quel que soit le format que vous voulez.
Si vous rencontrez des erreurs pendant le grattage de plusieurs pages:
Comme cette fonctionnalité est en version bêta, nous apprécions beaucoup vos commentaires. Si vous rencontrez des problèmes ou si vous avez des suggestions d'amélioration, veuillez:
Votre contribution est cruciale pour nous aider à affiner et à stabiliser cette fonctionnalité pour les futures versions.
Remarque : La fonction de grattement de réseau TOR vous permet d'accéder et de gratter les sites .onion. Cette fonctionnalité nécessite une configuration supplémentaire et doit être utilisée de manière responsable et légale.
Cyberscraper 2077 prend désormais en charge le grattage des sites .onion via le réseau Tor, vous permettant d'accéder et d'extraire les données de la toile sombre en toute sécurité et anonyme. Cette fonctionnalité est parfaite pour les chercheurs, les analystes de la sécurité et les enquêteurs qui ont besoin de recueillir des informations auprès des services cachés de Tor.
Installez Tor sur votre système:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSInstaller des packages Python supplémentaires:
pip install PySocks requests[socks]Utilisation de base : entrez simplement une URL .onion, et les cyberscroches le détecteront et l'ouvriront automatiquement à travers le réseau Tor:
http://example123abc.onion
Caractéristiques de sécurité :
Vous pouvez personnaliser le comportement de grattage TOR en ajustant les paramètres suivants:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Pour les utilisateurs de Docker, ajoutez ces indicateurs supplémentaires pour activer la prise en charge de TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Si vous rencontrez des problèmes avec le grattage de Tor:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json . Personnalisez les paramètres PlaywrightScraper pour répondre à vos besoins de grattage. Si certains sites Web vous donnent des problèmes, vous voudrez peut-être vérifier le comportement du site Web:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:Ajustez ces paramètres en fonction de votre site Web cible et de votre environnement pour des résultats optimaux.
Vous pouvez également contourner le captcha à l'aide du paramètre -captcha à la fin de l'URL. La fenêtre du navigateur apparaîtra, complètera le captcha et reviendra dans votre fenêtre de terminal. Appuyez sur Entrée et le bot terminera sa tâche.
Nous accueillons tous les cyberpunks, netrunners et codes samurais pour contribuer à Cyberscraper 2077!
Vous avez rencontré un problème dans la matrice? Faites-le moi savoir en ajoutant le problème à ce dépôt afin que nous puissions le réparer ensemble.
Q: Cyberscraper 2077 est-il légal à utiliser? R: Cyberscraper 2077 est conçu pour le grattage Web éthique. Assurez-vous toujours d'avoir le droit de gratter un site Web et de respecter leur fichier robots.txt.
Q: Puis-je l'utiliser à des fins commerciales? R: Oui, selon les termes de la licence du MIT. Mais rappelez-vous, dans Night City, il y a toujours un prix à payer. Je plaisante!
Ce projet est autorisé en vertu de la licence MIT - voir le fichier de licence pour plus de détails. Utilisez-le, modifiez-le, vendez-le - ne nous blâmez pas si vous vous retrouvez à plat.
Vous avez des questions? Besoin de support? Vous voulez m'engager pour un concert?
Écoutez, Choombas! Avant de vous joindre dans ce code, vous comprenez mieux les risques:
Ce logiciel est fourni "tel quel", sans garantie d'aucune sorte, express ou implicite.
Les auteurs ne sont pas responsables de tout dommage ou perte résultant de l'utilisation de ce logiciel.
Cet outil est destiné à des fins éducatives et de recherche uniquement. Toute utilisation illégale est strictement interdite.
Nous ne garantissons pas l'exactitude, l'exhaustivité ou la fiabilité des données obtenues via cet outil.
En utilisant ce logiciel, vous reconnaissez que vous le faites à vos propres risques.
Vous êtes responsable du respect de toutes les lois et réglementations applicables dans votre utilisation de ce logiciel.
Nous nous réservons le droit de modifier ou d'interrompre le logiciel à tout moment sans préavis.
Rappelez-vous, Samurai: Dans un avenir sombre du filet, la connaissance est le pouvoir, mais c'est aussi une épée à double tranchant. Utilisez à bon escient cet outil et que votre connexion soit toujours forte et vos pare-feu impénétrables. Restez givré dans la frontière numérique.
Cyberscraper 2077 - Parce qu'en 2077, qu'est-ce qui fait de quelqu'un un criminel? Se faire prendre.
Construit avec ❤️ et Chrome par les rues de Night City | © 2077 Owen Singh