RIP datos de la red, sin dejar rastro. Bienvenido al futuro del raspado web.
Cyberscraper 2077 no es solo otra herramienta de raspado web: es una idea del futuro de la extracción de datos. Nacido de las calles iluminadas por neón de un mundo cibernético, este raspador con AI utiliza modelos Operai, Gemini y Localllm para cortar las defensas de la web, extrayendo los datos que necesita con una precisión y estilo incomparables.
Ya sea que sea un analista de datos de CORPO, un Netrunner de street-smart o simplemente alguien que busca extraer información del reino digital, CybersCraper 2077 lo tiene cubierto.
Echa un vistazo a nuestra versión rediseñada y mejorada de CyberCraper-2077 con más funcionalidad de YouTube Video para un tutorial completo de las capacidades de CybersCraper 2077.
Mira nuestro primer video Build (Video Old) YouTube
Siga la guía de contenedores Docker a continuación, ya que no podré mantener otra versión para los sistemas de Windows.
Nota: CyberCraper 2077 requiere Python 3.10 o superior.
Clon este repositorio:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Crear y activar un entorno virtual:
virtualenv venv
source venv/bin/activate # OptionalInstale los paquetes requeridos:
pip install -r requirements.txtInstale el dramaturgo:
playwright installEstablezca la tecla OpenAI y Géminis en su entorno:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Si quieres usar Ollama:
Nota: Solo recomiendo usar la API Operai y Gemini, ya que estos modelos son realmente buenos para seguir las instrucciones. Si está utilizando LLM de código abierto, asegúrese de tener un buen sistema, ya que la velocidad de la generación/presentación de datos depende de qué tan bien su sistema pueda ejecutar el LLM. También es posible que deba ajustar el aviso y agregar algunos filtros adicionales usted mismo.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Si prefiere usar Docker, siga estos pasos para configurar y ejecutar CyberCraper 2077:
Asegúrese de tener Docker instalado en su sistema.
Clon este repositorio:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Construye la imagen Docker:
docker build -t cyberscraper-2077 .Ejecute el contenedor:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 Abra su navegador y navegue a http://localhost:8501 .
Si desea usar Ollama con la configuración de Docker:
Instale Ollama en su máquina host siguiendo las instrucciones en https://ollama.com/download
Ejecute Ollama en su máquina anfitriona:
ollama pull llama3.1Encuentre la dirección IP de su máquina host:
ifconfig o ip addr showipconfigEjecute el contenedor Docker con la red host y establezca la URL Ollama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077En Linux es posible que necesite usar esto a continuación:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 Reemplace <your-host-ip> con la dirección IP de su máquina host real.
En la interfaz Streamlit, seleccione el modelo Ollama que desea usar (por ejemplo, "Ollama: Llama3.1").
Nota: Asegúrese de que su firewall permita las conexiones al puerto 11434 para Ollama.
Enciende la aplicación de transmisión:
streamlit run main.py Abra su navegador y navegue a http://localhost:8501 .
Ingrese la URL del sitio que desea raspar o hacer una pregunta sobre los datos que necesita.
Pídale al chatbot que extraiga los datos en cualquier formato. Seleccione los datos que desee exportar o incluso todo desde la página web.
¡Observe cómo ciberescraper 2077 se rasga a través de la red, extrayendo sus datos más rápido de lo que puede decir "Flatline"!
Nota : La función de raspado de varias páginas está actualmente en beta. Si bien es funcional, puede encontrar problemas ocasionales o un comportamiento inesperado. Agradecemos sus comentarios y paciencia a medida que continuamos mejorando esta característica.
Cyberscraper 2077 ahora es compatible con el raspado de varias páginas, lo que le permite extraer datos de varias páginas de un sitio web de una sola vez. Esta característica es perfecta para raspar contenido paginado, resultados de búsqueda o cualquier sitio con datos repartidos en varias páginas.
Le sugiero que ingrese a la estructura de URL cada vez si desea raspar varias páginas para que pueda detectar la estructura de URL fácilmente. Detecta casi todos los tipos de URL.
Uso básico : para raspar varias páginas, use el siguiente formato al ingresar la URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Esto raspará las páginas 1 a 5 del sitio web.
Rangos de página personalizados : puede especificar rangos de página personalizados:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Esto raspará las páginas 1 a 5, página 7 y las páginas 9 a 12.
Patrones de URL : para sitios web con diferentes estructuras de URL, puede especificar un patrón:
https://example.com/search?q=cyberpunk&page={page} 1-5
Reemplace {page} con donde el número de página debe estar en la URL.
Detección automática de patrones : si no especifica un patrón, CyberCraper 2077 intentará detectar el patrón de URL automáticamente. Sin embargo, para los mejores resultados, se recomienda especificar el patrón.
simulate_human para un comportamiento de raspado más natural en sitios con medidas anti-Bot.robots.txt del sitio web y los términos de servicio para garantizar el cumplimiento.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "Si desea raspar una página específica, solo ingrese la consulta "Raspe la página número 1 o 2". Si desea raspar todas las páginas, simplemente dé una consulta como "Raspe todas las páginas en CSV" o cualquier formato que desee.
Si encuentra errores durante el raspado de varias páginas:
Como esta característica está en beta, valoramos mucho sus comentarios. Si encuentra algún problema o tiene sugerencias de mejora, por favor:
Su aporte es crucial para ayudarnos a refinar y estabilizar esta característica para futuros lanzamientos.
Nota : La función de raspado de red Tor le permite acceder y raspar los sitios .onion. Esta característica requiere una configuración adicional y debe usarse de manera responsable y legal.
Cyberscraper 2077 ahora admite sitios de desguace .onion a través de la red Tor, lo que le permite acceder y extraer datos de la web oscura de manera segura y anónima. Esta característica es perfecta para investigadores, analistas de seguridad e investigadores que necesitan recopilar información de Tor Hidden Services.
Instale el tor en su sistema:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSInstale paquetes adicionales de Python:
pip install PySocks requests[socks]Uso básico : simplemente ingrese una URL .onion, y CyberCraper lo detectará y enrutará automáticamente a través de la red Tor:
http://example123abc.onion
Características de seguridad :
Puede personalizar el comportamiento de raspado TOR ajustando la siguiente configuración:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Para los usuarios de Docker, agregue estas banderas adicionales para habilitar el soporte de TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Si encuentra problemas con el raspado TOR:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json . Personalice la configuración de PlaywrightScraper para que se ajusten a sus necesidades de raspado. Si algunos sitios web le están dando problemas, es posible que desee verificar el comportamiento del sitio web:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:Ajuste estas configuraciones en función de su sitio web y entorno objetivo para obtener resultados óptimos.
También puede omitir el captcha usando el parámetro -captcha al final de la URL. La ventana del navegador aparecerá, completará el captcha y regresará a la ventana de su terminal. Presione ENTER y el bot completará su tarea.
¡Damos la bienvenida a todos los ciberpunks, netrunners y codificamos Samurais para contribuir a Cyberscraper 2077!
Se topó con una falla en la matriz? Avíseme agregando el problema a este repositorio para que podamos arreglarlo juntos.
P: ¿Es legal usar Cyberscraper 2077? R: CyberCraper 2077 está diseñado para raspado web ético. Siempre asegúrese de tener derecho a raspar un sitio web y respetar su archivo robots.txt.
P: ¿Puedo usar esto con fines comerciales? R: Sí, bajo los términos de la licencia MIT. Pero recuerde, en Night City, siempre hay un precio que pagar. ¡Es una broma!
Este proyecto tiene licencia bajo la licencia MIT; consulte el archivo de licencia para obtener más detalles. Úselo, modérelo, véndelo, simplemente no nos culpe si termina planos.
¿Tienes preguntas? ¿Necesitas apoyo? ¿Quieres contratarme para un concierto?
¡Escucha, Choombas! Antes de aumentar este código, comprende mejor los riesgos:
Este software se proporciona "tal cual", sin garantía de ningún tipo, expresa o implícita.
Los autores no son responsables de ningún daño o pérdida resultante del uso de este software.
Esta herramienta está destinada solo a fines educativos y de investigación. Cualquier uso ilegal está estrictamente prohibido.
No garantizamos la precisión, integridad o confiabilidad de los datos obtenidos a través de esta herramienta.
Al usar este software, usted reconoce que lo está haciendo bajo su propio riesgo.
Usted es responsable de cumplir con todas las leyes y regulaciones aplicables en su uso de este software.
Nos reservamos el derecho de modificar o suspender el software en cualquier momento sin previo aviso.
Recuerde, Samurai: en el futuro oscuro de la red, el conocimiento es poder, pero también es una espada de doble filo. Use esta herramienta sabiamente, y que su conexión siempre sea fuerte y sus firewalls impenetrables. Manténgase Frosty por ahí en la frontera digital.
Cyberscraper 2077 - Porque en 2077, ¿qué hace que alguien sea un criminal? Ser atrapado.
Construido con ❤️ y Chrome en las calles de Night City | © 2077 Owen Singh