Descargar GoogleScraper - Descargar el código fuente de GoogleScraper

GoogleScraper

Otro código fuente

1.0.0

Descargar

El sucesor mantenido de Googlescraper es la infraestructura de rastreo de propósito general

Googlescraper: raspando los motores de búsqueda profesionalmente

Scrapeulf.com - Servicio de raspado

Googlescraper es una herramienta de código abierto y seguirá siendo una herramienta de código abierto en el futuro.

También el sucesor moderno de Googlescraper, la infraestructura de rastreo de propósito general, seguirá siendo de código abierto y libre.

Sin embargo, algunas personas querrían tener un servicio rápidamente que les permita raspar algunos datos de Google o cualquier otro motor de búsqueda. Por esta razón, creé el servicio web scrapeulf.com.

Cambiar de Python a JavaScript/Puppeteer

Último estado: febrero de 2019

El sucesor de Googlescraper se puede encontrar aquí

Esto significa que ya no mantendré este proyecto. Todo el desarrollo nuevo va en el proyecto anterior.

Hay varias razones por las que no continuaré haciendo mucho esfuerzo en este proyecto.

Python no es el lenguaje/marco para el raspado moderno. Nodo/javascript es. La razón es titiritero. Puppeteer es el estándar de facto para controlar y automatizar los navegadores web (especialmente Chrome). Este proyecto usa selenio. Selenium es un poco antiguo y anticuado.
El raspado en 2019 se reduce casi por completo al control de WebBrowsers. No hay más necesidad de raspar directamente en el nivel de protocolo HTTP. Es demasiado erróneo y demasiado fácil de defenderse por los mecanismos de bote de Anit. Y este proyecto aún admite solicitudes HTTP sin procesar.
El raspado debe ser paralelo en la nube o entre un conjunto de máquinas dedicadas. Googlescraper no puede manejar tales casos de uso sin un esfuerzo significativo.
Este proyecto es extremadamente erróneo.

Por esta razón, voy a continuar desarrollando una biblioteca de raspado llamada https://www.npmjs.com/package/se-scraper en JavaScript que se ejecuta encima de Puppeteer.

Puede descargar la aplicación aquí: https://www.npmjs.com/package/se-scraper

Admite una amplia gama de diferentes motores de búsqueda y es mucho más eficiente que Googlescraper. La base del código también es mucho menos compleja sin colocar/colas y capacidades de registro complejas.

Agosto/septiembre de 2018

Para preguntas, puede contactarme en mi Wegpage y escribirme un correo electrónico allí.

Este proyecto ha vuelto a vivir después de dos años de abandono. En las próximas semanas, me tomaré un tiempo para actualizar toda la funcionalidad a los desarrollos más recientes. Esto abarca la actualización de todas las reglas y cambios en el comportamiento del motor de búsqueda. Después de un par de semanas, puede esperar que este proyecto vuelva a funcionar como se documenta aquí.

Tabla de contenido

Instalación
Comienzo rápido
Modo asíncrono
Pruebas
Acerca de
Uso de la línea de comandos
Contacto

Instalación

Googlescraper está escrito en Python 3. Debe instalar al menos Python 3.6. El último gran desarrollo se realizó con Python 3.7. Entonces, cuando use Ubuntu 16.04 y Python 3.7, por ejemplo, instale Python 3 en los paquetes oficiales. Utilizo la distribución de Anaconda Python, que funciona muy bien para mí.

Además, debe instalar el navegador Chrome y también el cromedriver para el modo de selenio. Alternativamente, instale el navegador Firefox y el geckodriver para el modo Selenium. Vea las instrucciones a continuación.

También puede instalar googlescraper cómodamente con PIP:

 virtualenv --python python3 env
source env/bin/activate
pip install GoogleScraper

En este momento (septiembre de 2018) esto se desaconseja. Instale en las últimas fuentes de GitHub.

Alternativamente instalar directamente desde GitHub

A veces, las cosas más nuevas e increíbles no están disponibles en la cheeseshop (así es como llaman https://pypi.python.org/pypi/pip). Por lo tanto, tal vez desee instalar GoogleCraper desde la última fuente que reside en este repositorio de GitHub. Puedes hacerlo así:

 virtualenv --python python3 env
source env/bin/activate
pip install git+git://github.com/NikolaiT/GoogleScraper/

Tenga en cuenta que algunas características y ejemplos pueden no funcionar como se esperaba. Tampoco garantizo que la aplicación se ejecute. Solo garantizo (al menos en cierto grado) que la instalación de PIP producirá una versión utilizable.

Cromedríguico

Descargue el último ChromedRiver desde aquí: https://sites.google.com/a/chromium.org/chromedriver/downloads

Descomprima el controlador y guárdelo en algún lugar y luego actualice el chromedriver_path en el archivo de configuración de googlescraper scrape_config.py en la ruta donde guardó el controlador chromedriver_path = 'Drivers/chromedriver'

Geckodriver

Descargue el último geckodriver desde aquí: https://github.com/mozilla/geckodriver/releases

Descomprima el controlador y guárdelo en algún lugar y luego actualice el geckodriver_path en el archivo de configuración de googlescraper scrape_config.py en la ruta donde guardó el controlador geckodriver_path = 'Drivers/geckodriver'

Actualice la configuración de Selenium y Firefox/Chrome

Actualice la siguiente configuración en el archivo de configuración de googlescraper scrape_config.py a sus valores.

 # chrome driver executable path
# get chrome drivers here: https://chromedriver.storage.googleapis.com/index.html?path=2.41/
chromedriver_path = 'Drivers/chromedriver'

# geckodriver executable path
# get gecko drivers here: https://github.com/mozilla/geckodriver/releases
geckodriver_path = 'Drivers/geckodriver'

# path to firefox binary
firefox_binary_path = '/home/nikolai/firefox/firefox'

# path to chromium browser binary
chrome_binary_path = '/usr/bin/chromium-browser'

Comienzo rápido

Instalar como se describe anteriormente. Asegúrese de tener los controladores de selenio para Chrome/Firefox si desea usar GooglesCraper en modo Selenium.

Ver todas las opciones

 GoogleScraper -h

Raspe la palabra clave única "Apple" con el modo HTTP:

 GoogleScraper -m http --keyword "apple" -v info

Raspe todas las palabras clave que se encuentran en el archivo SearchData/5words en modo Selenium usando Chrome en modo sin cabeza:

 GoogleScraper -m selenium --sel-browser chrome --browser-mode headless --keyword-file SearchData/5words -v info

Raspe todas las palabras clave que están en

palabras clave.txt
con modo HTTP
Usando 5 hilos
Raspe en los motores de búsqueda Bing y Yahoo
Almacene la salida en un archivo JSON
aumentar la verbosidad al nivel de depuración

 GoogleScraper -m http --keyword-file SearchData/some_words.txt --num-workers 5 --search-engines "bing,yahoo" --output-filename threaded-results.json -v debug

Haga una búsqueda de imágenes para la palabra clave "K2 Mountain" en Google:

 GoogleScraper -s "google" -q "K2 mountain" -t image -v info

Modo asíncrono

Esta es probablemente la característica más impresionante de Googlescraper. Puede raspar con miles de solicitudes por segundo si

El motor de búsqueda no lo bloquea (Bing no me bloqueó al solicitar 100 palabras clave / segundo )
Tienes suficientes proxies

Ejemplo de modo asíncrono:

Busque las palabras clave en el archivo de palabras clave SearchData/Marketing-Models-Brands.txt en Bing y Yahoo. Por defecto, el modo asíncrono genera 100 solicitudes al mismo tiempo. Esto significa alrededor de 100 solicitudes por segundo (depende de la conexión real ...).

 GoogleScraper -s "bing,yahoo" --keyword-file SearchData/marketing-models-brands.txt -m http-async -v info -o marketing.json

Los resultados (resultados parciales, porque hubo demasiadas palabras clave para una dirección IP) pueden inspeccionarse en las salidas de archivo/marketing.json.

Prueba de googlescraper

Googlescraper es muy complejo. Debido a que Googlescraper admite muchos motores de búsqueda y el HTML y JavaScript de esos proveedores de búsqueda cambian con frecuencia, a menudo es el caso que Googlescraper deja de funcionar para algún motor de búsqueda. Para detectar esto, puede ejecutar pruebas funcionales .

Por ejemplo, la prueba a continuación ejecuta una sesión de raspado para Google y Bing y prueba que los datos recopilados se ven más o menos bien.

 python -m pytest Tests/functional_tests.py::GoogleScraperMinimalFunctionalTestCase

¿Qué sí googlescraper.py?

Googlescraper analiza los resultados del motor de búsqueda de Google (y muchos otros motores de búsqueda _ ) de manera fácil y rápida. Le permite extraer todos los enlaces encontrados y sus títulos y descripciones mediante programación, lo que le permite procesar aún más los datos raspados.

Hay escenarios de uso ilimitados:

Cosecha rápidamente masas de Dorks de Google.
Úselo como herramienta SEO.
Descubre tendencias.
Compile listas de sitios para alimentar su propia base de datos.
Muchos más casos de uso ...
Bastante fácilmente extensible ya que el código está bien documentado

En primer lugar, debe comprender que Googlescraper utiliza dos enfoques de raspado completamente diferentes :

Raspado con bibliotecas HTTP de bajo nivel como urllib.request o módulos requests . Esto simula los paquetes HTTP enviados por navegadores reales.
Raspe controlando un navegador real con el marco de Selenium

Mientras que el enfoque anterior se implementó primero, el enfoque posterior parece mucho más prometedor en comparación, porque los motores de búsqueda no tienen una manera fácil de detectarlo.

Googlescraper se implementa con las siguientes técnicas/software:

Escrito en Python 3.7
Utiliza IO multiproceso/asincrónico.
Admite raspado paralelo con múltiples direcciones IP.
Proporciona soporte de proxy utilizando los proxies de navegador Socksipy y incorporados:
- Calcetines5
- Calcetines4
- Httpproxy
Soporte para modos de búsqueda alternativos como noticias/imagen/búsqueda de video.

¿Qué motores de búsqueda se suponen?

Actualmente son compatibles con los siguientes motores de búsqueda:

Google
Aturdir
Yahoo
Yandex
Baidu
Duckduckgo

¿Cómo maximiza GooglesCraper la cantidad de información extraída por dirección IP?

El raspado es un tema crítico y altamente complejo. Google y otros gigantes de los motores de búsqueda tienen una fuerte inclinación a hacer que los raspadores la vida sean lo más difícil posible. Hay varias formas para que los proveedores de motores de búsqueda detecten que un robot está utilizando su motor de búsqueda:

El agente de usuario no es uno de un navegador.
Los parámetros de búsqueda no son idénticos a los que el navegador utilizado por un conjunto humano:
- JavaScript genera desafíos dinámicamente en el lado del cliente. Esto podría incluir heurísticas que intentan detectar el comportamiento humano. Ejemplo: solo los humanos mueven sus mouses y se ciernen sobre los interesantes resultados de búsqueda.
Los robots tienen un patrón de solicitudes estrictas (solicitudes muy rápidas, sin un tiempo aleatorio entre los paquetes enviados).
Los dorks se usan fuertemente
No se cargan imágenes/ADS/CSS/JavaScript (como lo hace normalmente un navegador), lo que a su vez no activará ciertos eventos de JavaScript

Entonces, el mayor obstáculo para abordar son los algoritmos de detección de JavaScript. No sé qué hace Google en su JavaScript, pero pronto lo investigaré más y luego decidiré si no es mejor cambiar las estrategias y cambiar a un enfoque que raspe simulando los navegadores en un entorno de navegador que puede ejecutar JavaScript. La red de cada uno de estos navegadores virtuales se proxifica y manipula de modo que se comporta como un agente de usuario físico real. Estoy bastante seguro de que debe ser posible manejar 20 de este tipo de sesiones de navegador de manera paralela sin estresar demasiado los recursos. El verdadero problema es como siempre la falta de buenos proxies ...

¿Cómo superar las dificultades del raspado de bajo nivel (HTTP)?

Como se mencionó anteriormente, hay varios inconvenientes al raspar con urllib.request o requests módulos y haciendo las redes por mi cuenta:

Los navegadores son sistemas de software enormemente complejos. Chrome tiene alrededor de 8 millones de línea de código y Firefox incluso 10 loc. Las grandes empresas invierten mucho dinero para impulsar la tecnología (HTML5, CSS3, nuevos estándares) y cada navegador tiene un comportamiento único. Por lo tanto, es casi imposible simular tal navegador manualmente con solicitudes HTTP. Esto significa que Google tiene numerosas formas de detectar anomalías e inconsistencias en el uso de la navegación. Solo la naturaleza dinámica de JavaScript hace que sea imposible raspar sin ser detectado.

Esto llora por un enfoque alternativo, que automatiza un navegador real con Python. Lo mejor sería controlar el navegador Chrome ya que Google tiene los menos incentivos para restringir las capacidades para su propio navegador nativo. Por lo tanto, necesito una forma de automatizar Chrome con Python y controlar varias instancias independientes con diferentes proxies establecidos. Entonces la salida del resultado crece linealmente con el número de proxies usados ...

Algunas tecnologías/software interesantes para hacerlo:

Selenio
Mecanizar

Explicación más detallada

Probablemente la mejor manera de usar googlescraper es usarlo desde la línea de comando y disparar un comando como el siguiente:

 GoogleScraper --keyword-file /tmp/keywords --search-engine bing --num-pages-for-keyword 3 --scrape-method selenium

Aquí Sel marca el modo de raspado como 'selenio'. Esto significa que los rascadores de googlescraper con navegadores reales. Esto es bastante poderoso, ya que puedes raspar mucho y muchos sitios (Google tiene dificultades para bloquear los navegadores reales). El argumento de Flag --keyword-file debe ser un archivo con palabras clave separadas por NewLines. Entonces: para cada línea de Google Query. Fácil, ¿no?

Además, la opción --num-pages-for-keyword significa que GooglesCraper alcanzará 3 páginas consecutivas para cada palabra clave.

Ejemplo de archivo de palabras clave:

 keyword number one
how to become a good rapper
inurl:"index.php?sl=43"
filetype:.cfg
allintext:"You have a Mysql Error in your"
intitle:"admin config"
Best brothels in atlanta

Después del raspado, tendrá automáticamente una nueva base de datos SQLITE3 en el llamado google_scraper.db en el mismo directorio. Puede abrir e inspeccionar la base de datos con el comando:

 GoogleScraper --shell

No debería ser un problema raspar 10'000 palabras clave en 2 horas . Si está realmente loco, establezca los navegadores máximos en la configuración un poco más alto (en la parte superior del archivo de script).

Si lo desea, puede especificar el Flag --proxy-file . Como argumento, debe pasar un archivo con proxies y con el siguiente formato:

 protocol proxyhost:proxyport username:password
(...)

Ejemplo:

 socks5 127.0.0.1:1080 blabla:12345
socks4 77.66.55.44:9999 elite:js@fkVA3(Va3)

En caso de que desee usar googlescraper.py en modo HTTP (lo que significa que se envían los encabezados HTTP sin procesar), úselo de la siguiente manera:

 GoogleScraper -m http -p 1 -n 25 -q "white light"

Contacto

Si tiene ganas de contactarme, hágalo y envíeme un correo. Puede encontrar mi información de contacto en mi blog.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 1.92MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo