Descarga chad - Descargar el código fuente chad

Chad

Busque en Google Dorks como Chad. Basado en Ivan-Sincek/Nagooglesearch.

Probado en Kali Linux V2024.2 (64 bits).

Hecho con fines educativos. ¡Espero que ayude!

Planes futuros:

Extractor de Chad:
- Compruebe si el navegador sin cabeza de Chromium de dramaturgo está instalado o no,
- Agregar opción para detener la limitación de la velocidad,
- Encuentra una manera de omitir la autenticación. Muro para linkedin-user .

Tabla de contenido

Cómo instalar
- Instalar dramaturgo y cromo
- Instalación estándar
- Construir e instalar desde la fuente
El más corto posible
Descarga de archivos
Extractor de chad
Secuestro de enlaces rotos
- Sitio único
- Múltiples sitios
- Analizar el informe
- Limitación de tasas
Uso
Imágenes

Cómo instalar

Instalar dramaturgo y cromo

pip3 install --upgrade playwright

playwright install chromium

Asegúrese de que cada vez que actualice su dependencia del dramaturgo para volver a instalar el cromo; De lo contrario, puede recibir un error usando el navegador sin cabeza en Chad Extractor.

Instalación estándar

pip3 install --upgrade google-chad

Construir e instalar desde la fuente

git clone https://github.com/ivan-sincek/chad && cd chad

python3 -m pip install --upgrade build

python3 -m build

python3 -m pip install dist/google_chad-7.0-py3-none-any.whl

El más corto posible

chad -q ' intitle:"index of /" intext:"parent directory" '

Descarga de archivos

¿Dijiste Metagoofil?

mkdir downloads

chad -q " ext:pdf OR ext:docx OR ext:xlsx OR ext:pptx " -s * .example.com -tr 200 -dir downloads

La función de descarga de archivos de Chad se basa en la dependencia de las solicitudes de Python.

Extractor de chad

Chad Extractor es una herramienta poderosa basada en el rastreador web de Scrapy y el navegador sin cabeza de Chromium de dramaturgo, diseñado para raspar eficientemente el contenido web; A diferencia de la dependencia de las solicitudes de Python, que no puede representar HTML codificado por JavaScript y es fácilmente bloqueado por soluciones anti-Bot.

Principalmente, Chad Extractor está diseñado para extraer y validar datos de los archivos de resultados Chad. Sin embargo, también se puede usar para extraer y validar datos de archivos de texto sin formato utilizando la opción -pt .

Si se usa la opción -pt , los archivos de texto sin formato se tratarán como las respuestas del servidor, y se aplicará la lógica de extracción, seguido de validación. Esto también es útil si desea volver a probar los informes anteriores de Chad Extractor, por ejemplo, mediante el uso -res report.json -pt -o retest.json .

Secuestro de enlaces rotos

Prepare el archivo de Google Dorks como Social_Media_Dorks.txt:

 intext:"t.me/"
intext:"discord.com/invite/" OR intext:"discord.gg/invite/"
intext:"youtube.com/c/" OR intext:"youtube.com/channel/"
intext:"twitter.com/" OR intext:"x.com/"
intext:"facebook.com/"
intext:"instagram.com/"
intext:"tiktok.com/"
intext:"linkedin.com/in/" OR intext:"linkedin.com/company/"

Prepare la plantilla como archivo social_media_template.json:

{
   "telegram" :{
      "extract" : " t \ .me \ /(?:(?!(?:share)(?:(?: \ /| \ ?| \\ | " | \ <)*$|(?: \ /| \ ?| \\ | \" | \ <)[ \ s \ S]))[ \ w \ d \ . \ _ \ - \ + \ @]+)(?<! \ .) " ,
      "extract_prepend" : " https:// " ,
      "validate" : " <meta property= " og:title " content= " Telegram: Contact .+? " > "
   },
   "discord" :{
      "extract" : " discord \ .(?:com|gg) \ /invite \ /[ \ w \ d \ . \ _ \ - \ + \ @]+(?<! \ .) " ,
      "extract_prepend" : " https:// " ,
      "validate" : " Invite Invalid " ,
      "validate_browser" : true ,
      "validate_browser_wait" : 6
   },
   "youtube" :{
      "extract" : " youtube \ .com \ /(?:c|channel) \ /[ \ w \ d \ . \ _ \ - \ + \ @]+(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "validate" : " <iframe.+?src= "\ /error \ ?src=404.+? " > " ,
      "validate_cookies" :{
         "SOCS" : " CAESEwgDEgk2OTk3ODk2MzcaAmVuIAEaBgiAn5S6Bg "
      }
   },
   "twitter" :{
      "extract" : " (?<=(?<!pic \ .)twitter|(?<!pic \ .)x) \ .com \ /(?:(?!(?:[ \ w]{2} \ /)*(?:explore|hashtag|home|i|intent|library|media|personalization|privacy|search|share|tos|widgets \ .js)(?:(?: \ /| \ ?| \\ | " | \ <)*$|(?: \ /| \ ?| \\ | \" | \ <)[ \ s \ S]))[ \ w \ d \ . \ _ \ - \ + \ @]+)(?<! \ .) " ,
      "extract_prepend" : " https://x " ,
      "validate" : " This account doesn.?t exist " ,
      "validate_browser" : true ,
      "validate_cookies" :{
         "night_mode" : " 2 "
      }
   },
   "facebook" :{
      "extract" : " facebook \ .com \ /(?:(?!(?:about|dialog|gaming|groups|public|sharer|share \ .php|terms \ .php)(?:(?: \ /| \ ?| \\ | " | \ <)*$|(?: \ /| \ ?| \\ | \" | \ <)[ \ s \ S]))[ \ w \ d \ . \ _ \ - \ + \ @]+)(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "validate" : " This (?:content|page) isn't available " ,
      "validate_browser" : true
   },
   "instagram" :{
      "extract" : " instagram \ .com \ /(?:(?!(?:about|accounts|ar|explore|p)(?:(?: \ /| \ ?| \\ | " | \ <)*$|(?: \ /| \ ?| \\ | \" | \ <)[ \ s \ S]))[ \ w \ d \ . \ _ \ - \ + \ @]+)(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "extract_append" : " / " ,
      "validate" : " Sorry, this page isn't available \ . " ,
      "validate_browser" : true
   },
   "tiktok" :{
      "extract" : " (?<!vt \ .)tiktok \ .com \ / \ @[ \ w \ d \ . \ _ \ - \ + \ @]+(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "validate" : " Couldn't find this account "
   },
   "linkedin-company" :{
      "extract" : " linkedin \ .com \ /company \ /[ \ w \ d \ . \ _ \ - \ + \ @ \ &]+(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "validate" : " Page not found " ,
      "validate_cookies" :{
         "bcookie" : " v=2 " ,
         "lang" : " v=2&lang=en-us "
      }
   },
   "linkedin-user" :{
      "extract" : " linkedin \ .com \ /in \ /[ \ w \ d \ . \ _ \ - \ + \ @ \ &]+(?<! \ .) " ,
      "extract_prepend" : " https://www. " ,
      "validate" : " An exact match for .+ could not be found \ . "
   }
}

Asegúrese de que sus expresiones regulares devuelvan solo un grupo de captura, por ejemplo, [1, 2, 3, 4] ; y no un Touple, por ejemplo, [(1, 2), (3, 4)] .

Asegúrese de escapar correctamente de la expresión regular símbolos específicos en su archivo de plantilla, por ejemplo, asegúrese de escapar del punto . como \. , y hacia adelante Slash / como \/ , etc.

Todas las búsquedas de expresión regulares son insensibles a los casos.

El contenido web obtenido de las URL en los archivos de resultados de Chad se igualará con todas las expresiones regulares (definidas por los atributos extract ) en el archivo de plantilla para encontrar la mayor cantidad de datos relevantes como sea posible.

Para extraer datos sin validación, simplemente omita los atributos validate del archivo de plantilla según sea necesario.

Alcance	Nombre	Tipo	Requerido	Descripción
extracción	extracto	stri	Sí	Consulta de expresión regular.
extracción	Extract_prepent	stri	No	Cadena para prever a todos los datos extraídos.
extracción	Extract_append	stri	No	Cadena para agregar a los datos extraídos.
validación	validar	stri	No	Consulta de expresión regular.
validación	validate_browser	bool	No	Si usar el navegador sin cabeza o no.
validación	validate_browser_wait	flotar	No	El tiempo de espera en segundos antes de obtener el contenido de la página del navegador sin cabeza.
validación	validate_headers	dict [str, str]	No	Los encabezados de solicitud HTTP en formato de valor clave. Se ignora el encabezado `Cookie` .
validación	validate_cookies	dict [str, str]	No	HTTP Solicitar cookies en formato de valor clave.

Tabla 1 - Atributos de plantilla

Sitio único

chad -q social_media_dorks.txt -s * .example.com -tr 200 -pr 100 -o results.json

chad-extractor -t social_media_template.json -res results.json -o report.json

Múltiples sitios

site: los dominios / sites.txt como archivo.

 *.example.com
*.example.com -www

Correr:

mkdir chad_results

IFS= $' n ' ; count=0 ; for site in $( cat sites.txt ) ; do count= $(( count + 1 )) ; echo " # ${count} | ${site} " ; chad -q social_media_dorks.txt -s " ${site} " -tr 200 -pr 100 -o " chad_results/results_ ${count} .json " ; done

chad-extractor -t social_media_template.json -res chad_results -o report.json -v

Analizar el informe

Verifique manualmente si las URL de las redes sociales rotas en results[summary][validated] son vulnerables a la adquisición:

{
   "started_at" : " 2023-12-23 03:30:10 " ,
   "ended_at" : " 2023-12-23 04:20:00 " ,
   "summary" :{
      "validated" :[
         " https://t.me/does_not_exist " // might be vulnerable to takeover
      ],
      "extracted" :[
         " https://discord.com/invite/exists " ,
         " https://t.me/does_not_exist " ,
         " https://t.me/exists "
      ]
   },
   "failed" :{
      "validation" :[],
      "extraction" :[]
   },
   "full" :[
      {
         "url" : " https://example.com/about " ,
         "results" :{
            "telegram" :[
               " https://t.me/does_not_exist " ,
               " https://t.me/exists "
            ],
            "discord" :[
               " https://discord.com/invite/exists "
            ]
         }
      }
   ]
}

Limitación de tasas

El período de enfriamiento de Google puede variar de unas pocas horas a un día entero.

Para evitar alcanzar los límites de velocidad de Google con Chad, aumente el sueño mínimo y máximo entre las consultas y/o páginas de Google; o usar poderes gratuitos o pagados. Sin embargo, los proxies gratuitos a menudo están bloqueados e inestables.

Para descargar una lista de proxies gratuitos, ejecute:

curl -s ' https://proxylist.geonode.com/api/proxy-list?limit=50&page=1&sort_by=lastChecked&sort_type=desc ' -H ' Referer: https://proxylist.geonode.com/ ' | jq -r ' .data[] | "(.protocols[])://(.ip):(.port)" ' > proxies.txt

Si está utilizando proxies, es posible que desee aumentar el tiempo de espera de la solicitud, ya que las respuestas necesitarán más tiempo para llegar.

Además, para evitar los límites de velocidad de presentación en plataformas como las de Instagram mientras usa el extractor Chad, considere disminuir el número de solicitudes concurrentes por dominio y aumentar los tiempos de sueño y espera.

Uso

 Chad v7.0 ( github.com/ivan-sincek/chad )

Usage:   chad -q queries     [-s site         ] [-x proxies    ] [-o out         ]
Example: chad -q queries.txt [-s *.example.com] [-x proxies.txt] [-o results.json]

DESCRIPTION
    Search Google Dorks like Chad
QUERIES
    File containing Google Dorks or a single query to use
    -q, --queries = queries.txt | intext:password | "ext:tar OR ext:zip" | etc.
SITE
    Domain[s] to search
    -s, --site = example.com | sub.example.com | *.example.com | "*.example.com -www" | etc.
TIME
    Get results not older than the specified time in months
    -t, --time =  6 | 12 | 24 | etc.
TOTAL RESULTS
    Total number of unique results
    Default: 100
    -tr, --total-results = 200 | etc.
PAGE RESULTS
    Number of results per page - capped at 100 by Google
    Default: randint(70, 100)
    -pr, --page-results = 50 | etc.
MINIMUM QUERIES
    Minimum sleep time in seconds between Google queries
    Default: 75
    -min-q, --minimum-queries = 120 | etc.
MAXIMUM QUERIES
    Maximum sleep time between Google queries
    Default: minimum + 50
    -max-q, --maximum-queries = 180 | etc.
MINIMUM PAGES
    Minimum sleep time between Google pages
    Default: 15
    -min-p, --minimum-pages = 30 | etc.
MAXIMUM PAGES
    Maximum sleep time between Google pages
    Default: minimum + 10
    -max-p, --maximum-pages = 60 | etc.
USER AGENTS
    User agents to use
    Default: random-all
    -a, --user-agents = user_agents.txt | random(-all) | curl/3.30.1 | etc.
PROXIES
    File containing web proxies or a single web proxy to use
    -x, --proxies = proxies.txt | http://127.0.0.1:8080 | etc.
DIRECTORY
    Downloads directory
    All downloaded files will be saved in this directory
    -dir, --directory = downloads | etc.
THREADS
    Number of files to download in parallel
    Default: 5
    -th, --threads = 20 | etc.
OUT
    Output file
    -o, --out = results.json | etc.
NO SLEEP ON START
    Disable the safety feature to prevent triggering rate limits by accident
    -nsos, --no-sleep-on-start
DEBUG
    Enable debug output
    -dbg, --debug

 Chad Extractor v7.0 ( github.com/ivan-sincek/chad )

Usage:   chad-extractor -t template      -res results      -o out         [-s sleep] [-rs random-sleep]
Example: chad-extractor -t template.json -res chad_results -o report.json [-s 1.5  ] [-rs             ]

DESCRIPTION
    Extract and validate data from Chad results or plaintext files
TEMPLATE
    File containing extraction and validation details
    -t, --template = template.json | etc.
RESULTS
    Directory containing Chad results or plaintext files, or a single file
    If a directory is specified, files ending with '.report.json' will be ignored
    -res, --results = chad_results | results.json | urls.txt | etc.
PLAINTEXT
    Treat all the results as plaintext files / server responses
    -pt, --plaintext
EXCLUDES
    File containing regular expressions or a single regular expression to exclude content from the page
    Applies only for extraction
    -e, --excludes = regexes.txt | "<div id="seo">.+?</div>" | etc.
PLAYWRIGHT
    Use Playwright's headless browser
    Applies only for extraction
    -p, --playwright
PLAYWRIGHT WAIT
    Wait time in seconds before fetching the page content
    Applies only for extraction
    -pw, --playwright-wait = 0.5 | 2 | 4 | etc.
CONCURRENT REQUESTS
    Number of concurrent requests
    Default: 15
    -cr, --concurrent-requests = 30 | 45 | etc.
CONCURRENT REQUESTS PER DOMAIN
    Number of concurrent requests per domain
    Default: 5
    -crd, --concurrent-requests-domain = 10 | 15 | etc.
SLEEP
    Sleep time in seconds between two consecutive requests to the same domain
    -s, --sleep = 1.5 | 3 | etc.
RANDOM SLEEP
    Randomize the sleep time between requests to vary between '0.5 * sleep' and '1.5 * sleep'
    -rs, --random-sleep
AUTO THROTTLE
    Auto throttle concurrent requests based on the load and latency
    Sleep time is still respected
    -at, --auto-throttle = 0.5 | 10 | 15 | 45 | etc.
RETRIES
    Number of retries per URL
    Default: 2
    -r, --retries = 0 | 4 | etc.
REQUEST TIMEOUT
    Request timeout in seconds
    Default: 60
    -rt, --request-timeout = 30 | 90 | etc.
USER AGENTS
    User agents to use
    Default: random-all
    -a, --user-agents = user_agents.txt | random(-all) | curl/3.30.1 | etc.
PROXY
    Web proxy to use
    -x, --proxy = http://127.0.0.1:8080 | etc.
OUT
    Output file
    -o, --out = report.json | etc.
VERBOSE
    Create additional supporting output files that end with '.report.json'
    -v, --verbose
DEBUG
    Enable debug output
    -dbg, --debug