Download scrapy scrapingbee - scrapy scrapingbee Download de código fonte

scrapy scrapingbee

Outro código-fonte

1.0.0

Baixar

Middleware de Scrapy Scrapingbee

Integre a Scrapy com a API ScrapingBee para usar navegadores sem cabeça para JavaScript e rotação de proxy. Requer criar uma conta no scrapingbee.com para obter uma chave de API.

Instalação

pip install scrapy-scrapingbee

Configuração

Adicione o seu SCRAPINGBEE_API_KEY e o ScrapingBeeMiddleware ao seu projeto Settings.py. Não se esqueça de definir CONCURRENT_REQUESTS de acordo com o seu plano ScrapingBee.

 SCRAPINGBEE_API_KEY = 'REPLACE-WITH-YOUR-API-KEY'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_scrapingbee.ScrapingBeeMiddleware' : 725 ,
}

CONCURRENT_REQUESTS = 1

Uso

Herde suas aranhas de ScrapingBeeSpider , e produza um ScrapingBeeRequest .

A sucata, substituindo o logger padrão para ocultar sua tecla API nos logs de scrapy.

Abaixo, você pode ver um exemplo da aranha em httpbin.py.

 from scrapy_scrapingbee import ScrapingBeeSpider , ScrapingBeeRequest

JS_SNIPPET = 'window.scrollTo(0, document.body.scrollHeight);'


class HttpbinSpider ( ScrapingBeeSpider ):
    name = 'httpbin'
    start_urls = [
        'https://httpbin.org' ,
    ]

    def start_requests ( self ):
        for url in self . start_urls :
            yield ScrapingBeeRequest ( url , params = {
                # 'render_js': False,
                # 'block_ads': True,
                # 'block_resources': False,
                # 'js_snippet': JS_SNIPPET,
                # 'premium_proxy': True,
                # 'country_code': 'fr',
                # 'return_page_source': True,
                # 'wait': 3000,
                # 'wait_for': '#swagger-ui',
            },
            headers = {
                # 'Accept-Language': 'En-US',
            },
            cookies = {
                # 'name_1': 'value_1',
            })

    def parse ( self , response ):
        ...

Você pode passar os parâmetros de ScrapingBee no argumento dos parâmetros de uma sucata. Cabeçalhos e cookies são passados como uma solicitação de navegação normal. Scrapingbeeerequest formato Todos os parâmetros, cabeçalhos e cookies para o formato esperado pela API ScrapingBee.

Exemplos

Adicione sua tecla API para Settings.py.

Para executar os exemplos, você precisa clonar este repositório. No seu terminal, vá para examples/httpbin/httpbin e execute o exemplo de aranha com:

scrapy crawl httpbin

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-22
tamanho 12.22KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos