scrapy scrapingbee下载 - scrapy scrapingbee源代码下载

scrapy scrapingbee

其他源码

1.0.0

下载

刮擦刮擦中间件

将零食与刮擦API集成，以使用无头浏览器进行JavaScript和代理旋转。需要在scrapingbee.com上创建一个帐户以获取API密钥。

安装

pip install scrapy-scrapingbee

配置

将您的SCRAPINGBEE_API_KEY和ScrapingBeeMiddleware添加到项目设置。不要忘记根据您的刮擦计划设置CONCURRENT_REQUESTS 。

 SCRAPINGBEE_API_KEY = 'REPLACE-WITH-YOUR-API-KEY'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_scrapingbee.ScrapingBeeMiddleware' : 725 ,
}

CONCURRENT_REQUESTS = 1

用法

继承蜘蛛从ScrapingBeeSpider并产生ScrapingBeeRequest 。

ScrapingBeaspider覆盖默认记录仪，以将您的API密钥隐藏在零件日志中。

在下面，您可以在httpbin.py中的蜘蛛中看到一个示例。

 from scrapy_scrapingbee import ScrapingBeeSpider , ScrapingBeeRequest

JS_SNIPPET = 'window.scrollTo(0, document.body.scrollHeight);'


class HttpbinSpider ( ScrapingBeeSpider ):
    name = 'httpbin'
    start_urls = [
        'https://httpbin.org' ,
    ]

    def start_requests ( self ):
        for url in self . start_urls :
            yield ScrapingBeeRequest ( url , params = {
                # 'render_js': False,
                # 'block_ads': True,
                # 'block_resources': False,
                # 'js_snippet': JS_SNIPPET,
                # 'premium_proxy': True,
                # 'country_code': 'fr',
                # 'return_page_source': True,
                # 'wait': 3000,
                # 'wait_for': '#swagger-ui',
            },
            headers = {
                # 'Accept-Language': 'En-US',
            },
            cookies = {
                # 'name_1': 'value_1',
            })

    def parse ( self , response ):
        ...