scrapy
1.0.0
爬蟲部分爬蟲使用scrapy框架,爬取遼寧工程技術大學的新聞網。 scrapy框架分主要部分說明:
搜索引擎部分搜索引擎整體思路:將所存儲到數據庫中的標題進行分詞,建立關鍵詞的索引。其次,根據關鍵詞的出現頻率,建立關鍵字和出現次數的索引表。 主要文件說明:
forwardIndexTableItem ,指定表中數組內容,在前向表類forwardIndexTable中,進行標題的分詞並儲存數據庫表中。注意點和不足:
scrapy crawl Intu