scrapy
1.0.0
爬虫部分 爬虫使用scrapy框架,爬取辽宁工程技术大学的新闻网。 scrapy框架分主要部分说明:
搜索引擎部分 搜索引擎整体思路:将所存储到数据库中的标题进行分词,建立关键词的索引。其次,根据关键词的出现频率,建立关键字和出现次数的索引表。 主要文件说明:
forwardIndexTableItem,指定表中数组内容,在前向表类forwardIndexTable中,进行标题的分词并储存数据库表中。注意点和不足:
scrapy crawl Intu