scrapy下載 - scrapy源代碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>其他源碼

scrapy

其他源碼

1.0.0

下載

簡易版站內搜索

基於校內新聞搜索引擎

實現思路：將校園網的全部新聞爬取下來，存儲到MySQL數據庫，然後對數據庫中的標題進行分詞，然後將分詞結果做成索引表。輸入一個查詢內容，對查詢內容進行分詞，與數據庫中的分詞表進行匹配，映射出對應的URL，然後返回結果。

開發環境

Python3.6
mysql 5.4

依賴庫

pymysql：python與MySQL的接口
jieba ：分詞的python庫

整體架構

爬蟲部分爬蟲使用scrapy框架，爬取遼寧工程技術大學的新聞網。 scrapy框架分主要部分說明：
- IntuSpider.py文件：網頁信息的主要提取過程，使用嵌套循環調用，採用深度優先算法進行遞歸調用，解析遼工大的所有html新聞頁面，提取所需要的信息(標題、url),保存到item對像中，該框架會進一步調用pipeline.py文件對所存對象處理。爬蟲所用的解析方式是xpath
- items.py 定義需要爬取的對象。
- pipeline.py 將保存的對象通過mysql接口，存儲到mysql數據庫中，數據庫字段內容分別是title和url。其他文件都是一些配置文件，並且幾乎沒有進行改動，改動地點都註釋了。爬蟲部分到此結束。
搜索引擎部分搜索引擎整體思路：將所存儲到數據庫中的標題進行分詞，建立關鍵詞的索引。其次，根據關鍵詞的出現頻率，建立關鍵字和出現次數的索引表。主要文件說明：
- Intu.py: 數據庫建表，取爬蟲爬取到的數據，進行分詞，分別存儲到前向表和後向表。
- forward.py: 前向表，定義類組件forwardIndexTableItem ,指定表中數組內容，在前向表類forwardIndexTable中，進行標題的分詞並儲存數據庫表中。
- lexicon:分詞，定義操作：通過單詞獲取其ID、通過ID獲取單詞，建立分詞表、載入分詞表；
- backwardList：後向表，處理前向表中的數據，主要功能是通過前向表中的內容，將單詞的id和新聞標題的docID，還有其集合存儲在數據庫中。
- seachEngine: 搜索引擎類，直接運行此文件，可以通過查詢你輸入的單詞，返回對應的標題和url。其核心也是對所輸入的內容進行分詞，然後根據關鍵詞，對命中關鍵詞的個數的多少，排序對應的標題，然後打印前10行。
注意點和不足：
1. 首先，該爬蟲是靜態的，其數據在爬取完一次後，存儲到數據庫，不能根據網頁的變動實時更新。如果數據庫中有重複標題，插入數據會失敗。需要清除表在重新爬取。
2. 數據庫內容是固定的，搜索的時候，如果關鍵字在數據庫中沒有索引，其將沒有搜索結果。
3. 搜索的命中率跟結巴分詞的準確性是相關的，爬蟲的效率不是很高，3W條數據爬了將近5個小時。爬取的時候，其網頁的佈局很清除，我爬取的新聞沒有重複的，所有專門的url去重算法，只是為了防止重複數據的出現，用了python的列表進行去重。
4. 未來可能補一個網頁，通過網頁站點進行搜索，做一個網頁界面出來。
5. 爬蟲跟搜索是獨立的，其他的新聞網也是可以爬取的，只需該爬蟲部分就行。

使用方法

依賴環境準備：python3的環境,scrapy的框架,pymysql安裝，jieba分詞庫的安裝,mysql的安裝，mysql建立mytable數據庫,建立intu數據表。
先git clone 到指定目錄
在windows下開啟控制台，進入對應文件夾,輸入scrapy crawl Intu
等待爬取結果，爬取完畢結束。
運行seachEngine.py文件，輸入你查詢的文字內容

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-13
大小 13.68KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部