開源web知識圖譜項目
- 爬取百度百科中文頁面
- 解析三元組和網頁內容
- 構建中文知識圖譜
- 構建百科bot(構建中)
update 20200720
Windows上的部署參考如何在Windows上部署,感謝LMY-nlp0701!
update 20191121
- 遷移代碼到爬蟲框架scrapy
- 優化了抽取部分代碼
- 數據持久化遷移到mongodb
- 修復chatbot失效問題
- 開放neo4j後台界面,可以查看知識圖譜成型效果
Tips
- 如果是項目問題,請提issue。
- 如果涉及到不方便公開的,請發郵件。
- ChatBot請訪問鏈接
- 成型的百科知識圖譜訪問鏈接,用戶名:neo4j,密碼:123。效果如下:

環境
- python 3.6
- re:url正則匹配
- scrapy:網頁爬蟲和網頁解析
- neo4j:知識圖譜圖數據庫,安裝可以參考鏈接
- pip install neo4j-driver:neo4j python驅動
- pip install pymongodb:mongodb的python支持
- mongodb數據庫:安裝參考鏈接
代碼執行:
cd WEB_KG/baike
scrapy crawl baike
執行界面(按ctrl+c停止): 
知識圖譜效果圖

mongodb存儲的網頁內容

mongodb存儲的三元組

neo4j後台界面
