為SpaCy 提供的中文數據模型. 模型目前還處於beta 公開測試的狀態。
基於Jupyter notebook 的在線演示在。
部分王小明在北京的清华大学读书這個Doc對象的屬性信息:

部分王小明在北京的清华大学读书這個Doc對象的NER 信息:

模型用二進製文件的形式進行分發, 用戶應該具備基礎的SpaCy (version > 2) 的基礎知識.
Python 3 (也許支持python2, 但未經過良好測試)
從releases 頁面下載模型( New!為中國地區的用戶提供了加速下載的鏈接)。假設所下載的模型名為zh_core_web_sm-2.xxtar.gz 。
pip install zh_core_web_sm-2.x.x.tar.gz
為了方便後續在Rasa NLU 等框架中使用,需要再為這個模型建立一個鏈接,by 執行以下命令:
spacy link zh_core_web_sm zh運行完成後就可以使用zh 這個別名來訪問這個模型了。
Demo 代碼位於test.py . 在安裝好模型後,用戶下載或者克隆本倉庫的代碼,然後可以直接執行
python3 ./test.py打開地址http://127.0.0.1:5000 , 將看到如下:

見workflow
本項目使用的語料庫是OntoNotes 5.0。
由於OntoNotes 5.0 是LDC (Linguistic Data Consortium) 的版權材料,無法直接包含在本項目中。好消息是,OntoNotes 5.0 對於團體用戶(包含企業和學術組織)是完全免費的。用戶可以建立一個企業或者學術組織賬號,然後免費獲取OntoNotes 5.0。
pos_不正確. 這個和SpaCy 中中文語言Class 相關。shape_ and is_alpha似乎對中文並無意義, 但需要權威信息確認一下.is_stop不正確. 這個和SpaCy 中中文語言Class 相關。vector似乎沒有訓練的很好。is_oov完全錯誤. 第一優先級修復。請閱讀CONTRIBUTING.md , 然後提交pull requests 給我們.
我們使用SemVer 做版本化的標準. 查看tags以了解所有的版本.
更多貢獻者信息,請參考contributors .
MIT License - 詳見LICENSE.md