該存儲庫包含Spacy NLP庫的模型版本。有關如何下載,安裝和使用模型的更多信息,請參見模型文檔。
配x 重要說明:由於模型可以很大,並且主要由二進制數據組成,因此我們不能簡單地將它們作為github存儲庫中的文件提供。相反,我們選擇將它們添加到.whl和.tar.gz文件中。這使我們仍然可以保持公共發布歷史記錄。
要安裝特定模型,請使用模型名稱運行以下命令(例如en_core_web_sm ):
python -m spacy download [model]對於Spacy V1.X模型,請參見此處。
通常,Spacy希望所有模型軟件包都遵循[lang]_[name]的命名約定。對於我們提供的管道,我們將名稱分為三個組成部分:
core :具有標記,解析,誘餌和命名實體識別的通用模型dep :只有標記,解析和檸檬酸ent :僅命名實體識別sent :僅句子分段web用於Web文本, news新聞文本)sm :沒有單詞向量md :降低單詞矢量表,帶有20k獨特的向量,用於〜500K單詞lg :帶有〜500K條目的大單詞矢量表例如, en_core_web_md是一種中型英語模型,在書面網絡文本(博客,新聞,評論)上訓練,其中包括標記器,依賴項解析器,lemmatizer,lemmatizer,一個命名實體識別器和具有20K獨特矢量的字矢量表。
此外,模型版本控制既反映了與Spacy的兼容性,又反映了模型版本。模型版本abc轉化為:
a : Spacy主要版本。例如, 2用於Spacy V2.x。b : Spacy次要版本。例如, 3用於Spacy v2.3.x。c :模型版本。不同的模型配置:例如,對不同的數據,不同的參數,不同數量的迭代,具有不同的向量等的培訓。有關詳細的兼容性概述,請參見compatibility.json 。這也是Spacy內部兼容性檢查的來源,當您運行download命令時執行。
如果您使用的是舊版本(v1.6.0或以上),則仍然可以使用python -m spacy.en.download all python -m spacy.de.download all並安裝舊型號。 .tar.gz檔案也附在v1.6.0版本上。要手動下載並安裝模型,請解開存檔,將包含的目錄放入spacy/data中,然後通過spacy.load('en')或spacy.load('de')加載模型。
為了提高透明度並使與您自己的型號一起使用Spacy變得更加易於使用,所有數據現在均以直接下載為單個版本的直接下載提供。 Spacy 1.7還支持安裝和加載模型作為Python軟件包。現在,您可以選擇要保留數據文件的方法和地點,並設置“快捷鏈接”以按名稱從Spacy中加載模型。有關此信息的更多信息,請參見新的模型文檔。
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl要加載模型,請使用spacy.load()與模型名稱,快捷方式鏈接或模型數據目錄的路徑。
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )您也可以通過其全名直接import模型,然後在沒有參數的情況下調用其load()方法。這也適用於先前版本的Spacy型號。
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )在某些情況下,您可能更喜歡手動下載數據,例如將其放入自定義目錄中。您可以通過瀏覽器從最新版本下載模型,也可以使用存檔文件的URL配置自己的下載腳本。存檔由一個模型目錄組成,該目錄包含另一個帶有模型數據的目錄。
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component data有關更多信息和示例,請查看模型文檔。
| 日期 | 模型 | 版本 | dep | 恩特 | vec | 尺寸 | 執照 | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | x | x | x | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | x | x | 1.33 GB | cc by-nc | |||
2017-03-21 | en_core_web_md | 1.2.1 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | x | x | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | x | x | x | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | x | x | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | x | x | x | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | x | 727 MB | CC BY-SA |
core ,或僅用於詞彙,語法和實體的depent )web用於Web文本, news新聞文本)sm , md或lg )例如, en_depent_web_md是一種中型英語模型,在書面網絡文本(博客,新聞,評論)上訓練,其中包括詞彙,語法和實體。
要報告模型的問題,請在Spacy問題跟踪器上打開一個問題。請注意,沒有模型是完美的。由於模型是統計的,因此他們的預期行為將始終包括一些錯誤。但是,特定的錯誤可能表明培訓功能提取或優化代碼更深的問題。如果您遇到模型性能看起來可疑的模式,請提交報告。