该存储库包含Spacy NLP库的模型版本。有关如何下载,安装和使用模型的更多信息,请参见模型文档。
配x 重要说明:由于模型可以很大,并且主要由二进制数据组成,因此我们不能简单地将它们作为github存储库中的文件提供。相反,我们选择将它们添加到.whl和.tar.gz文件中。这使我们仍然可以保持公共发布历史记录。
要安装特定模型,请使用模型名称运行以下命令(例如en_core_web_sm ):
python -m spacy download [model]对于Spacy V1.X模型,请参见此处。
通常,Spacy希望所有模型软件包都遵循[lang]_[name]的命名约定。对于我们提供的管道,我们将名称分为三个组成部分:
core :具有标记,解析,诱饵和命名实体识别的通用模型dep :只有标记,解析和柠檬酸ent :仅命名实体识别sent :仅句子分段web用于Web文本, news新闻文本)sm :没有单词向量md :降低单词矢量表,带有20k独特的向量,用于〜500K单词lg :带有〜500K条目的大单词矢量表例如, en_core_web_md是一种中型英语模型,在书面网络文本(博客,新闻,评论)上训练,其中包括标记器,依赖项解析器,lemmatizer,lemmatizer,一个命名实体识别器和具有20K独特矢量的单词向量表。
此外,模型版本控制既反映了与Spacy的兼容性,又反映了模型版本。模型版本abc转化为:
a : Spacy主要版本。例如, 2用于Spacy V2.x。b : Spacy次要版本。例如, 3用于Spacy v2.3.x。c :模型版本。不同的模型配置:例如,对不同的数据,不同的参数,不同数量的迭代,具有不同的向量等的培训。有关详细的兼容性概述,请参见compatibility.json 。这也是Spacy内部兼容性检查的来源,当您运行download命令时执行。
如果您使用的是旧版本(v1.6.0或以上),则仍然可以使用python -m spacy.en.download all python -m spacy.de.download all并安装旧型号。 .tar.gz档案也附在v1.6.0版本上。要手动下载并安装模型,请解开存档,将包含的目录放入spacy/data中,然后通过spacy.load('en')或spacy.load('de')加载模型。
为了提高透明度并使与您自己的型号一起使用Spacy变得更加易于使用,所有数据现在均以直接下载为单个版本的直接下载提供。 Spacy 1.7还支持安装和加载模型作为Python软件包。现在,您可以选择要保留数据文件的方法和地点,并设置“快捷链接”以按名称从Spacy中加载模型。有关此信息的更多信息,请参见新的模型文档。
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl要加载模型,请使用spacy.load()与模型名称,快捷方式链接或模型数据目录的路径。
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )您也可以通过其全名直接import模型,然后在没有参数的情况下调用其load()方法。这也适用于先前版本的Spacy型号。
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )在某些情况下,您可能更喜欢手动下载数据,例如将其放入自定义目录中。您可以通过浏览器从最新版本下载模型,也可以使用存档文件的URL配置自己的下载脚本。存档由一个模型目录组成,该目录包含另一个带有模型数据的目录。
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component data有关更多信息和示例,请查看模型文档。
| 日期 | 模型 | 版本 | dep | 恩特 | vec | 尺寸 | 执照 | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | x | x | x | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | x | x | 1.33 GB | cc by-nc | |||
2017-03-21 | en_core_web_md | 1.2.1 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | x | x | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | x | x | x | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | x | x | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | x | x | x | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | x | 727 MB | CC BY-SA |
core ,或仅用于词汇,语法和实体的depent )web用于Web文本, news新闻文本)sm , md或lg )例如, en_depent_web_md是一种中型英语模型,在书面网络文本(博客,新闻,评论)上训练,其中包括词汇,语法和实体。
要报告模型的问题,请在Spacy问题跟踪器上打开一个问题。请注意,没有模型是完美的。由于模型是统计的,因此他们的预期行为将始终包括一些错误。但是,特定的错误可能表明培训功能提取或优化代码更深的问题。如果您遇到模型性能看起来可疑的模式,请提交报告。