このリポジトリには、Spacy NLPライブラリのモデルのリリースが含まれています。モデルのダウンロード、インストール、使用方法の詳細については、モデルのドキュメントを参照してください。
ショ和 重要な注意:モデルは非常に大きく、主にバイナリデータで構成される可能性があるため、GitHubリポジトリ内のファイルとして単純に提供することはできません。代わりに、.whlおよび.tar.gzファイルとしてリリースするためにそれらを追加することを選択しました。これにより、公開リリースの履歴を維持することができます。
特定のモデルをインストールするには、モデル名(たとえばen_core_web_smなど)で次のコマンドを実行します。
python -m spacy download [model]Spacy V1.Xモデルについては、こちらを参照してください。
一般に、Spacyは、すべてのモデルパッケージが[lang]_[name]の命名規則に従うことを期待しています。提供されたパイプラインでは、名前を3つのコンポーネントに分けます。
core :タグ付け、解析、レンマ化、名前付きエンティティ認識を備えた汎用モデルdep :タグ付け、解析、レンマ化のみent :名前付きエンティティ認識のみsent :文のみセグメンテーションwebのWebテキスト、ニューステキストのnews )sm :単語ベクトルはありませんmd :〜500kワードの20kの一意のベクトルを備えた単語ベクトルテーブルを削減しましたlg :〜500kエントリの大きな単語ベクトルテーブルたとえば、 en_core_web_md 、書かれたWebテキスト(ブログ、ニュース、コメント)で訓練された中規模の英語モデルであり、Tagger、依存関係パーサー、lemmatizer、指名されたエンティティ認識者、20Kユニークなベクトルを備えた単語ベクトルテーブルを含む。
さらに、モデルバージョンのバージョンは、スペイシーとの互換性とモデルバージョンの両方を反映しています。 abc次のように翻訳するモデルバージョン
a :スペイシーメジャーバージョン。たとえば、Spacy V2.xの場合は2b :スペイシーマイナーバージョン。たとえば、スペイシーv2.3.xの3c :モデルバージョン。異なるモデル構成:例:異なるパラメーターで、異なる数の反復、異なるベクトルなどで、異なるデータでトレーニングされています。詳細な互換性の概要については、 compatibility.jsonを参照してください。これは、 downloadコマンドを実行するときに実行されるSPACYの内部互換性チェックのソースでもあります。
古いバージョン(v1.6.0以下)を使用している場合でも、 python -m spacy.en.download allまたはpython -m spacy.de.download allを使用して、Spacy内から古いモデルをダウンロードしてインストールできます。 .tar.gzアーカイブは、v1.6.0リリースにも添付されています。モデルを手動でダウンロードしてインストールするには、アーカイブを開梱し、含まれるディレクトリをspacy/dataにドロップし、 spacy.load('en')またはspacy.load('de')を介してモデルをロードします。
透明性を高め、独自のモデルでスペイシーを使いやすくするために、すべてのデータが直接ダウンロードとして利用可能になり、個々のリリースで編成されました。 Spacy 1.7は、モデルのインストールとロードモデルもPythonパッケージとしてサポートしています。これで、データファイルを保持する方法と場所を選択し、Spacy内から名前でモデルをロードする「ショートカットリンク」を設定できます。これの詳細については、新しいモデルのドキュメントを参照してください。
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whlモデルをロードするには、モデル名、ショートカットリンク、またはモデルデータディレクトリへのパスでspacy.load()を使用します。
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )モデルをそのフルネームで直接importから、引数なしでload()メソッドを呼び出すこともできます。これは、以前のバージョンのSPACYの古いモデルでも機能するはずです。
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )場合によっては、たとえばカスタムディレクトリに配置するなど、データを手動でダウンロードすることをお勧めします。最新のリリースからブラウザを介してモデルをダウンロードするか、アーカイブファイルのURLを使用して独自のダウンロードスクリプトを構成することができます。アーカイブは、モデルデータを含む別のディレクトリを含むモデルディレクトリで構成されています。
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component data詳細と例については、モデルのドキュメントをご覧ください。
| 日付 | モデル | バージョン | de | ent | VEC | サイズ | ライセンス | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | x | x | x | 377 MB | CC by-sa | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | x | x | 1.33 GB | CC by-nc | |||
2017-03-21 | en_core_web_md | 1.2.1 | x | x | x | 1 GB | CC by-sa | ||
2017-03-21 | en_depent_web_md | 1.2.1 | x | x | 328 MB | CC by-sa | |||
2017-03-17 | en_core_web_sm | 1.2.0 | x | x | x | 50 MB | CC by-sa | ||
2017-03-17 | en_core_web_md | 1.2.0 | x | x | x | 1 GB | CC by-sa | ||
2017-03-17 | en_depent_web_md | 1.2.0 | x | x | 328 MB | CC by-sa | |||
2016-05-10 | de_core_news_md | 1.0.0 | x | x | x | 645 MB | CC by-sa | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | x | 727 MB | CC by-sa |
core 、または語彙、構文、エンティティのみのdepent )webのWebテキスト、ニューステキストのnews )sm 、 mdまたはlg )たとえば、 en_depent_web_md 、語彙、構文、エンティティを含む、書かれたWebテキスト(ブログ、ニュース、コメント)でトレーニングされた中規模の英語モデルです。
モデルの問題を報告するには、Spacy Issue Trackerの問題を開きます。完璧なモデルはないことに注意してください。モデルは統計的であるため、予想される動作には常にいくつかのエラーが含まれます。ただし、特定のエラーは、トレーニング機能の抽出または最適化コードに関するより深い問題を示すことができます。疑わしいと思われるモデルのパフォーマンスのパターンに遭遇した場合は、レポートを提出してください。