spacy modelsダウンロードspacy modelsソースコードのダウンロード

spacy models

その他のソースコード

ca_core_news_lg-3.8.0

ダウンロード

スペイシーモデル

このリポジトリには、Spacy NLPライブラリのモデルのリリースが含まれています。モデルのダウンロード、インストール、使用方法の詳細については、モデルのドキュメントを参照してください。

ショ和重要な注意：モデルは非常に大きく、主にバイナリデータで構成される可能性があるため、GitHubリポジトリ内のファイルとして単純に提供することはできません。代わりに、 .whlおよび.tar.gzファイルとしてリリースするためにそれらを追加することを選択しました。これにより、公開リリースの履歴を維持することができます。

クイックスタート

特定のモデルをインストールするには、モデル名（たとえばen_core_web_smなど）で次のコマンドを実行します。

python -m spacy download [model]

Spacy v3.xモデルディレクトリ
Spacy v3.xモデルの比較
Spacy V2.xモデルディレクトリ
Spacy V2.xモデルの比較
個別のリリースノート

Spacy V1.Xモデルについては、こちらを参照してください。

モデルの命名規則

一般に、Spacyは、すべてのモデルパッケージが[lang]_[name]の命名規則に従うことを期待しています。提供されたパイプラインでは、名前を3つのコンポーネントに分けます。

タイプ：モデル機能：
- core ：タグ付け、解析、レンマ化、名前付きエンティティ認識を備えた汎用モデル
- dep ：タグ付け、解析、レンマ化のみ
- ent ：名前付きエンティティ認識のみ
- sent ：文のみセグメンテーション
ジャンル：テキストのタイプモデルはトレーニングされています（例： webのWebテキスト、ニューステキストのnews ）
サイズ：モデルサイズインジケーター：
- sm ：単語ベクトルはありません
- md ：〜500kワードの20kの一意のベクトルを備えた単語ベクトルテーブルを削減しました
- lg ：〜500kエントリの大きな単語ベクトルテーブル

たとえば、 en_core_web_md 、書かれたWebテキスト（ブログ、ニュース、コメント）で訓練された中規模の英語モデルであり、Tagger、依存関係パーサー、lemmatizer、指名されたエンティティ認識者、20Kユニークなベクトルを備えた単語ベクトルテーブルを含む。

モデルバージョン化

さらに、モデルバージョンのバージョンは、スペイシーとの互換性とモデルバージョンの両方を反映しています。 abc次のように翻訳するモデルバージョン

a ：スペイシーメジャーバージョン。たとえば、Spacy V2.xの場合は2
b ：スペイシーマイナーバージョン。たとえば、スペイシーv2.3.xの3
c ：モデルバージョン。異なるモデル構成：例：異なるパラメーターで、異なる数の反復、異なるベクトルなどで、異なるデータでトレーニングされています。

詳細な互換性の概要については、 compatibility.jsonを参照してください。これは、 downloadコマンドを実行するときに実行されるSPACYの内部互換性チェックのソースでもあります。

古いバージョンのサポート

古いバージョン（v1.6.0以下）を使用している場合でも、 python -m spacy.en.download allまたはpython -m spacy.de.download allを使用して、Spacy内から古いモデルをダウンロードしてインストールできます。 .tar.gzアーカイブは、v1.6.0リリースにも添付されています。モデルを手動でダウンロードしてインストールするには、アーカイブを開梱し、含まれるディレクトリをspacy/dataにドロップし、 spacy.load('en')またはspacy.load('de')を介してモデルをロードします。

モデルのダウンロード

透明性を高め、独自のモデルでスペイシーを使いやすくするために、すべてのデータが直接ダウンロードとして利用可能になり、個々のリリースで編成されました。 Spacy 1.7は、モデルのインストールとロードモデルもPythonパッケージとしてサポートしています。これで、データファイルを保持する方法と場所を選択し、Spacy内から名前でモデルをロードする「ショートカットリンク」を設定できます。これの詳細については、新しいモデルのドキュメントを参照してください。

 # download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm

# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl

モデルの読み込みと使用

モデルをロードするには、モデル名、ショートカットリンク、またはモデルデータディレクトリへのパスでspacy.load()を使用します。

 import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )

モデルをそのフルネームで直接importから、引数なしでload()メソッドを呼び出すこともできます。これは、以前のバージョンのSPACYの古いモデルでも機能するはずです。

 import spacy
import en_core_web_sm

nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )

手動のダウンロードとインストール

場合によっては、たとえばカスタムディレクトリに配置するなど、データを手動でダウンロードすることをお勧めします。最新のリリースからブラウザを介してモデルをダウンロードするか、アーカイブファイルのURLを使用して独自のダウンロードスクリプトを構成することができます。アーカイブは、モデルデータを含む別のディレクトリを含むモデルディレクトリで構成されています。

 └── en_core_web_md-3.0.0.tar.gz       # downloaded archive
    ├── setup.py                      # setup file for pip installation
    ├── meta.json                     # copy of pipeline meta
    └── en_core_web_md                # ? pipeline package
        ├── __init__.py               # init for pip installation
        └── en_core_web_md-3.0.0      # pipeline data
            ├── config.cfg            # pipeline config
            ├── meta.json             # pipeline meta
            └── ...                   # directories with component data

詳細と例については、モデルのドキュメントをご覧ください。

Spacy V1.xリリース

日付	モデル	バージョン	de	ent	VEC	サイズ	ライセンス
`2017-06-06`	`es_core_web_md`	1.0.0	x	x	x	377 MB	CC by-sa
`2017-04-26`	`fr_depvec_web_lg`	1.0.0	x		x	1.33 GB	CC by-nc
`2017-03-21`	`en_core_web_md`	1.2.1	x	x	x	1 GB	CC by-sa
`2017-03-21`	`en_depent_web_md`	1.2.1	x	x		328 MB	CC by-sa
`2017-03-17`	`en_core_web_sm`	1.2.0	x	x	x	50 MB	CC by-sa
`2017-03-17`	`en_core_web_md`	1.2.0	x	x	x	1 GB	CC by-sa
`2017-03-17`	`en_depent_web_md`	1.2.0	x	x		328 MB	CC by-sa
`2016-05-10`	`de_core_news_md`	1.0.0	x	x	x	645 MB	CC by-sa
`2016-03-08`	`en_vectors_glove_md`	1.0.0			x	727 MB	CC by-sa

v1.xモデルのモデル命名規則

タイプ：モデル機能（たとえば、語彙、構文、エンティティ、単語ベクトルを備えた汎用モデルのcore 、または語彙、構文、エンティティのみのdepent ）
ジャンル：テキストのタイプモデルはトレーニングされています（例： webのWebテキスト、ニューステキストのnews ）
サイズ：モデルサイズインジケーター（ sm 、 mdまたはlg ）

たとえば、 en_depent_web_md 、語彙、構文、エンティティを含む、書かれたWebテキスト（ブログ、ニュース、コメント）でトレーニングされた中規模の英語モデルです。

問題とバグレポート

モデルの問題を報告するには、Spacy Issue Trackerの問題を開きます。完璧なモデルはないことに注意してください。モデルは統計的であるため、予想される動作には常にいくつかのエラーが含まれます。ただし、特定のエラーは、トレーニング機能の抽出または最適化コードに関するより深い問題を示すことができます。疑わしいと思われるモデルのパフォーマンスのパターンに遭遇した場合は、レポートを提出してください。

拡大する

追加情報