이 저장소에는 Spacy NLP 라이브러리에 대한 모델 릴리스가 포함되어 있습니다. 모델을 다운로드, 설치 및 사용하는 방법에 대한 자세한 내용은 모델 문서를 참조하십시오.
켈 중요 참고 : 모델은 매우 클 수 있으며 대부분 바이너리 데이터로 구성되므로 GitHub 저장소의 파일로 단순히 제공 할 수는 없습니다. 대신.whl및.tar.gz파일로 릴리스를 추가하기로 결정했습니다. 이를 통해 우리는 여전히 공개 릴리스 기록을 유지할 수 있습니다.
특정 모델을 설치하려면 모델 이름 (예 : en_core_web_sm )으로 다음 명령을 실행하십시오.
python -m spacy download [model]Spacy v1.x 모델은 여기를 참조하십시오.
일반적으로 Spacy는 모든 모델 패키지가 [lang]_[name] 의 이름 지정 규칙을 따를 것으로 기대합니다. 제공된 파이프 라인의 경우 이름을 세 가지 구성 요소로 나눕니다.
core : 태깅, 구문 분석, 레마 화 및 지명 된 엔터티 인식이있는 일반 목적 모델dep : 태깅, 구문 분석 및 레마 화 만ent : 지명 된 엔티티 인식 만sent : 문장 세분화 만web , 뉴스 텍스트에 대한 news )sm : 단어 벡터가 없습니다md : ~ 500k 단어에 대한 20k 고유 벡터를 가진 감소 된 단어 벡터 테이블lg : ~ 500K 항목이있는 큰 워드 벡터 테이블 예를 들어, en_core_web_md 는 서면 웹 텍스트 (블로그, 뉴스, 댓글)를 훈련 한 중간 크기의 영어 모델로, 태그, 종속성 파서, lemmatizer, 명명 된 엔티티 인식기 및 20K 고유 벡터가있는 워드 벡터 테이블이 포함됩니다.
또한 모델 버전화는 Spacy와의 호환성과 모델 버전을 모두 반영합니다. 모델 버전 abc 다음으로 번역됩니다.
a : 스파크 메이저 버전 . 예를 들어 Spacy v2.x의 경우 2b : 스파크 마이너 버전 . 예를 들어, Spacy v2.3.x의 경우 3c : 모델 버전. 다른 모델 구성 : 예 : 다른 매개 변수, 다른 숫자의 반복, 다른 벡터 등에 대한 다른 매개 변수로 다른 데이터에 대해 훈련을받지 못했습니다. 자세한 호환성 개요는 compatibility.json 을 참조하십시오. 이것은 또한 download 명령을 실행할 때 수행되는 Spacy의 내부 호환성 점검의 소스입니다.
이전 버전 (v1.6.0 이하)을 사용하는 경우 python -m spacy.en.download all python -m spacy.de.download all 하여 Spacy 내에서 이전 모델을 다운로드하여 설치할 수 있습니다. .tar.gz 아카이브는 V1.6.0 릴리스에도 첨부됩니다. 모델을 수동으로 다운로드하고 설치하려면 아카이브를 풀고 포함 된 디렉토리를 spacy/data 에 삭제하고 spacy.load('en') 또는 spacy.load('de') 통해 모델을로드하십시오.
투명성을 높이고 자신의 모델과 함께 스파이를 쉽게 사용할 수 있도록 모든 데이터는 이제 개별 릴리스로 구성된 직접 다운로드로 제공됩니다. Spacy 1.7은 또한 Python 패키지 로 모델을 설치 및로드하는 것을 지원합니다. 이제 데이터 파일을 보관할 방법과 위치를 선택하고 Spacy 내에서 이름으로 모델을로드하기 위해 "바로 가기 링크"를 설정할 수 있습니다. 이에 대한 자세한 내용은 새로운 모델 문서를 참조하십시오.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl 모델을로드하려면 모델 이름, 바로 가기 링크 또는 모델 데이터 디렉토리 경로와 함께 spacy.load() 사용하십시오.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) 전체 이름을 통해 직접 모델을 import 다음 인수없이 load() 메소드를 호출 할 수 있습니다. 이것은 또한 이전 버전의 스파이에서 이전 모델에도 적용됩니다.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )경우에 따라 데이터를 수동으로 다운로드하여 사용자 정의 디렉토리에 배치하는 것을 선호 할 수 있습니다. 최신 릴리스에서 브라우저를 통해 모델을 다운로드하거나 아카이브 파일의 URL을 사용하여 자체 다운로드 스크립트를 구성 할 수 있습니다. 아카이브는 모델 데이터가 포함 된 다른 디렉토리가 포함 된 모델 디렉토리로 구성됩니다.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component data자세한 정보 및 예제는 모델 문서를 확인하십시오.
| 날짜 | 모델 | 버전 | DEP | ent | vec | 크기 | 특허 | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | 엑스 | 엑스 | 엑스 | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | 엑스 | 엑스 | 1.33GB | CC By-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | 엑스 | 엑스 | 엑스 | 1GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | 엑스 | 엑스 | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | 엑스 | 엑스 | 엑스 | 50MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | 엑스 | 엑스 | 엑스 | 1GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | 엑스 | 엑스 | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | 엑스 | 엑스 | 엑스 | 645MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | 엑스 | 727 MB | CC BY-SA |
core 또는 어휘, 구문 및 엔티티에 대한 depent )web , 뉴스 텍스트에 대한 news )sm , md 또는 lg ) 예를 들어, en_depent_web_md 어휘, 구문 및 엔티티를 포함하는 서면 웹 텍스트 (블로그, 뉴스, 댓글)를 교육하는 중간 규모의 영어 모델입니다.
모델에 문제를보고하려면 Spacy Issue Tracker에 대한 문제를여십시오. 완벽한 모델은 없습니다. 모델은 통계적이기 때문에 예상되는 동작에는 항상 약간의 오류가 포함됩니다 . 그러나 특정 오류는 교육 기능 추출 또는 최적화 코드의 더 깊은 문제를 나타낼 수 있습니다. 의심스러워 보이는 모델의 성능에 패턴을 발견하면 보고서를 제출하십시오.