spacy models 다운로드 - spacy models 소스 코드 다운로드

spacy models

기타 소스코드

ca_core_news_lg-3.8.0

다운로드

스파크 모델

이 저장소에는 Spacy NLP 라이브러리에 대한 모델 릴리스가 포함되어 있습니다. 모델을 다운로드, 설치 및 사용하는 방법에 대한 자세한 내용은 모델 문서를 참조하십시오.

켈 중요 참고 : 모델은 매우 클 수 있으며 대부분 바이너리 데이터로 구성되므로 GitHub 저장소의 파일로 단순히 제공 할 수는 없습니다. 대신 .whl 및 .tar.gz 파일로 릴리스를 추가하기로 결정했습니다. 이를 통해 우리는 여전히 공개 릴리스 기록을 유지할 수 있습니다.

QuickStart

특정 모델을 설치하려면 모델 이름 (예 : en_core_web_sm )으로 다음 명령을 실행하십시오.

python -m spacy download [model]

Spacy v3.x 모델 디렉토리
Spacy v3.x 모델 비교
Spacy v2.x 모델 디렉토리
Spacy v2.x 모델 비교
개별 릴리스 노트

Spacy v1.x 모델은 여기를 참조하십시오.

모델 이름 지정 규칙

일반적으로 Spacy는 모든 모델 패키지가 [lang]_[name] 의 이름 지정 규칙을 따를 것으로 기대합니다. 제공된 파이프 라인의 경우 이름을 세 가지 구성 요소로 나눕니다.

유형 : 모델 기능 :
- core : 태깅, 구문 분석, 레마 화 및 지명 된 엔터티 인식이있는 일반 목적 모델
- dep : 태깅, 구문 분석 및 레마 화 만
- ent : 지명 된 엔티티 인식 만
- sent : 문장 세분화 만
장르 : 텍스트 유형 모델이 교육을받습니다 (예 : 웹 텍스트 용 web , 뉴스 텍스트에 대한 news )
크기 : 모델 크기 표시기 :
- sm : 단어 벡터가 없습니다
- md : ~ 500k 단어에 대한 20k 고유 벡터를 가진 감소 된 단어 벡터 테이블
- lg : ~ 500K 항목이있는 큰 워드 벡터 테이블

예를 들어, en_core_web_md 는 서면 웹 텍스트 (블로그, 뉴스, 댓글)를 훈련 한 중간 크기의 영어 모델로, 태그, 종속성 파서, lemmatizer, 명명 된 엔티티 인식기 및 20K 고유 벡터가있는 워드 벡터 테이블이 포함됩니다.

모델 버전 작성

또한 모델 버전화는 Spacy와의 호환성과 모델 버전을 모두 반영합니다. 모델 버전 abc 다음으로 번역됩니다.

a : 스파크 메이저 버전 . 예를 들어 Spacy v2.x의 경우 2
b : 스파크 마이너 버전 . 예를 들어, Spacy v2.3.x의 경우 3
c : 모델 버전. 다른 모델 구성 : 예 : 다른 매개 변수, 다른 숫자의 반복, 다른 벡터 등에 대한 다른 매개 변수로 다른 데이터에 대해 훈련을받지 못했습니다.

자세한 호환성 개요는 compatibility.json 을 참조하십시오. 이것은 또한 download 명령을 실행할 때 수행되는 Spacy의 내부 호환성 점검의 소스입니다.

이전 버전에 대한 지원

이전 버전 (v1.6.0 이하)을 사용하는 경우 python -m spacy.en.download all python -m spacy.de.download all 하여 Spacy 내에서 이전 모델을 다운로드하여 설치할 수 있습니다. .tar.gz 아카이브는 V1.6.0 릴리스에도 첨부됩니다. 모델을 수동으로 다운로드하고 설치하려면 아카이브를 풀고 포함 된 디렉토리를 spacy/data 에 삭제하고 spacy.load('en') 또는 spacy.load('de') 통해 모델을로드하십시오.

모델 다운로드

투명성을 높이고 자신의 모델과 함께 스파이를 쉽게 사용할 수 있도록 모든 데이터는 이제 개별 릴리스로 구성된 직접 다운로드로 제공됩니다. Spacy 1.7은 또한 Python 패키지 로 모델을 설치 및로드하는 것을 지원합니다. 이제 데이터 파일을 보관할 방법과 위치를 선택하고 Spacy 내에서 이름으로 모델을로드하기 위해 "바로 가기 링크"를 설정할 수 있습니다. 이에 대한 자세한 내용은 새로운 모델 문서를 참조하십시오.

 # download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm

# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl

모델로드 및 사용

모델을로드하려면 모델 이름, 바로 가기 링크 또는 모델 데이터 디렉토리 경로와 함께 spacy.load() 사용하십시오.

 import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )

전체 이름을 통해 직접 모델을 import 다음 인수없이 load() 메소드를 호출 할 수 있습니다. 이것은 또한 이전 버전의 스파이에서 이전 모델에도 적용됩니다.

 import spacy
import en_core_web_sm

nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )

수동 다운로드 및 설치

경우에 따라 데이터를 수동으로 다운로드하여 사용자 정의 디렉토리에 배치하는 것을 선호 할 수 있습니다. 최신 릴리스에서 브라우저를 통해 모델을 다운로드하거나 아카이브 파일의 URL을 사용하여 자체 다운로드 스크립트를 구성 할 수 있습니다. 아카이브는 모델 데이터가 포함 된 다른 디렉토리가 포함 된 모델 디렉토리로 구성됩니다.

 └── en_core_web_md-3.0.0.tar.gz       # downloaded archive
    ├── setup.py                      # setup file for pip installation
    ├── meta.json                     # copy of pipeline meta
    └── en_core_web_md                # ? pipeline package
        ├── __init__.py               # init for pip installation
        └── en_core_web_md-3.0.0      # pipeline data
            ├── config.cfg            # pipeline config
            ├── meta.json             # pipeline meta
            └── ...                   # directories with component data

자세한 정보 및 예제는 모델 문서를 확인하십시오.

Spacy v1.x 릴리스

날짜	모델	버전	DEP	ent	vec	크기	특허
`2017-06-06`	`es_core_web_md`	1.0.0	엑스	엑스	엑스	377 MB	CC BY-SA
`2017-04-26`	`fr_depvec_web_lg`	1.0.0	엑스		엑스	1.33GB	CC By-NC
`2017-03-21`	`en_core_web_md`	1.2.1	엑스	엑스	엑스	1GB	CC BY-SA
`2017-03-21`	`en_depent_web_md`	1.2.1	엑스	엑스		328 MB	CC BY-SA
`2017-03-17`	`en_core_web_sm`	1.2.0	엑스	엑스	엑스	50MB	CC BY-SA
`2017-03-17`	`en_core_web_md`	1.2.0	엑스	엑스	엑스	1GB	CC BY-SA
`2017-03-17`	`en_depent_web_md`	1.2.0	엑스	엑스		328 MB	CC BY-SA
`2016-05-10`	`de_core_news_md`	1.0.0	엑스	엑스	엑스	645MB	CC BY-SA
`2016-03-08`	`en_vectors_glove_md`	1.0.0			엑스	727 MB	CC BY-SA

V1.X 모델의 모델 이름 지정 규칙

유형 : 모델 기능 (예 : 어휘, 구문, 엔티티 및 단어 벡터가있는 일반 목적 모델의 core 또는 어휘, 구문 및 엔티티에 대한 depent )
장르 : 텍스트 유형 모델이 교육을받습니다 (예 : 웹 텍스트 용 web , 뉴스 텍스트에 대한 news )
크기 : 모델 크기 표시기 ( sm , md 또는 lg )

예를 들어, en_depent_web_md 어휘, 구문 및 엔티티를 포함하는 서면 웹 텍스트 (블로그, 뉴스, 댓글)를 교육하는 중간 규모의 영어 모델입니다.

문제 및 버그 보고서

모델에 문제를보고하려면 Spacy Issue Tracker에 대한 문제를여십시오. 완벽한 모델은 없습니다. 모델은 통계적이기 때문에 예상되는 동작에는 항상 약간의 오류가 포함됩니다 . 그러나 특정 오류는 교육 기능 추출 또는 최적화 코드의 더 깊은 문제를 나타낼 수 있습니다. 의심스러워 보이는 모델의 성능에 패턴을 발견하면 보고서를 제출하십시오.

확장하다

추가 정보