Este repositório contém lançamentos de modelos para a biblioteca Spacy NLP. Para obter mais informações sobre como baixar, instalar e usar os modelos, consulte a documentação dos modelos.
️ Nota importante: como os modelos podem ser muito grandes e consistir principalmente em dados binários, não podemos simplesmente fornecer -os como arquivos em um repositório do GitHub. Em vez disso, optamos por adicioná -los a lançamentos como arquivos.whle.tar.gz. Isso nos permite ainda manter um histórico de liberação pública.
Para instalar um modelo específico, execute o seguinte comando com o nome do modelo (por exemplo, en_core_web_sm ):
python -m spacy download [model]Para os modelos Spacy V1.x, veja aqui.
Em geral, Spacy espera que todos os pacotes de modelos sigam a convenção de nomenclatura de [lang]_[name] . Para nossos oleodutos fornecidos, dividimos o nome em três componentes:
core : um modelo de uso geral com marcação, análise, lemmatização e reconhecimento de entidade nomeadodep : apenas marcação, análise e lematizaçãoent : apenas reconhecimento de entidade nomeadosent : apenas segmentação de frasesweb para texto da web, news para texto de notícias)sm : Nenhum vetores de palavrasmd : Tabela de vetor de palavras reduzida com 20k vetores exclusivos para ~ 500k palavraslg : Tabela vetorial grande com ~ 500k entradas Por exemplo, en_core_web_md é um modelo inglês de tamanho médio treinado em texto escrito da web (blogs, notícias, comentários), que inclui um tagger, um analisador de dependência, um lemmatizador, um reconhecedor de entidade nomeado e uma tabela de vetores de palavras com 20k Vetores exclusivos.
Além disso, o versão do modelo reflete tanto a compatibilidade com o Spacy quanto a versão do modelo. Uma versão modelo abc se traduz em:
a : versão principal do Spacy . Por exemplo, 2 para spacy v2.x.b : Versão Minor Spacy . Por exemplo, 3 para spacy v2.3.x.c : Versão do modelo. Diferente configuração de modelo: por exemplo, de ser treinado em diferentes dados, com diferentes parâmetros, para diferentes números de iterações, com diferentes vetores, etc. Para uma visão geral detalhada da compatibilidade, consulte a compatibility.json . Esta também é a fonte da verificação de compatibilidade interna da Spacy, realizada quando você executa o comando download .
Se você estiver usando uma versão mais antiga (v1.6.0 ou abaixo), ainda poderá baixar e instalar os modelos antigos de dentro do Spacy usando python -m spacy.en.download all ou python -m spacy.de.download all . Os arquivos .tar.gz também estão anexados à versão v1.6.0. Para baixar e instalar os modelos manualmente, descompacte o arquivo, solte o diretório contido em spacy/data e carregue o modelo via spacy.load('en') ou spacy.load('de') .
Para aumentar a transparência e facilitar o uso do Spacy com seus próprios modelos, todos os dados agora estão disponíveis como downloads diretos, organizados em lançamentos individuais. O Spacy 1.7 também suporta a instalação e o carregamento de modelos como pacotes Python . Agora você pode escolher como e onde deseja manter os arquivos de dados e configurar "links de atalho" para carregar modelos por nome de dentro do Spacy. Para mais informações sobre isso, consulte a documentação dos novos modelos.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Para carregar um modelo, use spacy.load() com o nome do modelo, um link de atalho ou um caminho para o diretório de dados do modelo.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) Você também pode import um modelo diretamente através de seu nome completo e depois chamar seu método load() sem argumentos. Isso também deve funcionar para modelos mais antigos em versões anteriores de Spacy.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )Em alguns casos, você pode preferir baixar os dados manualmente, por exemplo, para colocá -los em um diretório personalizado. Você pode baixar o modelo através do seu navegador a partir dos lançamentos mais recentes ou configurar seu próprio script de download usando o URL do arquivo de arquivo. O arquivo consiste em um diretório de modelo que contém outro diretório com os dados do modelo.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataPara mais informações e exemplos, consulte a documentação dos modelos.
| Data | Modelo | Versão | Dep | Ent | VEC | Tamanho | Licença | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | X | X | X | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | X | X | 1,33 GB | CC By-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | X | X | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | X | X | X | 50 mb | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | X | X | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | X | X | X | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | X | 727 MB | CC BY-SA |
core para modelo de uso geral com vocabulário, sintaxe, entidades e vetores de palavras ou depent apenas para vocabulário, sintaxe e entidades)web para texto da web, news para texto de notícias)sm , md ou lg ) Por exemplo, en_depent_web_md é um modelo inglês de tamanho médio treinado em texto escrito da web (blogs, notícias, comentários), que inclui vocabulário, sintaxe e entidades.
Para relatar um problema com um modelo, abra um problema no rastreador de edição do Spacy. Observe que nenhum modelo é perfeito. Como os modelos são estatísticos, seu comportamento esperado sempre incluirá alguns erros . No entanto, erros específicos podem indicar problemas mais profundos com o código de extração ou otimização do recurso de treinamento. Se você encontrar padrões no desempenho do modelo que parecem suspeitos, registre um relatório.