Este repositorio contiene versiones de modelos para la biblioteca Spacy NLP. Para obtener más información sobre cómo descargar, instalar y usar los modelos, consulte la documentación de los modelos.
️ Nota importante: Debido a que los modelos pueden ser muy grandes y consisten principalmente en datos binarios, no podemos simplemente proporcionarlos como archivos en un repositorio de GitHub. En cambio, hemos optado por agregarlos a los lanzamientos como archivos.whly.tar.gz. Esto nos permite mantener un historial de liberación pública.
Para instalar un modelo específico, ejecute el siguiente comando con el nombre del modelo (por ejemplo en_core_web_sm ):
python -m spacy download [model]Para los modelos Spacy V1.X, vea aquí.
En general, Spacy espera que todos los paquetes de modelos sigan la convención de nombres de [lang]_[name] . Para nuestras tuberías proporcionadas, dividimos el nombre en tres componentes:
core : un modelo de propósito general con etiquetado, análisis, lemmatización y reconocimiento de entidad nombradodep : Solo etiquetado, análisis y lemmatizaciónent : solo reconocimiento de entidad nombradosent : solo segmentación de oracionesweb para texto web, news para texto de noticias)sm : No hay vectores de palabrasmd : Tabla de vector de palabras reducido con 20k vectores únicos para ~ 500k palabraslg : tabla vectorial de palabras grandes con ~ 500k entradas Por ejemplo, en_core_web_md es un modelo inglés de tamaño mediano entrenado en texto web escrito (blogs, noticias, comentarios), que incluye un etiquetador, un analizador de dependencia, un lemmatizer, un reconocimiento de entidad nombrado y una tabla de vectores de palabras con vectores únicos de 20k.
Además, el versiones del modelo refleja la compatibilidad con Spacy, así como la versión del modelo. Una versión modelo abc se traduce en:
a : Versión principal de Spacy . Por ejemplo, 2 para Spacy v2.x.b : Versión menor de Spacy . Por ejemplo, 3 para Spacy v2.3.x.c : Versión del modelo. Configuración del modelo diferente: por ejemplo, de estar entrenado en diferentes datos, con diferentes parámetros, para diferentes números de iteraciones, con diferentes vectores, etc. Para obtener una descripción detallada de compatibilidad, consulte compatibility.json . Esta es también la fuente de la verificación de compatibilidad interna de Spacy, realizada cuando ejecuta el comando download .
Si está utilizando una versión anterior (v1.6.0 o menos), aún puede descargar e instalar los modelos antiguos desde Spacy usando python -m spacy.en.download all o python -m spacy.de.download all . Los archivos .tar.gz también están unidos a la versión V1.6.0. Para descargar e instalar los modelos manualmente, desempaquete el archivo, suelte el directorio contenido en spacy/data y cargue el modelo a través de spacy.load('en') o spacy.load('de') .
Para aumentar la transparencia y facilitar el uso de Spacy con sus propios modelos, todos los datos ahora están disponibles como descargas directas, organizadas en versiones individuales. Spacy 1.7 también admite modelos de instalación y carga como paquetes de Python . Ahora puede elegir cómo y dónde desea mantener los archivos de datos y configurar "enlaces de acceso directo" para cargar modelos por nombre desde Spacy. Para obtener más información sobre esto, consulte la documentación de los nuevos modelos.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Para cargar un modelo, use spacy.load() con el nombre del modelo, un enlace de acceso directo o una ruta al directorio de datos del modelo.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) También puede import un modelo directamente a través de su nombre completo y luego llamar a su método load() sin argumentos. Esto también debería funcionar para modelos más antiguos en versiones anteriores de Spacy.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )En algunos casos, puede preferir descargar los datos manualmente, por ejemplo, para colocarlos en un directorio personalizado. Puede descargar el modelo a través de su navegador desde los últimos lanzamientos, o configurar su propio script de descarga utilizando la URL del archivo de archivo. El archivo consiste en un directorio modelo que contiene otro directorio con los datos del modelo.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataPara obtener más información y ejemplos, consulte la documentación de los modelos.
| Fecha | Modelo | Versión | DEP | Enterarse | VEC | Tamaño | Licencia | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | incógnita | incógnita | incógnita | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | incógnita | incógnita | 1.33 GB | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | incógnita | incógnita | incógnita | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | incógnita | incógnita | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | incógnita | incógnita | incógnita | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | incógnita | incógnita | incógnita | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | incógnita | incógnita | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | incógnita | incógnita | incógnita | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | incógnita | 727 MB | CC BY-SA |
depent Capacidades del modelo ( core Ej.web para texto web, news para texto de noticias)sm , md o lg ) Por ejemplo, en_depent_web_md es un modelo inglés de tamaño mediano entrenado en texto web escrito (blogs, noticias, comentarios), que incluye vocabulario, sintaxis y entidades.
Para informar un problema con un modelo, abra un problema en el rastreador de problemas de Spacy. Tenga en cuenta que ningún modelo es perfecto. Debido a que los modelos son estadísticos, su comportamiento esperado siempre incluirá algunos errores . Sin embargo, los errores particulares pueden indicar problemas más profundos con el código de extracción o optimización de características de entrenamiento. Si se encuentra con patrones en el rendimiento del modelo que parecen sospechosos, haga un informe.