Этот репозиторий содержит выбросы моделей для библиотеки NLP Spacy. Для получения дополнительной информации о том, как загрузить, установить и использовать модели, см. Документацию моделей.
️ Важное примечание: поскольку модели могут быть очень большими и состоять в основном из двоичных данных, мы не можем просто предоставить их в качестве файлов в репозитории GitHub. Вместо этого мы выбрали добавление их в релизы как файлы.whlи.tar.gz. Это позволяет нам по -прежнему поддерживать публичную историю выпуска.
Чтобы установить определенную модель, запустите следующую команду с именем модели (например, en_core_web_sm ):
python -m spacy download [model]Для моделей Spacy v1.x см. Здесь.
В целом, Spacy ожидает, что все модельные пакеты будут следовать соглашению об именах [lang]_[name] . Для наших предоставленных трубопроводов мы делим имя на три компонента:
core : модель общего назначения с тегом, анализом, лемматизацией и распознаванием сущностиdep : только теги, анализ и лемматизацияent : только названное признание сущностиsent : только сегментация предложенияweb -текст, news для новостей)sm : нет слов векторовmd : Совместная таблица векторов слов с 20 тыс. Уникальных векторов для ~ 500K словlg : Большая таблица вектора слов с ~ 500K записи Например, en_core_web_md -это английская модель среднего размера, обучаемая письменному веб-тексту (блоги, новости, комментарии), которая включает в себя теги, анализатор зависимости, лемматизатор, названный распознаватель сущности и таблицу векторов слов с 20 тысячи уникальных векторов.
Кроме того, модельное управление версией отражает как совместимость с Spacy, так и модельную версию. Модельная версия abc переводится на:
a : Основная версия Spacy . Например, 2 для Spacy v2.x.b : Малая версия Spacy . Например, 3 для Spacy v2.3.x.c : модель версия. Различная конфигурация модели: например, обучение на разных данных, с разными параметрами, для разных чисел итераций, с разными векторами и т. Д. Подробный обзор совместимости см. В compatibility.json . Это также является источником проверки внутренней совместимости Spacy, выполненной при запуске команды download .
Если вы используете более старую версию (v1.6.0 или ниже), вы все равно можете загрузить и установить старые модели из Spacy, используя python -m spacy.en.download all или python -m spacy.de.download all . Архивы .tar.gz также прикреплены к выпуску V1.6.0. Чтобы загрузить и установить модели вручную, распаковать архив, оставьте содержащий каталог в spacy/data и загрузите модель через spacy.load('en') или spacy.load('de') .
Чтобы повысить прозрачность и облегчить использование Spacy с помощью ваших собственных моделей, все данные теперь доступны в качестве прямых загрузок, организованных в отдельных выпусках. Spacy 1.7 также поддерживает модели установки и загрузки в качестве пакетов Python . Теперь вы можете выбрать, как и где вы хотите сохранить файлы данных, и настроить «ярлыки» для загрузки моделей по имени из Spacy. Для получения дополнительной информации об этом см. Документацию «Новые модели».
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Чтобы загрузить модель, используйте spacy.load() с именем модели, ярлыком ссылки или пути к каталогу данных модели.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) Вы также можете import модель непосредственно с помощью его полного имени, а затем вызовать его метод load() без аргументов. Это также должно работать для более старых моделей в предыдущих версиях Spacy.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )В некоторых случаях вы можете предпочесть загрузить данные вручную, например, поместить их в пользовательский каталог. Вы можете скачать модель через свой браузер из последних выпусков или настроить свой собственный скрипт загрузки с помощью URL -адреса архивного файла. Архив состоит из модельного каталога, который содержит другой каталог с данными модели.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataДля получения дополнительной информации и примеров, ознакомьтесь с документацией моделей.
| Дата | Модель | Версия | Деп | ENT | Век | Размер | Лицензия | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | Х | Х | Х | 377 МБ | CC By-Sa | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | Х | Х | 1,33 ГБ | CC By-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | Х | Х | Х | 1 ГБ | CC By-Sa | ||
2017-03-21 | en_depent_web_md | 1.2.1 | Х | Х | 328 МБ | CC By-Sa | |||
2017-03-17 | en_core_web_sm | 1.2.0 | Х | Х | Х | 50 МБ | CC By-Sa | ||
2017-03-17 | en_core_web_md | 1.2.0 | Х | Х | Х | 1 ГБ | CC By-Sa | ||
2017-03-17 | en_depent_web_md | 1.2.0 | Х | Х | 328 МБ | CC By-Sa | |||
2016-05-10 | de_core_news_md | 1.0.0 | Х | Х | Х | 645 МБ | CC By-Sa | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | Х | 727 МБ | CC By-Sa |
core для модели общего назначения со словарем, синтаксисом, объектами и векторами слов, или depent только для слока, синтаксиса и сущностей)web -текст, news для новостей)sm , md или lg ) Например, en_depent_web_md -это английская модель среднего размера, обученная письменному веб-тексту (блоги, новости, комментарии), которая включает в себя словарный запас, синтаксис и сущности.
Чтобы сообщить о проблеме с моделью, откройте проблему на трекере выпуска Spacy. Обратите внимание, что ни одна модель не идеальна. Поскольку модели являются статистическими, их ожидаемое поведение всегда будет включать некоторые ошибки . Тем не менее, конкретные ошибки могут указывать на более глубокие проблемы с извлечением функций обучения или кодом оптимизации. Если вы сталкиваетесь с шаблонами в производительности модели, которые кажутся подозрительными, пожалуйста, подайте отчет.