Ce référentiel contient des versions de modèles pour la bibliothèque NLP Spacy. Pour plus d'informations sur la façon de télécharger, d'installer et d'utiliser les modèles, consultez la documentation des modèles.
️ Remarque importante: parce que les modèles peuvent être très importants et se composent principalement de données binaires, nous ne pouvons pas simplement les fournir comme fichiers dans un référentiel GitHub. Au lieu de cela, nous avons opté pour les ajouter à des versions en tant que fichiers.whlet.tar.gz. Cela nous permet de maintenir une histoire de libération publique.
Pour installer un modèle spécifique, exécutez la commande suivante avec le nom du modèle (par exemple en_core_web_sm ):
python -m spacy download [model]Pour les modèles Spacy V1.x, voir ici.
En général, Spacy s'attend à ce que tous les packages de modèles suivent la convention de dénomination de [lang]_[name] . Pour nos pipelines fournis, nous divisons le nom en trois composants:
core : un modèle à usage général avec le marquage, l'analyse, la lemmatisation et la reconnaissance des entités nomméesdep : Tagging, analyse et lemmatisationent : Seule la reconnaissance des entités nomméessent : Seule la segmentation des phrasesweb pour le texte Web, news pour le texte des nouvelles)sm : Pas de vecteurs de motmd : table vectorielle réduite avec des vecteurs uniques 20k pour ~ 500k motslg : Tableau vectoriel grand mot avec ~ 500k entrées Par exemple, en_core_web_md est un modèle anglais de taille moyenne formé sur le texte Web écrit (blogs, nouvelles, commentaires), qui comprend un tagueur, un analyseur de dépendance, un lemmatizer, un reconnaissance entité nommée et une table de vecteur de mots avec des vecteurs uniques 20K.
De plus, le versioning modèle reflète à la fois la compatibilité avec Spacy, ainsi que la version modèle. Une version modèle abc se traduit par:
a : Version majeure de Spacy . Par exemple, 2 pour Spacy V2.x.b : Version Minor Spacy . Par exemple, 3 pour Spacy v2.3.x.c : Version du modèle. Configuration du modèle différent: par exemple, être formé sur différentes données, avec différents paramètres, pour différents nombres d'itérations, avec différents vecteurs, etc. Pour un aperçu détaillé de la compatibilité, voir la compatibility.json . Ceci est également la source de la vérification de la compatibilité interne de Spacy, effectuée lorsque vous exécutez la commande download .
Si vous utilisez une ancienne version (v1.6.0 ou ci-dessous), vous pouvez toujours télécharger et installer les anciens modèles à partir de Spacy à l'aide de python -m spacy.en.download all ou python -m spacy.de.download all . Les archives .tar.gz sont également attachées à la version V1.6.0. Pour télécharger et installer les modèles manuellement, déballer les archives, déposez le répertoire contenu dans spacy/data et chargez le modèle via spacy.load('en') ou spacy.load('de') .
Pour augmenter la transparence et faciliter l'utilisation de Spacy avec vos propres modèles, toutes les données sont désormais disponibles sous forme de téléchargements directs, organisés dans des versions individuelles. Spacy 1.7 prend également en charge l'installation et le chargement des modèles sous forme de packages Python . Vous pouvez maintenant choisir comment et où vous souhaitez conserver les fichiers de données et configurer des "liens de raccourci" pour charger les modèles par nom à partir de Spacy. Pour plus d'informations à ce sujet, consultez la documentation des nouveaux modèles.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Pour charger un modèle, utilisez spacy.load() avec le nom du modèle, un lien de raccourci ou un chemin vers le répertoire de données du modèle.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) Vous pouvez également import un modèle directement via son nom complet, puis appeler sa méthode load() sans arguments. Cela devrait également fonctionner pour des modèles plus anciens dans les versions précédentes de Spacy.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )Dans certains cas, vous préférez peut-être télécharger les données manuellement, par exemple pour la placer dans un répertoire personnalisé. Vous pouvez télécharger le modèle via votre navigateur à partir des dernières versions, ou configurer votre propre script de téléchargement à l'aide de l'URL du fichier d'archive. L'archive se compose d'un répertoire modèle qui contient un autre répertoire avec les données du modèle.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataPour plus d'informations et d'exemples, consultez la documentation des modèles.
| Date | Modèle | Version | Dep | Ent | Vec | Taille | Licence | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | X | X | X | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | X | X | 1,33 Go | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | X | X | X | 1 Go | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | X | X | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | X | X | X | 50 Mb | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | X | X | X | 1 Go | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | X | X | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | X | X | X | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | X | 727 MB | CC BY-SA |
core pour le modèle à usage général avec vocabulaire, syntaxe, entités et vecteurs de mots, ou depentweb pour le texte Web, news pour le texte des nouvelles)sm , md ou lg ) Par exemple, en_depent_web_md est un modèle anglais de taille moyenne formé sur le texte Web écrit (blogs, nouvelles, commentaires), qui inclut le vocabulaire, la syntaxe et les entités.
Pour signaler un problème avec un modèle, veuillez ouvrir un problème sur Spacy Issue Tracker. Veuillez noter qu'aucun modèle n'est parfait. Parce que les modèles sont statistiques, leur comportement attendu comprendra toujours certaines erreurs . Cependant, des erreurs particulières peuvent indiquer des problèmes plus profonds avec l'extraction de la fonctionnalité de formation ou le code d'optimisation. Si vous rencontrez des modèles dans les performances du modèle qui semblent suspects, veuillez déposer un rapport.