Modèle de données chinois fourni pour Spacy. Le modèle est actuellement en test bêta.
Demo en ligne basé sur Jupyter Notebook.
Certaines des informations d'attribut de cet objet Doc王小明在北京的清华大学读书:

Certaines des informations NER sur l'étude Doc de Wang XiaoMing王小明在北京的清华大学读书:

Le modèle est distribué sous forme de fichiers binaires et les utilisateurs doivent avoir des connaissances de base de Spacy (version> 2).
Python 3 (peut-être prendre en charge Python2, mais pas bien testé)
Téléchargez le modèle à partir de la page des versions ( New! Fournit aux utilisateurs en Chine des liens pour accélérer les téléchargements). Supposons que le modèle téléchargé s'appelle zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Afin de faciliter une utilisation ultérieure dans des cadres tels que RASA NLU, il est nécessaire d'établir un lien pour ce modèle, en exécutant la commande suivante:
spacy link zh_core_web_sm zhUne fois l'exécution terminée, vous pouvez utiliser l'alias ZH pour accéder au modèle.
Le code de démonstration est situé dans test.py Une fois le modèle installé, l'utilisateur télécharge ou clones le code dans ce référentiel et peut ensuite l'exécuter directement.
python3 ./test.py Ouvrez l'adresse http://127.0.0.1:5000 et vous verrez ce qui suit:

Voir Workflow
Le corpus utilisé dans ce projet est Ontonotes 5.0.
Étant donné qu'Ontonotes 5.0 est le matériel protégé par le droit d'auteur de LDC (Linguistic Data Consortium), il ne peut pas être directement inclus dans ce projet. La bonne nouvelle est qu'Ontonotes 5.0 est entièrement gratuit pour les utilisateurs de groupe, y compris les entreprises et les organisations universitaires. Les utilisateurs peuvent établir un compte d'organisation d'entreprise ou académique, puis obtenir gratuitement Ontonotes 5.0.
pos_ est incorrect. Ceci est lié à la classe de langue chinoise dans Spacy.shape_ et is_alpha semble avoir un sens pour le chinois, mais il a besoin d'informations faisant autorité pour les confirmer.is_stop est incorrect. Ceci est lié à la classe de langue chinoise dans Spacy.vector d'attribut ne semble pas être bien formé.is_oov est complètement erronée. Première correction de priorité.Veuillez lire contribution.md et soumettre des demandes de traction à nous.
Nous utilisons SEMVER pour les normes de version. Consultez tags pour comprendre toutes les versions.
Pour plus d'informations sur les contributeurs, veuillez vous référer aux contributors .
Licence MIT - Voir Licence.MD pour plus de détails