El modelo de datos chino proporcionó Spacy. El modelo se encuentra actualmente en pruebas públicas beta.
Demostración en línea basada en el cuaderno Jupyter.
Parte de la información de atributos de este objeto Doc王小明在北京的清华大学读书:

Parte de la información NER sobre el estudio Doc de Wang Xiaoming王小明在北京的清华大学读书:

El modelo se distribuye en forma de archivos binarios, y los usuarios deben tener conocimiento básico de Spacy (versión> 2).
Python 3 (tal vez apoye a Python2, pero no bien probado)
Descargue el modelo de la página de lanzamientos (¡ Nuevo! Proporciona a los usuarios en China con enlaces para acelerar las descargas). Supongamos que el modelo descargado se llama zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Para facilitar el uso posterior en marcos como Rasa NLU, es necesario establecer un enlace para este modelo, ejecutando el siguiente comando:
spacy link zh_core_web_sm zhDespués de completar la ejecución, puede usar el alias ZH para acceder al modelo.
El código de demostración se encuentra en test.py Después de instalar el modelo, el usuario descarga o clama el código en este repositorio y luego puede ejecutarlo directamente.
python3 ./test.py Abra la dirección http://127.0.0.1:5000 y verá lo siguiente:

Ver flujo de trabajo
El corpus utilizado en este proyecto es Ontonotes 5.0.
Dado que Ontonotes 5.0 es el material con derechos de autor de LDC (consorcio de datos lingüísticos), no se puede incluir directamente en este proyecto. La buena noticia es que Ontonotes 5.0 es completamente gratuito para los usuarios del grupo, incluidas las empresas y las organizaciones académicas. Los usuarios pueden establecer una cuenta de organización corporativa o académica y luego obtener Ontonotes 5.0 de forma gratuita.
pos_ es incorrecto. Esto está relacionado con la clase de idioma chino en Spacy.shape_ e is_alpha parece no tener sentido para el chino, pero necesita información autorizada para confirmarlo.is_stop es incorrecto. Esto está relacionado con la clase de idioma chino en Spacy.vector de atributos no parece estar bien entrenado.is_oov está completamente incorrecta. Primera solución de prioridad.Lea Contriping.MD y envíen solicitudes de extracción.
Usamos Semver para los estándares de versiones. Echa un vistazo a tags para comprender todas las versiones.
Para obtener más información sobre los contribuyentes, consulte contributors .
Licencia del MIT - ver licencia.md para más detalles