Modelo de dados chinês fornecido para Spacy. O modelo está atualmente em testes públicos beta.
Demoção on -line com base no Notebook Jupyter.
Algumas das informações de atributo deste objeto Doc王小明在北京的清华大学读书:

Algumas das informações do NER sobre o estudo Doc de Wang Xiaoming王小明在北京的清华大学读书:

O modelo é distribuído na forma de arquivos binários, e os usuários devem ter conhecimento básico de spacy (versão> 2).
Python 3 (talvez apoie o Python2, mas não bem testado)
Faça o download do modelo na página de lançamentos ( novo! Fornece usuários na China com links para acelerar downloads). Suponha que o modelo baixado seja nomeado zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Para facilitar o uso subsequente em estruturas como Rasa NLU, é necessário estabelecer um link para este modelo, executando o seguinte comando:
spacy link zh_core_web_sm zhApós a conclusão da execução, você pode usar o pseudônimo ZH para acessar o modelo.
O código de demonstração está localizado em test.py Após a instalação do modelo, o usuário baixa ou clones o código neste repositório e pode executá -lo diretamente.
python3 ./test.py Abra o endereço http://127.0.0.1:5000 e você verá o seguinte:

Veja o fluxo de trabalho
O corpus usado neste projeto é Ontonotes 5.0.
Como o ontonotes 5.0 é o material protegido por direitos autorais do LDC (consórcio de dados linguísticos), ele não pode ser incluído diretamente neste projeto. A boa notícia é que o Ontonotes 5.0 é totalmente gratuito para usuários de grupos, incluindo empresas e organizações acadêmicas. Os usuários podem estabelecer uma conta de organização corporativa ou acadêmica e, em seguida, obter o Ontontotes 5.0 gratuitamente.
pos_ está incorreto. Isso está relacionado à classe de língua chinesa em Spacy.shape_ e is_alpha parecem sem sentido para os chineses, mas precisa de informações autorizadas para confirmá -las.is_stop está incorreto. Isso está relacionado à classe de língua chinesa em Spacy.vector de atributo não parece ser bem treinado.is_oov está completamente errada. Primeira correção de prioridade.Leia contribuindo.md e envie solicitações de puxar para nós.
Usamos o Semver para padrões de versão. Confira tags para entender todas as versões.
Para obter mais informações sobre colaboradores, consulte contributors .
MIT Licença - consulte License.md para obter detalhes