tagged wiki2019zh
v1.0.0
Com base no wiki corpus chinês de 2019 wiki2019zh.zip, o modelo Coarse_Electra_small_ZH no HANLP foi usado para segmentação de palavras.
Os resultados do particípio da palavra foram sequenciados usando o método de anotação BMES 4-TAG, e o formato é o seguinte:
Suponha que o corpus do particípio seja:你好Tom。我喜欢吃羊肉串。 , o resultado da rotulagem é:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Durante o uso, pode ser necessário prestar atenção à forma como as incorporações e a pontuação são tratadas, bem como as bandeiras e a SENTENCE END TEXT END para finais de declarações e corpus.
O script usado pelo particípio é process_wiki_data.py.
Leva muito tempo para executar este script: