tagged wiki2019zh
v1.0.0
Basado en el Corpus Wiki chino 2019 wiki2019zh.zip, el modelo Coarse_electra_Small_Zh en HANLP se utilizó para la segmentación de palabras.
Los resultados del participio de la palabra se secuenciaron utilizando el método de anotación BMES de 4 etiquetas, y el formato es el siguiente:
Supongamos que el corpus del participio es:你好Tom。我喜欢吃羊肉串。 , el resultado del etiquetado es:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Durante el uso, es posible que deba prestar atención a cómo se manejan los incrustaciones y la puntuación, así como el SENTENCE END las banderas y TEXT END para las terminaciones de las declaraciones y el corpus.
El script utilizado por el participio es process_wiki_data.py.
Se necesita mucho tiempo para ejecutar este script: