tagged wiki2019zh
v1.0.0
Basé sur le Wiki Corpus chinois 2019 Wiki2019zh.zip, le modèle COARSE_ECLACTRA_SMALL_ZH dans HANLP a été utilisé pour la segmentation des mots.
Les résultats du mot participe ont été séquencés en utilisant la méthode d'annotation BMES à 4 marques, et le format est le suivant:
Supposons que le corpus du participe soit:你好Tom。我喜欢吃羊肉串。 , Le résultat d'étiquetage est:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Pendant l'utilisation, vous devrez peut-être faire attention à la façon dont les intégres et la ponctuation sont gérés, ainsi que la SENTENCE END et TEXT END pour la fin des déclarations et du corpus.
Le script utilisé par participe est process_wiki_data.py.
Il faut beaucoup de temps pour exécuter ce script: