tagged wiki2019zh
v1.0.0
Basierend auf dem chinesischen Wiki Corpus Wiki2019zh.zip 2019 wurde das Coarse_Electra_Small_ZH -Modell in HANLP zur Wortsegmentierung verwendet.
Das Wort Partizip-Ergebnisse wurde unter Verwendung einer 4-Tag-BMES-Annotationsmethode sequenziert, und das Format lautet wie folgt:
Angenommen, der Korpus des Partizips lautet:你好Tom。我喜欢吃羊肉串。 Das Kennzeichnungsergebnis ist:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Während der Verwendung müssen Sie möglicherweise darauf achten, wie Einbettung und Zeichensetzung behandelt werden, sowie das SENTENCE END und TEXT END des Flaggen für die Endungen von Aussagen und Korpus.
Das von Partizip verwendete Skript ist process_wiki_data.py.
Es braucht viel Zeit, um dieses Skript auszuführen: