tagged wiki2019zh
v1.0.0
На основе китайского Wiki Corpus Wiki2019zh.zip модель Coarse_electra_small_zh в HANLP была использована для сегментации слов.
Результаты причастия слова были секвенированы с использованием метода аннотации BMES 4-Tag, а формат заключается в следующем:
Предположим, что корпус причастия:你好Tom。我喜欢吃羊肉串。 , результат маркировки:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Во время использования вам может потребоваться обратить внимание на то, как обрабатываются встраиваемые и пунктуацию, а также к SENTENCE END и TEXT END для окончания заявлений и корпуса.
Сценарий, используемый причастием, IS Process_wiki_data.py.
Для запуска этого сценария требуется много времени: