tagged wiki2019zh Скачать - tagged wiki2019zh Скачать исходный код

tagged wiki2019zh

AI Исходный код

v1.0.0

Скачать

Скачать корпус

Китайский вики -корпус 2019 года с частичной аннотацией

На основе китайского Wiki Corpus Wiki2019zh.zip модель Coarse_electra_small_zh в HANLP была использована для сегментации слов.

Результаты причастия слова были секвенированы с использованием метода аннотации BMES 4-Tag, а формат заключается в следующем:

Предположим, что корпус причастия:你好Tom。我喜欢吃羊肉串。 , результат маркировки:

你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END

Во время использования вам может потребоваться обратить внимание на то, как обрабатываются встраиваемые и пунктуацию, а также к SENTENCE END и TEXT END для окончания заявлений и корпуса.

Сценарий, используемый причастием, IS Process_wiki_data.py.

Для запуска этого сценария требуется много времени: