tagged wiki2019zh
v1.0.0
基于经过清洗和切分的2019年中文wiki语料库wiki2019zh.zip,使用hanlp中的COARSE_ELECTRA_SMALL_ZH模型进行了分词。
分词结果采用4-tag BMES标注法进行了序列标注,格式如下:
假设被分词的语料是:你好Tom。我喜欢吃羊肉串。,标注结果为:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
使用中可能需要注意嵌入(embeddings)和标点符号的处理方式,以及语句和语料结束的标志SENTENCE END和TEXT END。
分词使用的脚本是process_wiki_data.py。
运行此脚本需要花费大量的时间: