tagged wiki2019zh
v1.0.0
基於經過清洗和切分的2019年中文wiki語料庫wiki2019zh.zip,使用hanlp中的COARSE_ELECTRA_SMALL_ZH模型進行了分詞。
分詞結果採用4-tag BMES標註法進行了序列標註,格式如下:
假設被分詞的語料是:你好Tom。我喜欢吃羊肉串。 ,標註結果為:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
使用中可能需要注意嵌入(embeddings)和標點符號的處理方式,以及語句和語料結束的標誌SENTENCE END和TEXT END 。
分詞使用的腳本是process_wiki_data.py。
運行此腳本需要花費大量的時間: