tagged wiki2019zh
v1.0.0
Berdasarkan 2019 Chinese Wiki Corpus Wiki2019zh.zip, model coarse_electra_small_zh di Hanlp digunakan untuk segmentasi kata.
Hasil kata participle diurutkan menggunakan metode anotasi 4-tag BMES, dan formatnya adalah sebagai berikut:
Misalkan kumpulan participle adalah:你好Tom。我喜欢吃羊肉串。 , hasil pelabelan adalah:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
Selama penggunaan, Anda mungkin perlu memperhatikan bagaimana embeddings dan tanda baca ditangani, serta SENTENCE END bendera dan TEXT END untuk akhir pernyataan dan corpus.
Script yang digunakan oleh participle adalah process_wiki_data.py.
Dibutuhkan banyak waktu untuk menjalankan skrip ini: