tagged wiki2019zh
v1.0.0
จาก 2019 Chinese Wiki Corpus Wiki2019zh.zip รุ่น Coarse_electra_Small_ZH ใน HANLP ใช้สำหรับการแบ่งส่วนคำ
ผลลัพธ์ของคำว่าคำนามนั้นถูกจัดลำดับโดยใช้วิธีการอธิบายประกอบ BMES 4 แท็กและรูปแบบมีดังนี้:
สมมติว่าคลังข้อมูลของคำกริยาคือ:你好Tom。我喜欢吃羊肉串。 , ผลการติดฉลากคือ:
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
ในระหว่างการใช้งานคุณอาจต้องให้ความสนใจกับวิธีการจัดการกับการฝังและเครื่องหมายวรรคตอนรวมถึง SENTENCE END และ TEXT END สำหรับตอนจบของข้อความและคลังข้อมูล
สคริปต์ที่ใช้โดยคำนามคือ process_wiki_data.py
ต้องใช้เวลานานในการเรียกใช้สคริปต์นี้: