tagged wiki2019zh
v1.0.0
2019 년 중국 Wiki Corpus wiki2019zh.zip을 기반으로 HANLP의 COARSE_ELTRA_SMALL_ZH 모델이 단어 세분화에 사용되었습니다.
4- 태그 BMES 주석 메소드를 사용하여 분사 결과라는 단어가 시퀀싱되었으며 형식은 다음과 같습니다.
분사의 코퍼스가你好Tom。我喜欢吃羊肉串。 , 라벨링 결과는 다음과 같습니다.
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
사용하는 동안, 당신은 삽입과 문장 부호가 어떻게 처리되는지에주의를 기울여야 할 수도 있고, 진술 및 말단의 끝을위한 플래그 SENTENCE END 과 TEXT END 주의를 기울여야 할 수도 있습니다.
분사가 사용하는 스크립트는 Process_wiki_data.py입니다.
이 스크립트를 실행하는 데 많은 시간이 걸립니다.