tagged wiki2019zh
v1.0.0
2019年の中国のwiki corpus wiki2019zh.zipに基づいて、hanlpのcoarse_electra_small_zhモデルが単語セグメンテーションに使用されました。
分詞の結果は、4タグBMESアノテーション方法を使用してシーケンスされ、形式は次のとおりです。
分詞のコーパスが次のと仮定します:你好Tom。我喜欢吃羊肉串。 、ラベルの結果は次のとおりです。
你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END
使用中は、埋め込みと句読点がどのように処理されるか、およびステートメントとコーパスの終了のためにSENTENCE ENDとTEXT ENDに注意を払う必要があるかもしれません。
分詞で使用されるスクリプトは、process_wiki_data.pyです。
このスクリプトを実行するには多くの時間がかかります。