xmnlp下載xmnlp源代碼下載

xmnlp: 一款開箱即用的開源中文自然語言處理工具包

XMNLP: An out-of-the-box Chinese Natural Language Processing Toolkit

功能概覽

中文詞法分析(RoBERTa + CRF finetune)
- 分詞
- 詞性標註
- 命名體識別
- 支持自定義字典
中文拼寫檢查(Detector + Corrector SpellCheck)
文本摘要& 關鍵詞提取(Textrank)
情感分析(RoBERTa finetune)
文本轉拼音(Trie)
漢字偏旁部首(HashMap)
句子表徵及相似度計算

Outline

一. 安裝
- 模型下載
- 配置模型
二. 使用文檔
- 默認分詞：seg
  - 快速分詞：fast_seg
  - 深度分詞：deep_seg
- 詞性標註：tag
  - 快速詞性標註：fast_tag
  - 深度詞性標註：deep_tag
- 分詞&詞性標註自定義字典
- 命名體識別：ner
- 關鍵詞提取：keyword
- 關鍵語句提取：keyphrase
- 情感識別：sentiment
- 拼音提取：pinyin
- 部首提取：radical
- 文本糾錯：checker
- 句子表徵及相似度計算：sentence_vector
- 並行處理
三. 更多
- 貢獻者
- 學術引用
- 需求定制
- 交流群
Refrence
License

一. 安裝

安裝最新版xmnlp

pip install -U xmnlp

國內用戶可以加一下index-url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

安裝完包之後，還需要下載模型權重才可正常使用

模型下載

請下載xmnlp 對應版本的模型，如果不清楚xmnlp 的版本，可以執行python -c 'import xmnlp; print(xmnlp.__version__)'查看版本

模型名稱	適用版本	下載地址
xmnlp-onnx-models-v5.zip	v0.5.0, v0.5.1, v0.5.2, v0.5.3	飛書[IGHI] \| 百度網盤[l9id]
xmnlp-onnx-models-v4.zip	v0.4.0	飛書[DKLa] \| 百度網盤[j1qi]
xmnlp-onnx-models-v3.zip	v0.3.2, v0.3.3	飛書[o4bA] \| 百度網盤[9g7e]

配置模型

下載模型後需要設置模型路徑xmnlp 才可以正常運行。提供兩種配置方式

方式1：配置環境變量（推薦）

下載好的模型解壓後，可以設置環境變量指定模型地址。以Linux 系統為例，設置如下

 export XMNLP_MODEL=/path/to/xmnlp-models

方式2：通過函數設置

在調用xmnlp 前設置模型地址，如下

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* 上述/path/to/只是佔位用的，配置時請替換成模型真實的目錄地址。

二. 使用文檔

xmnlp.seg(text: str) -> List[str]

中文分詞（默認），基於逆向最大匹配來分詞，採用RoBERTa + CRF 來進行新詞識別。

參數：

text：輸入文本

結果返回：

列表，分詞後的結果

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg(text: str) -> List[str]

基於逆向最大匹配來分詞，不包含新詞識別，速度較快。

參數：

text：輸入文本

結果返回：

列表，分詞後的結果

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg(text: str) -> List[str]

基於RoBERTa + CRF 模型，速度較慢。當前深度接口只支持簡體中文，不支持繁體。

參數：

text：輸入文本

結果返回：

列表，分詞後的結果

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag(text: str) -> List[Tuple(str, str)]

詞性標註。

參數：

text：輸入文本

結果返回：

詞和詞性元組組成的列表

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag(text: str) -> List[Tuple(str, str)]

基於逆向最大匹配，不包含新詞識別，速度較快。

參數：

text：輸入文本

結果返回：

詞和詞性元組組成的列表

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag(text: str) -> List[Tuple(str, str)]

基於RoBERTa + CRF 模型，速度較慢。當前深度接口只支持簡體中文，不支持繁體。

參數：

text：輸入文本

結果返回：

詞和詞性元組組成的列表

示例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

分詞&詞性標註自定義字典

支持用戶自定義字典，字典格式為

词1 词性1
词2 词性2

也兼容jieba 分詞的字典格式

词1 词频1 词性1
词2 词频2 词性2

注：上述行內的間隔符為空格

使用示例：

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner(text: str) -> List[Tuple(str, str, int, int)]

命名體識別，支持識別的實體類型為：

TIME：時間
LOCATION：地點
PERSON：人物
JOB：職業
ORGANIZAIRION：機構

參數：

text：輸入文本

結果返回：

實體、實體類型、實體起始位置和實體結尾位置組成的列表

示例：

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword(text: str, k: int = 10, stopword: bool = True, allowPOS: Optional[List[str]] = None) -> List[Tuple[str, float]]

從文本中提取關鍵詞，基於Textrank 算法。

參數：

text：文本輸入
k：返回關鍵詞的個數
stopword：是否去除停用詞
allowPOS：配置允許的詞性

結果返回：

由關鍵詞和權重組成的列表

示例：

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase(text: str, k: int = 10, stopword: bool = False) -> List[str]

從文本中提取關鍵句，基於Textrank 算法。

參數：

text：文本輸入
k：返回關鍵詞的個數
stopword：是否去除停用詞

結果返回：

由關鍵詞和權重組成的列表

示例：

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment(text: str) -> Tuple[float, float]

情感識別，基於電商評論語料訓練，適用於電商場景下的情感識別。

參數：

text：輸入文本

結果返回：

元組，格式為：[負向情感概率，正向情感概率]

示例：

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin(text: str) -> List[str]

文本轉拼音

參數：

text：輸入文本

結果返回：

拼音組成的列表

示例：

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radical(text: str) -> List[str]

提取文本部首

參數：

text：輸入文本

結果返回：

部首組成的列表

示例：

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker(text: str, suggest: bool = True, k: int = 5, max_k: int = 200) -> Union[ List[Tuple[int, str]], Dict[Tuple[int, str], List[Tuple[str, float]]]]:

文本糾錯

參數：

text：輸入文本
suggest：是否返回建議詞
k：返回建議詞的個數
max_k：拼音搜索最大次數（建議保持默認值）

結果返回：

suggest 為False 時返回(錯詞下標，錯詞) 列表；suggest 為True 時返回字典，字典鍵為(錯詞下標，錯詞) 列表，值為建議詞以及權重列表。

示例：

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.SentenceVector(model_dir: Optional[str] = None, genre: str = '通用', max_length: int = 512)

SentenceVector 初始化函數

model_dir: 模型保存地址，默認加載xmnlp 提供的模型權重
genre: 內容類型，目前支持['通用', '金融', '國際'] 三種
max_length: 輸入文本的最大長度，默認512

以下是SentenceVector 的三個成員函數

xmnlp.sv.SentenceVector.transform(self, text: str) -> np.ndarray

xmnlp.sv.SentenceVector.similarity(self, x: Union[str, np.ndarray], y: Union[str, np.ndarray]) -> float

xmnlp.sv.SentenceVector.most_similar(self, query: str, docs: List[str], k: int = 1, **kwargs) -> List[Tuple[str, float]]

query: 查詢內容
docs: 文檔列表
k: 返回topk 相似文本
kwargs: KDTree 的參數，詳見sklearn.neighbors.KDTree

使用示例

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

輸出

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

並行處理

新版本不再提供對應的並行處理接口，需要使用xmnlp.utils.parallel_handler來定義並行處理接口。

接口如下：

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

使用示例：

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

三. 更多

關於貢獻者

期待更多小伙伴的contributions，一起打造一款簡單易用的中文NLP 工具

學術引用Citation

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

需求定制

本人致力於NLP 研究和落地，方向包括：信息抽取，情感分類等。

其他NLP 落地需求可以聯繫[email protected] （此為有償服務，xmnlp 相關的bug 直接提issue）

交流群

搜索公眾號xmnlp-ai關注，菜單選擇“交流群” 入群。

Reference

本項目採用的數據主要有：

詞法分析，文本糾錯：人民日報語料
情感識別：ChineseNlpCorpus

License

Apache 2.0

大部分模型基於LangML 搭建

展開