xmnlpダウンロードxmnlpソースコードのダウンロード

XMNLP：オープンソース中国の自然言語処理ツールキットが箱から出して

XMNLP：すぐに使える中国の自然言語処理ツールキット

機能の概要

中国の語彙分析（Roberta + CRF Finetune）
- 分詞
- 音声注釈の一部
- 名前付き身体認識
- カスタム辞書をサポートします
中国のスペルチェック（検出器 +修正装置スペルチェック）
テキストの概要とキーワード抽出（テキストラン）
センチメント分析（Roberta Finetune）
Pinyin（Trie）へのテキスト
漢字ラジカル（ハッシュマップ）
文の表現と類似性の計算

概要

1。インストール
- モデルダウンロード
- 構成モデル
2。ドキュメントを使用します
- デフォルト分詞：SEG
  - 高分詞：fast_seg
  - 深さ分詞：deep_seg
- 音声注釈の一部：タグ
  - 音声注釈の高速部分：fast_tag
  - ディープパーツアニット：deep_tag
- 単語部分と単語アノテーションカスタム辞書の部分
- 名前付きボディ認識：NER
- キーワード抽出：キーワード
- キーステートメント抽出：キーフレーズ
- 感情的な認識：感情
- ピンイン抽出：ピンイン
- ラジカル抽出：ラジカル
- テキストエラー修正：チェッカー
- 文の表現と類似性の計算：cente_vector
- 並列処理
3。もっと
- 貢献者
- アカデミックな引用
- カスタマイズが必要です
- コミュニケーショングループ
補正
ライセンス

1。インストール

XMNLPの最新バージョンをインストールします

pip install -U xmnlp

国内ユーザーはIndex-URLを追加できます

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

パッケージをインストールした後、正常に使用するモデルの重みをダウンロードする必要もあります。

モデルダウンロード

XMNLPモデルの対応するバージョンをダウンロードしてください。 xmnlpのバージョンについて明確でない場合は、 python -c 'import xmnlp; print(xmnlp.__version__)'バージョンを表示します

モデル名	該当するバージョン	アドレスをダウンロードしてください
xmnlp-onnx-models-v5.zip	v0.5.0、v0.5.1、v0.5.2、v0.5.3	Feishu [Ighi] \| baidu netdisk [l9id]
xmnlp-onnx-models-v4.zip	V0.4.0	Feishu [dkla] \| baidu netdisk [j1qi]
xmnlp-onnx-models-v3.zip	v0.3.2、v0.3.3	Feishu [o4ba] \| Baidu Netdisk [9G7E]

構成モデル

モデルをダウンロードした後、正常に実行するようにモデルパスXMNLPを設定する必要があります。 2つの構成方法が提供されています

方法1：環境変数の構成（推奨）

ダウンロードされたモデルが減圧された後、環境変数を設定してモデルアドレスを指定できます。 Linuxシステムを例にとると、設定は次のとおりです

 export XMNLP_MODEL=/path/to/xmnlp-models

方法2：関数を設定します

次のように、XMNLPを呼び出す前にモデルアドレスを設定します

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

*上記/path/to/プレースホルダーのみです。構成するときは、モデルの実際のディレクトリアドレスに置き換えてください。

2。ドキュメントを使用します

xmnlp.seg（テキスト：str） - > list [str]

中国語の単語セグメンテーション（デフォルト）は、逆の最大マッチングに基づいて、新しい単語認識に使用されます。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

リスト、単語セグメンテーション後の結果

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg（テキスト：str） - > list [str]

逆の最大マッチングに基づく単語セグメンテーションには、新しい単語認識は含まれておらず、高速です。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

リスト、単語セグメンテーション後の結果

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg（テキスト：str） - > list [str]

Roberta + CRFモデルに基づいて、速度が遅くなります。現在、ディープインターフェイスは、伝統的な中国人ではなく、単純化された中国人のみをサポートしています。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

リスト、単語セグメンテーション後の結果

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag（テキスト：str） - > list [tuple（str、str）]

音声注釈の一部。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

単語のリストとスピーチの一部のタプル

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag（text：str） - > list [tuple、str）]

逆の最大マッチングに基づいて、新しい単語認識は含まれておらず、高速です。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

単語のリストとスピーチの一部のタプル

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag（text：str） - > list [tuple（str）]]

テキスト：テキストを入力します

結果が返されます：

単語のリストとスピーチの一部のタプル

例：

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

単語部分と単語アノテーションカスタム辞書の部分

ユーザー定義の辞書、辞書形式をサポートします

词1 词性1
词2 词性2

また、Jieba分詞の辞書形式と互換性があります

词1 词频1 词性1
词2 词频2 词性2

注：上記のラインのスペーサーはスペースです

使用例：

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner（テキスト：str） - > list [tuple（str、str、int、int）]

名前付きの身体認識、認識をサポートするエンティティタイプは次のとおりです。

時間：時間
場所：場所
人：キャラクター
仕事：キャリア
組織：組織

パラメーター：

テキスト：テキストを入力します

結果が返されます：

エンティティ、エンティティの種類、エンティティの開始位置、エンティティエンドポジションのリスト

例：

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword（テキスト：str、k：int = 10、stopword：bool = true、approapos：optional [list [str]] = none） - > list [tuple [str、float]]]

TextTrankアルゴリズムに基づいて、テキストからキーワードを抽出します。

パラメーター：

テキスト：テキスト入力
K：キーワードの数を返します
stopword：stopwordを削除するかどうか
Allowpos：許可された単語品質を構成します

結果が返されます：

キーワードと重みのリスト

例：

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase（text：str、k：int = 10、stopword：bool = false） - > list [str]

TextTrankアルゴリズムに基づいて、テキストから重要な文を抽出します。

パラメーター：

テキスト：テキスト入力
K：キーワードの数を返します
stopword：stopwordを削除するかどうか

結果が返されます：

キーワードと重みのリスト

例：

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment（テキスト：str） - > tuple [float、float]

感情的な認識は、eコマースレビューコーパストレーニングに基づいており、eコマースシナリオでの感情的認識に適しています。

パラメーター：

テキスト：テキストを入力します

結果が返されます：

タプル、形式：[負の感情確率、ポジティブな感情確率]

例：

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin（テキスト：str） - > list [str]

ピンインへのテキスト

パラメーター：

テキスト：テキストを入力します

結果が返されます：

ピニインのリスト

例：

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical（text：str） - > list [str]

テキストラジカルを抽出します

パラメーター：

テキスト：テキストを入力します

結果が返されます：

ラジカルのリスト

例：

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker（Text：str、spruck：bool = true、k：int = 5、max_k：int = 200） - > union [list [tuple [int、str]]、dict [tuple [int、str]、list [tuple、float]]]]：

テキストエラー修正

パラメーター：

テキスト：テキストを入力します
提案：提案された単語を返すかどうか
K：提案された単語の数を返します
MAX_K：PINYIN検索の最大数（デフォルト値を保持することをお勧めします）

結果が返されます：

提案がfalseである場合、それは（間違った単語の下付き文字、間違った単語）のリストを返します。提案が真である場合、辞書を返し、辞書のキーは（間違った単語の下付き文字、間違った単語）であり、値は提案された単語と重量リストです。

例：

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentencevector（model_dir：optional [str] = none、genre：str = 'generic'、max_length：int = 512）

centevector初期化関数

model_dir：モデルの保存アドレスを保存し、xmnlpによって提供されるモデルの重みはデフォルトで読み込まれます
ジャンル：コンテンツタイプ、現在3つのタイプをサポートしています：['generic'、 'Financial'、 'International']
max_length：入力テキストの最大長、デフォルト512

以下は、SenteVectorの3つのメンバー関数です

xmnlp.sv.sentencevector.transform（self、text：str） - > np.ndarray

xmnlp.sv.sentencevector.similarity（self、x：union [str、np.ndarray]、y：union [str、np.ndarray]） - > float

xmnlp.sv.sentencevector.most_similar（self、query：str、docs：list [str]、k：int = 1、** kwargs） - > list [tuple [str、float]]]

クエリ：クエリコンテンツ
ドキュメント：ドキュメントリスト
K：Topk同様のテキストを返します
Kwargs：Kdtreeパラメーター、sklearn.neighbors.kdtreeを参照してください

使用の例

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

出力

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

並列処理

新しいバージョンは、対応する並列処理インターフェイスを提供しなくなり、 xmnlp.utils.parallel_handlerを使用して並列処理インターフェイスを定義する必要があります。

インターフェイスは次のとおりです。

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

使用例：

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3。もっと

貢献者について

シンプルで使いやすい中国のNLPツールを作成するためのより多くの友達の貢献を楽しみにしています

アカデミック引用引用

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

カスタマイズが必要です

私はNLPの研究と実装にコミットしており、私の方向には以下が含まれます。

他のNLP実装のニーズについては、[email protected]にお問い合わせください（これは有料サービスであり、XMNLPに関連するバグを直接報告できます）

コミュニケーショングループ

公式アカウントxmnlp-aiを検索するには、メニューで「通信グループ」を選択してグループに参加します。

参照

このプロジェクトで使用されるデータは主に次のとおりです。

語彙分析、テキストエラー修正：人々の毎日の見積もり
感情的な認識：Chinesenlpcorpus

ライセンス

Apache 2.0

ほとんどのモデルはLANGML上に構築されています

拡大する