xmnlp -Download - xmnlp -Quellcode herunterladen

XMNLP: Ein Open -Source -Chinesisch -Toolkit für natürliche Sprachverarbeitungen außerhalb der Schachtel

XMNLP: Ein aus dem Box chinesischer natürlicher Sprachverarbeitungs-Toolkit

Funktionsübersicht

Chinesische lexikalische Analyse (Roberta + CRF -Fellentune)
- Partizip
- Teil der Sprachanmerkung
- Benannte Körpererkennung
- Unterstützt kundenspezifische Wörterbücher
Chinesische Rechtschreibprüfung (Detektor + Korrektor Rechtschreibvorsprung)
Textübersicht und Keyword -Extraktion (Textrank)
Stimmungsanalyse (Roberta Finetune)
Text an Pinyin (Trie)
Chinesische Zeichen Radikale (Hashmap)
Satzdarstellung und Ähnlichkeitsberechnung

Gliederung

1. Installation
- Modell Download
- Konfigurationsmodell
2. Verwenden Sie das Dokument
- Standardpartizip: Seg
  - Schnelles Partizip: Fast_seg
  - Tiefe Partizip: Deep_seg
- Teil der Sprachanträge: Tag
  - Schneller Teil der Sprache Annotation: fast_tag
  - Tiefe Teil der Sprache Annotation: Deep_tag
- Wortteiler und Teil des Wortes Annotation Custom Dictionary
- Benannte Körpererkennung: Ner
- Schlüsselwortxtraktion: Schlüsselwort
- Extraktion der Schlüsselanweisung: Tastatur
- Emotionale Erkennung: Gefühl
- Pinyin -Extraktion: Pinyin
- Radikale Extraktion: radikal
- Textfehlerkorrektur: Checker
- Satzdarstellung und Ähnlichkeitsberechnung: Satz_Vektor
- Parallele Verarbeitung
3. Mehr
- Mitwirkende
- Akademische Zitate
- Benötigen Sie eine Anpassung
- Kommunikationsgruppe
Auffressen
Lizenz

1. Installation

Installieren Sie die neueste Version von XMNLP

pip install -U xmnlp

Inländische Benutzer können Index-URL hinzufügen

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

Nach der Installation des Pakets müssen Sie auch die Modellgewichte herunterladen, die normal verwendet werden sollen.

Modell Download

Bitte laden Sie die entsprechende Version des XMNLP -Modells herunter. Wenn Sie sich nicht über die Version von XMNLP klar machen, können Sie python -c 'import xmnlp; print(xmnlp.__version__)' , um die Version anzuzeigen

Modellname	Anwendbare Version	Adresse herunterladen
xmnlp-onnx-models-v5.zip	v0.5.0, v0.5.1, v0.5.2, v0.5.3	Feishu [Ighi] \| Baidu NetDisk [L9ID]
xmnlp-onnx-models-v4.zip	v0.4.0	Feishu [dkla] \| Baidu NetDisk [J1qi]
xmnlp-onnx-models-v3.zip	v0.3.2, v0.3.3	Feishu [O4ba] \| Baidu NetDisk [9G7E]

Konfigurationsmodell

Nach dem Herunterladen des Modells müssen Sie den Modellpfad XMNLP so festlegen, dass es normal ausgeführt wird. Es werden zwei Konfigurationsmethoden bereitgestellt

Methode 1: Umgebungsvariablen konfigurieren (empfohlen)

Nachdem das heruntergeladene Modell dekomprimiert wurde, können Sie die Umgebungsvariable festlegen, um die Modelladresse anzugeben. Wenn Sie als Beispiel das Linux -System nehmen, sind die Einstellungen wie folgt

 export XMNLP_MODEL=/path/to/xmnlp-models

Methode 2: Einstellen durch Funktionen

Legen Sie die Modelladresse vor, bevor Sie XMNLP wie folgt aufrufen

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* Das obige /path/to/ ist nur für Platzhalter. Bitte ersetzen Sie es durch die reale Verzeichnisadresse des Modells beim Konfigurieren.

2. Verwenden Sie das Dokument

xmnlp.seg (Text: STR) -> LISTE [STR]

Die chinesische Wortsegmentierung (Standard), basierend auf inversen maximale Übereinstimmung, wird Roberta + CRF zur neuen Wortkennung verwendet.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste, Ergebnisse nach Word -Segmentierung

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (Text: str) -> Liste [STR]

Die Wortsegmentierung basierend auf der umgekehrten maximalen Übereinstimmung beinhaltet keine neue Worterkennung und ist schneller.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste, Ergebnisse nach Word -Segmentierung

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (Text: str) -> Liste [STR]

Basierend auf dem Roberta + CRF -Modell ist die Geschwindigkeit langsamer. Derzeit unterstützt Deep Interface nur vereinfachte Chinesen, nicht traditionelle Chinesen.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste, Ergebnisse nach Word -Segmentierung

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (Text: STR) -> LISTE [TUPLE (STR, STR)]

Teil der Sprachannotation.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste von Wörtern und Speech-Tupeln

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (text: str) -> list [tuple (str, str)]

Basierend auf der umgekehrten maximalen Übereinstimmung enthält es keine neue Worterkennung und ist schneller.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste von Wörtern und Speech-Tupeln

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (text: str) -> list [tuple (str, str)]

Basierend auf dem Roberta + CRF -Modell ist die Geschwindigkeit langsamer. Derzeit unterstützt Deep Interface nur vereinfachte Chinesen, nicht traditionelle Chinesen.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste von Wörtern und Speech-Tupeln

Beispiel:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Wortteiler und Teil des Wortes Annotation Custom Dictionary

Unterstützung des benutzerdefinierten Wörterbuchs, Wörterbuchformat ist

词1 词性1
词2 词性2

Auch kompatibel mit dem Wörterbuchformat von Jieba Partizip

词1 词频1 词性1
词2 词频2 词性2

Hinweis: Der Abstandhalter in der obigen Linie ist Platz

Beispiel der Nutzung:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (Text: str) -> Liste [Tuple (str, str, int, int)]

Die genannte Körpererkennung, die Entitätstypen, die die Erkennung unterstützen, sind:

Zeit: Zeit
Ort: Ort
Person: Charaktere
Job: Karriere
Organisation: Organisation

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste der Entitäten, Entitätstypen, Startpositionen und Entitätspositionen der Entität

Beispiel:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.Keyword (Text: str, k: int = 10, stopword: bool = true, erlaubtenPos: optional [liste [str]] = keine) -> list [tuple [str, float]]

Extrahieren Sie Schlüsselwörter aus Text, basierend auf dem Texttrank -Algorithmus.

Parameter:

Text: Texteingabe
K: Geben Sie die Anzahl der Schlüsselwörter zurück
STOPWORD: Ob das Stoppword entfernen soll
zulässtPos: Konfigurieren Sie erlaubte Wortqualität

Das Ergebnis kehrt zurück:

Liste der Schlüsselwörter und Gewichte

Beispiel:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.Keyphrase (Text: str, k: int = 10, Stoppword: bool = false) -> Liste [STR]

Extrahieren Sie Schlüsselsätze aus Text, basierend auf dem Texttrank -Algorithmus.

Parameter:

Text: Texteingabe
K: Geben Sie die Anzahl der Schlüsselwörter zurück
STOPWORD: Ob das Stoppword entfernen soll

Das Ergebnis kehrt zurück:

Liste der Schlüsselwörter und Gewichte

Beispiel:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.Sentiment (Text: STR) -> Tuple [Float, Float]

Die emotionale Erkennung basiert auf dem Corpus-Training von E-Commerce Review und eignet sich für die emotionale Anerkennung in E-Commerce-Szenarien.

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Tupel, Format: [Wahrscheinlichkeit der negativen Emotion, positive Emotionswahrscheinlichkeit]

Beispiel:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (Text: STR) -> LISTE [STR]

Text zu Pinyin

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste von Pinyin

Beispiel:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (Text: str) -> Liste [STR]

Textradikale extrahieren

Parameter:

Text: Text eingeben

Das Ergebnis kehrt zurück:

Liste der Radikale

Beispiel:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.Checker (Text: str, schlage: bool = true, k: int = 5, max_k: int = 200) -> Union [List [Tuple [int, str]], dict [tuple [int, str], list [tuple [str, float]]]:

Textfehlerkorrektur

Parameter:

Text: Text eingeben
Schlagen Sie vor: ob Sie das vorgeschlagene Wort zurückgeben möchten
K: Geben Sie die Anzahl der vorgeschlagenen Wörter zurück
MAX_K: Maximale Anzahl von Pinyin -Suchvorgängen (es wird empfohlen, den Standardwert beizubehalten)

Das Ergebnis kehrt zurück:

Wenn Vorschlag falsch ist, gibt es eine Liste von (FACIAL WORD SAGUSCRISCT, falschem Wort) zurück. Wenn dies vorgeschlagen wird, gibt es ein Wörterbuch zurück, der Wörterbuchschlüssel ist (Falsches Wort -Einweis, falsches Wort) und die Werte sind die vorgeschlagenen Wörter und die Gewichtsliste.

Beispiel:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.SentenceVector (model_dir: optional [str] = keine, genre: str = 'generic', max_length: int = 512)

Satzvektorinitialisierungsfunktion

model_dir: Die Modellsparadresse und das von XMNLP bereitgestellte Modellgewicht wird standardmäßig geladen
Genre: Inhaltstyp unterstützt derzeit drei Typen: ["Generika", "finanziell", "international"]
max_length: Die maximale Länge des Eingangstextes, Standard 512

Im Folgenden sind die drei Mitgliedsfunktionen von SatzVector aufgeführt

xmnlp.sv.SentenceVector.Transform (Selbst, Text: STR) -> NP.NDARRAY

xmnlp.sv.SentenceVector.Simility (Selbst, X: Union [STR, NP.NDARRAY], Y: Union [STR, NP.NDARRAY]) -> Float

xmnlp.sv.sentenceVector.most_simailar (Selbst, Abfrage: str, docs: list [str], k: int = 1, ** kwargs) -> list [tuple [str, float]]

Abfrage: Inhalt abfragen
Dokumente: Dokumentliste
K: Topk ähnlicher Text zurückgeben
KWARGS: KDTREE -Parameter, siehe Sklearn.Neighbors.kdtree

Beispiel für die Nutzung

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Ausgabe

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Parallele Verarbeitung

Die neue Version bietet nicht mehr die entsprechende parallele Verarbeitungsschnittstelle und erfordert die Verwendung von xmnlp.utils.parallel_handler , um die parallele Verarbeitungsschnittstelle zu definieren.

Die Schnittstelle lautet wie folgt:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Beispiel der Nutzung:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Mehr

Über Mitwirkende

Ich freue mich auf weitere Beiträge von Freunden, um ein einfaches und benutzerfreundliches chinesisches NLP-Tool zu erstellen

Akademisches Zitatzitat

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Benötigen Sie eine Anpassung

Ich bin der NLP -Forschung und -implementierung verpflichtet, und meine Anweisungen umfassen: Informationsextraktion, emotionale Klassifizierung usw.

Für andere Anforderungen an die NLP -Implementierung wenden Sie sich bitte an [email protected] (dies ist ein bezahlter Dienst, und die mit XMNLP bezogenen Fehler können direkt gemeldet werden).

Kommunikationsgruppe

Suchen Sie das offizielle Konto xmnlp-ai , um "Kommunikationsgruppe" im Menü auszuwählen, um der Gruppe beizutreten.

Referenz

Die in diesem Projekt verwendeten Daten sind hauptsächlich:

Lexikalanalyse, Textfehlerkorrektur: Tägliches Zitat der Menschen
Emotionale Erkennung: Chinesenlpcorpus

Lizenz

Apache 2.0

Die meisten Modelle basieren auf Langml

Expandieren