Téléchargement xmnlp - Téléchargement du code source xmnlp

XMNLP: une boîte à outils de traitement de la langue naturelle chinoise open source hors de la boîte

XMNLP: une boîte à outils de traitement du langage naturel extérieur à l'emplacement chinois

Présentation des fonctionnalités

Analyse lexicale chinoise (Roberta + CRF Finetune)
- Participe
- Une partie de l'annotation de la parole
- Reconnaissance du corps nommée
- Prend en charge les dictionnaires personnalisés
Vérification orthographique chinoise (détecteur + correcteur orthographié)
Résumé du texte et extraction de mots clés (Textrank)
Analyse des sentiments (Roberta Finetune)
Texte à Pinyin (Trie)
Radicaux de caractères chinois (hashmap)
Représentation des phrases et calcul de la similitude

Contour

1. Installation
- Téléchargement du modèle
- Modèle de configuration
2. Utilisez le document
- Particulement par défaut: SEG
  - Participe rapide: Fast_seg
  - Préci-partage de profondeur: Deep_seg
- Une partie de l'annotation de la parole: tag
  - Partie rapide de l'annotation de la parole: Fast_tag
  - Annotation profonde de la parole: Deep_tag
- Mot Partials & partiels of word annotation dictionary personnalisé
- Reconnaissance du corps nommée: NER
- Extraction des mots clés: mot-clé
- Extraction des déclarations de clé: KeyPhrase
- Reconnaissance émotionnelle: sentiment
- Extraction de pinyin: pinyin
- Extraction radicale: radicale
- Correction d'erreur de texte: vérificateur
- Représentation des phrases et calcul de la similitude: phrase_vector
- Traitement parallèle
3. Plus
- Contributeurs
- Citations académiques
- Besoin de personnalisation
- Groupe de communication
Réflexion
Licence

1. Installation

Installez la dernière version de XMNLP

pip install -U xmnlp

Les utilisateurs domestiques peuvent ajouter l'index-URL

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

Après avoir installé le package, vous devez également télécharger les poids du modèle à utiliser normalement.

Téléchargement du modèle

Veuillez télécharger la version correspondante du modèle XMNLP. Si vous n'êtes pas clair sur la version de XMNLP, vous pouvez exécuter python -c 'import xmnlp; print(xmnlp.__version__)' Pour afficher la version

Nom du modèle	Version applicable	Adresse de téléchargement
xmnlp-onNx-models-v5.zip	v0.5.0, v0.5.1, v0.5.2, v0.5.3	Feishu [igi] \| Baidu Netdisk [L9ID]
xmnlp-onNX-modes-V4.zip	v0.4.0	Feishu [dkla] \| Baidu netdisk [j1qi]
xmnlp-onNX-modes-v3.zip	v0.3.2, v0.3.3	Feishu [o4ba] \| Baidu Netdisk [9G7E]

Modèle de configuration

Après avoir téléchargé le modèle, vous devez définir le chemin du modèle XMNLP pour s'exécuter normalement. Deux méthodes de configuration sont fournies

Méthode 1: Configurer les variables de l'environnement (recommandées)

Une fois le modèle téléchargé décompressé, vous pouvez définir la variable d'environnement pour spécifier l'adresse du modèle. Prenant l'exemple du système Linux, les paramètres sont les suivants

 export XMNLP_MODEL=/path/to/xmnlp-models

Méthode 2: Définition à travers les fonctions

Définissez l'adresse du modèle avant d'appeler XMNLP, comme suit

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* Le ci-dessus /path/to/ est uniquement pour l'espace réservé. Veuillez le remplacer par la véritable adresse du répertoire du modèle lors de la configuration.

2. Utilisez le document

xmnlp.seg (texte: str) -> list [str]

Segmentation chinoise des mots (par défaut), basée sur une correspondance maximale inverse, Roberta + CRF est utilisé pour la reconnaissance de nouveaux mots.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste, résultats après la segmentation des mots

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (texte: str) -> list [str]

La segmentation des mots basée sur la correspondance maximale inverse n'inclut pas la reconnaissance de nouveaux mots et est plus rapide.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste, résultats après la segmentation des mots

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (texte: str) -> list [str]

Sur la base du modèle Roberta + CRF, la vitesse est plus lente. Actuellement, une interface profonde ne prend en charge que le chinois simplifié, et non le chinois traditionnel.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste, résultats après la segmentation des mots

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (texte: str) -> list [tuple (str, str)]]

Partie de l'annotation de la parole.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste des mots et des tuples d'une partie du discours

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (texte: str) -> list [tuple (str, str)]]

Sur la base d'une correspondance maximale inverse, elle n'inclut pas de nouvelle reconnaissance de mots et est plus rapide.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste des mots et des tuples d'une partie du discours

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (texte: str) -> list [tuple (str, str)]]

Sur la base du modèle Roberta + CRF, la vitesse est plus lente. Actuellement, une interface profonde ne prend en charge que le chinois simplifié, et non le chinois traditionnel.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste des mots et des tuples d'une partie du discours

Exemple:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Mot Partials & partiels of word annotation dictionary personnalisé

Prise en charge du dictionnaire défini par l'utilisateur, le format du dictionnaire est

词1 词性1
词2 词性2

Également compatible avec le format dictionnaire de Jieba participe

词1 词频1 词性1
词2 词频2 词性2

Remarque: l'espaceur dans la ligne ci-dessus est l'espace

Exemple d'utilisation:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (texte: str) -> list [tuple (str, str, int, int)]]

Nommé la reconnaissance corporelle, les types d'entités qui soutiennent la reconnaissance sont:

Temps: heure
Emplacement: Lieu
Personne: personnages
Travail: carrière
Organisation: Organisation

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste des entités, des types d'entités, des positions de démarrage des entités et des positions finales d'entité

Exemple:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (texte: str, k: int = 10, mot stop: bool = true, allowpos: facultatif [list [str]] = non) -> list [tuple [str, float]]

Extraire les mots clés du texte, basé sur l'algorithme TextTrank.

paramètre:

Texte: entrée de texte
K: Renvoyez le nombre de mots clés
MOT DE MOTAGE: SO SPÉRER MOT DE MOTS
AllowPos: configurer la qualité des mots autorisés

Le résultat renvoie:

Liste des mots clés et des poids

Exemple:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.KeyPhrase (texte: str, k: int = 10, mot stop: bool = false) -> list [str]

Extraire les phrases clés du texte, en fonction de l'algorithme TextTrank.

paramètre:

Texte: entrée de texte
K: Renvoyez le nombre de mots clés
MOT DE MOTAGE: SO SPÉRER MOT DE MOTS

Le résultat renvoie:

Liste des mots clés et des poids

Exemple:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (texte: str) -> tuple [float, float]

La reconnaissance émotionnelle est basée sur la formation du corpus de revue électronique et convient à la reconnaissance émotionnelle dans les scénarios de commerce électronique.

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Tuple, Format: [Probabilité d'émotion négative, probabilité d'émotion positive]

Exemple:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (texte: str) -> list [str]

Texte à pinyin

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste de Pinyin

Exemple:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (texte: str) -> list [str]

Extraire des radicaux texte

paramètre:

Texte: entrez le texte

Le résultat renvoie:

Liste des radicaux

Exemple:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (texte: str, suggère: bool = true, k: int = 5, max_k: int = 200) -> Union [list [tuple [int, str]], dict [tuple [int, str], liste [Tuple [str, float]]]]:

Correction d'erreur de texte

paramètre:

Texte: entrez le texte
suggérer: s'il faut retourner le mot suggéré
K: Renvoyez le nombre de mots suggérés
MAX_K: Nombre maximum de recherches de pinyin (il est recommandé de conserver la valeur par défaut)

Le résultat renvoie:

Lorsque la suggestion est fausse, il renvoie une liste de (mauvais indice de mot, mauvais mot); Lorsque la suggestion est vraie, elle renvoie un dictionnaire, la clé du dictionnaire est (mauvais indice de mot, mauvais mot), et les valeurs sont la liste des mots et des poids suggérés.

Exemple:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sencevector (modèle_dir: facultatif [str] = aucun, genre: str = 'générique', max_length: int = 512)

Fonction d'initialisation du vecteur de phrase

Model_dir: l'adresse de sauvegarde du modèle, et le poids du modèle fourni par XMNLP est chargé par défaut
Genre: Type de contenu, prend actuellement en charge trois types: [«générique», «financier», «international»]
max_length: la longueur maximale du texte d'entrée, par défaut 512

Voici les trois fonctions membres de la phrase Vector

xmnlp.sv.sencevector.transform (self, texte: str) -> np.ndarray

xmnlp.sv.sencevector.similarity (self, x: Union [str, np.ndarray], y: Union [str, np.ndarray]) -> float

xmnlp.sv.sencevector.most_similar (self, requête: str, docs: list [str], k: int = 1, ** kwargs) -> list [tuple [str, float]]

requête: contenu de requête
Docs: liste de documents
K: Renvoie un texte similaire TOPK
Kwargs: paramètres de Kdtree, voir sklearn.neighbors.kdtree

Exemple d'utilisation

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Sortir

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Traitement parallèle

La nouvelle version ne fournit plus l'interface de traitement parallèle correspondante et nécessite l'utilisation de xmnlp.utils.parallel_handler pour définir l'interface de traitement parallèle.

L'interface est la suivante:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Exemple d'utilisation:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Plus

À propos des contributeurs

Dans l'attente des contributions de plus d'amis pour créer un outil NLP chinois simple et facile à utiliser

Citation de citation académique

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Besoin de personnalisation

Je m'engage à rechercher et à mettre en œuvre la PNL, et mes instructions incluent: l'extraction d'informations, la classification émotionnelle, etc.

Pour d'autres besoins de mise en œuvre de la PNL, veuillez contacter [email protected] (il s'agit d'un service payant, et les bogues liés à XMNLP peuvent être directement signalés)

Groupe de communication

Recherchez le compte officiel xmnlp-ai à suivre, sélectionnez "Communication Group" dans le menu pour rejoindre le groupe.

Référence

Les données utilisées dans ce projet sont principalement:

Analyse lexicale, correction d'erreur de texte: citation quotidienne des gens
Reconnaissance émotionnelle: Chinesenlpcorpus

Licence

Apache 2.0

La plupart des modèles sont construits sur Langml

Développer