Descargar xmnlp - Descargar el código fuente de xmnlp

XMNLP: un kit de herramientas de procesamiento de lenguaje natural chino de código abierto

XMNLP: un kit de herramientas de procesamiento de lenguaje natural chino listos para usar

Descripción general

Análisis léxico chino (Roberta + CRF Finetune)
- Participio
- Parte de la anotación del habla
- Reconocimiento corporal nombrado
- Admite diccionarios personalizados
Refector ortográfico chino (detector + corrector ortográfico)
Resumen de texto y extracción de palabras clave (TexTrank)
Análisis de sentimientos (Roberta Finetune)
Texto a Pinyin (Trie)
Radicales de caracteres chinos (hashmap)
Representación de oraciones y cálculo de similitud

Describir

1. Instalación
- Descargar modelo
- Modelo de configuración
2. Use el documento
- Participio predeterminado: SEG
  - Participio rápido: fast_seg
  - Participio de profundidad: profundo_seg
- Parte de la anotación del habla: etiqueta
  - Parte rápida de la anotación del habla: Fast_tag
  - Anotación de la parte profunda de la voz: profundo_tag
- Diccionario personalizado de parcias y parcialidades de palabras de Word
- Reconocimiento corporal nombrado: ner
- Extracción de palabras clave: palabra clave
- Extracción de instrucción clave: frase de claves
- Reconocimiento emocional: sentimiento
- Extracción de pinyin: pinyin
- Extracción radical: radical
- Corrección de errores de texto: verificador
- Representación de oraciones y cálculo de similitud: oración_vector
- Procesamiento paralelo
3. Más
- Colaboradores
- Citas académicas
- Necesito personalización
- Grupo de comunicación
Referencia
Licencia

1. Instalación

Instale la última versión de XMNLP

pip install -U xmnlp

Los usuarios nacionales pueden agregar índice-url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

Después de instalar el paquete, también debe descargar los pesos del modelo que se utilizarán normalmente.

Descargar modelo

Descargue la versión correspondiente del modelo XMNLP. Si no está claro sobre la versión de XMNLP, puede ejecutar python -c 'import xmnlp; print(xmnlp.__version__)' para ver la versión

Nombre del modelo	Versión aplicable	Dirección de descarga
XMNLP-ONNX-MODELS-V5.ZIP	V0.5.0, V0.5.1, V0.5.2, V0.5.3	Feishu [ilghi] \| Baidu NetDisk [L9ID]
xmnlp-onnx-mods-v4.zip	V0.4.0	Feishu [dkla] \| Baidu NetDisk [J1qi]
XMNLP-ONNX-MODELS-V3.ZIP	V0.3.2, V0.3.3	Feishu [o4ba] \| Baidu NetDisk [9G7E]

Modelo de configuración

Después de descargar el modelo, debe establecer la ruta del modelo XMNLP para que se ejecute normalmente. Se proporcionan dos métodos de configuración

Método 1: Configurar variables de entorno (recomendadas)

Una vez descomprimido el modelo descargado, puede establecer la variable de entorno para especificar la dirección del modelo. Tomar el sistema Linux como ejemplo, la configuración es la siguiente

 export XMNLP_MODEL=/path/to/xmnlp-models

Método 2: Configuración a través de funciones

Establezca la dirección del modelo antes de llamar a XMNLP, de la siguiente manera

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* El anterior /path/to/ es solo para marcador de posición. Reemplácelo con la dirección del directorio real del modelo cuando se configure.

2. Use el documento

xmnlp.seg (texto: str) -> list [str]

Segmentación de palabras chinas (predeterminada), basada en la coincidencia máxima inversa, Roberta + CRF se usa para el nuevo reconocimiento de palabras.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista, resultados después de la segmentación de palabras

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (texto: str) -> list [str]

La segmentación de palabras basada en la coincidencia máxima inversa no incluye un nuevo reconocimiento de palabras, y es más rápido.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista, resultados después de la segmentación de palabras

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (texto: str) -> list [str]

Basado en el modelo Roberta + CRF, la velocidad es más lenta. Actualmente, la interfaz profunda solo admite chino simplificado, no chino tradicional.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista, resultados después de la segmentación de palabras

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (texto: str) -> list [tuple (str, str)]

Parte de la anotación del habla.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de palabras y tuplas de parte del voz

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (texto: str) -> list [tuple (str, str)]

Basado en la coincidencia máxima inversa, no incluye un nuevo reconocimiento de palabras, y es más rápido.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de palabras y tuplas de parte del voz

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (texto: str) -> list [tuple (str, str)]

Basado en el modelo Roberta + CRF, la velocidad es más lenta. Actualmente, la interfaz profunda solo admite chino simplificado, no chino tradicional.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de palabras y tuplas de parte del voz

Ejemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Diccionario personalizado de parcias y parcialidades de palabras de Word

Soporte de diccionario definido por el usuario, el formato de diccionario es

词1 词性1
词2 词性2

También compatible con el formato de diccionario del participio de Jieba

词1 词频1 词性1
词2 词频2 词性2

Nota: El espaciador en la línea anterior es el espacio

Ejemplo de uso:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (texto: str) -> list [tuple (str, str, int, int)]

Nombrado reconocimiento corporal, los tipos de entidades que respaldan el reconocimiento son:

Tiempo: hora
Ubicación: Ubicación
Persona: personajes
Trabajo: carrera
Organización: organización

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de entidades, tipos de entidades, posiciones de inicio de entidad y posiciones finales de entidad

Ejemplo:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (Text: Str, K: int = 10, stopword: bool = true, teaTPos: opcional [list [str]] = none) -> list [tuple [str, float]]

Extraiga palabras clave del texto, basado en el algoritmo de Trank Text.

parámetro:

Texto: entrada de texto
K: Devuelva el número de palabras clave
Palabra de parada: si eliminar la palabra de parada
Ilmohpos: Configure la calidad de las palabras permitidas

El resultado regresa:

Lista de palabras clave y pesas

Ejemplo:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (Texto: Str, K: int = 10, Palabra de parada: bool = falso) -> List [STR]

Extraiga oraciones clave del texto, basado en el algoritmo TextTrank.

parámetro:

Texto: entrada de texto
K: Devuelva el número de palabras clave
Palabra de parada: si eliminar la palabra de parada

El resultado regresa:

Lista de palabras clave y pesas

Ejemplo:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (texto: str) -> tuple [float, float]

El reconocimiento emocional se basa en la capacitación en el corpus de revisión de comercio electrónico y es adecuado para el reconocimiento emocional en escenarios de comercio electrónico.

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Tupla, formato: [probabilidad de emoción negativa, probabilidad de emoción positiva]

Ejemplo:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (texto: str) -> list [str]

Texto a pinyin

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de pinyin

Ejemplo:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (texto: str) -> list [str]

Extraer radicales de texto

parámetro:

Texto: Ingrese el texto

El resultado regresa:

Lista de radicales

Ejemplo:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (texto: str, sugerir: bool = true, k: int = 5, max_k: int = 200) -> union [list [tuple [int, str]], dict [tuple [int, str], list [tuple [str, float]]]:

Corrección de errores de texto

parámetro:

Texto: Ingrese el texto
Sugerir: si devolver la palabra sugerida
K: Devuelve el número de palabras sugeridas
MAX_K: Número máximo de búsquedas de pinyin (se recomienda mantener el valor predeterminado)

El resultado regresa:

Cuando sugerir es falso, devuelve una lista de (subíndice de palabras incorrecto, palabra incorrecta); Cuando sugerencia es verdadero, devuelve un diccionario, la clave del diccionario es la lista de (subíndice de palabras incorrecto, palabra incorrecta), y los valores son las palabras y la lista de peso sugeridas.

Ejemplo:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentenceVector (model_dir: opcional [str] = none, género: str = 'genic', max_length: int = 512)

Función de inicialización del vector de oración

model_dir: la dirección de guardar modelo y el peso del modelo proporcionado por XMNLP se carga de forma predeterminada
Género: Tipo de contenido, actualmente admite tres tipos: ['genérico', 'financiero', 'internacional']]
max_length: la longitud máxima del texto de entrada, predeterminado 512

Las siguientes son las tres funciones miembros de SentenceVector

xmnlp.sv.sentenceVector.transform (self, text: str) -> np.ndarray

xmnlp.sv.sentenceVector.Similarity (self, x: union [str, np.ndarray], y: union [str, np.ndarray]) -> float

xmnlp.sv.sentenceVector.most_similar (self, consulta: str, docs: list [str], k: int = 1, ** kwargs) -> list [tuple [str, float]]]

Consulta: contenido de consulta
documentos: lista de documentos
K: return topk texto similar
Kwargs: parámetros de Kdtree, ver sklearn.neighbors.kdtree

Ejemplo de uso

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Producción

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Procesamiento paralelo

La nueva versión ya no proporciona la interfaz de procesamiento paralelo correspondiente y requiere el uso de xmnlp.utils.parallel_handler para definir la interfaz de procesamiento paralelo.

La interfaz es la siguiente:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Ejemplo de uso:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Más

Sobre contribuyentes

Espero con ansias las contribuciones de más amigos para crear una herramienta NLP china simple y fácil de usar

Cita académica cita

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Necesito personalización

Estoy comprometido con la investigación e implementación de PNL, y mis instrucciones incluyen: extracción de información, clasificación emocional, etc.

Para otras necesidades de implementación de PNL, comuníquese con [email protected] (este es un servicio pagado, y los errores relacionados con XMNLP pueden informarse directamente)

Grupo de comunicación

Busque en la cuenta oficial xmnlp-ai para seguir, seleccione "Grupo de comunicación" en el menú para unirse al grupo.

Referencia

Los datos utilizados en este proyecto son principalmente:

Análisis léxico, corrección de errores de texto: cita diaria de personas
Reconocimiento emocional: chinesenlpcorpus

Licencia

Apache 2.0

La mayoría de los modelos se construyen en base a Langml

Expandir