Download xmnlp - xmnlp Download de código fonte

XMNLP: um kit de ferramentas de processamento de linguagem natural chinês de código aberto

XMNLP: um kit de ferramentas de processamento de linguagem natural chinês

Visão geral do recurso

Análise lexical chinesa (Roberta + CRF Finetune)
- Particípio
- Parte da anotação da fala
- Nomeado reconhecimento corporal
- Suporta dicionários personalizados
Verificação ortográfica chinesa (detector + verificação ortográfica do corretor)
Resumo do texto e extração de palavras -chave (TexTrank)
Análise de sentimentos (Roberta Finetune)
Texto para Pinyin (Trie)
Radicais de caracteres chineses (hashmap)
Representação de sentenças e cálculo de similaridade

Contorno

1. Instalação
- Download do modelo
- Modelo de configuração
2. Use o documento
- Particípio padrão: SEG
  - Particípio rápido: fast_seg
  - Particípio de profundidade: Deep_seg
- Parte da anotação da fala: tag
  - Parte rápida da anotação da fala: fast_tag
  - Anotação profunda de parte da fala: Deep_tag
- Palavras parciais e parciais do Word Anotation Dictionary Custom Dictionary
- Nomeado reconhecimento corporal: nerd
- Extração de palavras -chave: palavra -chave
- Extração de declaração -chave: shrase Keyfrase
- Reconhecimento emocional: sentimento
- Extração de Pinyin: Pinyin
- Extração radical: radical
- Correção de erro de texto: verificador
- Representação de frases e cálculo de similaridade: sentença_vector
- Processamento paralelo
3. Mais
- Colaboradores
- Citações acadêmicas
- Precisa de personalização
- Grupo de Comunicação
Referência
Licença

1. Instalação

Instale a versão mais recente do XMNLP

pip install -U xmnlp

Usuários domésticos podem adicionar index-url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

Depois de instalar o pacote, você também precisa baixar os pesos do modelo a ser usado normalmente.

Download do modelo

Faça o download da versão correspondente do modelo XMNLP. Se você não estiver claro sobre a versão do XMNLP, poderá executar python -c 'import xmnlp; print(xmnlp.__version__)' para ver a versão

Nome do modelo	Versão aplicável	Endereço para download
XMNLP-NONX-MODELS-V5.ZIP	v0.5.0, v0.5.1, v0.5.2, v0.5.3	Feishu [Ighi] \| Baidu Netdisk [L9ID]
XMNLP-NONX-MODELS-V4.ZIP	v0.4.0	Feishu [dkla] \| Baidu Netdisk [J1QI]
XMNLP-NONX-MODELS-V3.ZIP	v0.3.2, v0.3.3	Feishu [O4ba] \| Baidu Netdisk [9G7E]

Modelo de configuração

Depois de baixar o modelo, você precisa definir o caminho do modelo XMNLP para ser executado normalmente. Dois métodos de configuração são fornecidos

Método 1: Configurar variáveis de ambiente (recomendado)

Depois que o modelo baixado é descomprimido, você pode definir a variável de ambiente para especificar o endereço do modelo. Tomando o sistema Linux como exemplo, as configurações são as seguintes

 export XMNLP_MODEL=/path/to/xmnlp-models

Método 2: Configurando através de funções

Defina o endereço do modelo antes de ligar para o XMNLP, como segue

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* O acima /path/to/ é apenas para espaço reservado. Substitua -o pelo endereço de diretório real do modelo ao configurar.

2. Use o documento

xmnlp.seg (texto: str) -> lista [str]

Segmentação de palavras chinesa (padrão), com base na correspondência máxima inversa, Roberta + CRF é usado para reconhecimento de novas palavras.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista, resultados após segmentação de palavras

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (texto: str) -> lista [str]

A segmentação de palavras com base na correspondência máxima reversa não inclui reconhecimento de novas palavras e é mais rápido.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista, resultados após segmentação de palavras

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (texto: str) -> Lista [str]

Com base no modelo Roberta + CRF, a velocidade é mais lenta. Atualmente, a interface profunda suporta apenas chineses simplificados, não tradicionais.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista, resultados após segmentação de palavras

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (texto: str) -> Lista [Tuple (str, str)]

Parte da anotação da fala.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de palavras e tuplas de parte da fala

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (texto: str) -> Lista [Tuple (str, str)]

Com base na correspondência máxima reversa, ele não inclui novo reconhecimento de palavras e é mais rápido.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de palavras e tuplas de parte da fala

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (texto: str) -> Lista [Tupla (str, str)]

Com base no modelo Roberta + CRF, a velocidade é mais lenta. Atualmente, a interface profunda suporta apenas chineses simplificados, não tradicionais.

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de palavras e tuplas de parte da fala

Exemplo:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

Palavras parciais e parciais do Word Anotation Dictionary Custom Dictionary

Suporte ao dicionário definido pelo usuário, o formato de dicionário é

词1 词性1
词2 词性2

Também compatível com o formato de dicionário de Jieba Particle

词1 词频1 词性1
词2 词频2 词性2

Nota: O espaçador na linha acima é espaço

Exemplo de uso:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (texto: str) -> Lista [Tuple (str, str, int, int)]

Nomeado reconhecimento corporal, os tipos de entidade que apóiam o reconhecimento são:

Tempo: tempo
Localização: Localização
Pessoa: Personagens
Trabalho: carreira
Organizador: Organização

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de entidades, tipos de entidades, posições iniciais da entidade e posições finais da entidade

Exemplo:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (texto: str, k: int = 10, stopword: bool = true, allowpos: opcional [list [str]] = nenhum) -> list [tuple [str, float]]

Extraia palavras -chave do texto, com base no algoritmo TextTrank.

parâmetro:

texto: entrada de texto
K: Retorne o número de palavras -chave
Stopword: se deve remover a palavra de parada
Allowpos: configurar a qualidade da palavra permitida

O resultado retorna:

Lista de palavras -chave e pesos

Exemplo:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (texto: str, k: int = 10, stopword: bool = false) -> list [str]

Extraia as frases -chave do texto, com base no algoritmo TextTrank.

parâmetro:

texto: entrada de texto
K: Retorne o número de palavras -chave
Stopword: se deve remover a palavra de parada

O resultado retorna:

Lista de palavras -chave e pesos

Exemplo:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (texto: str) -> tupla [flutuação, flutuação]

O reconhecimento emocional é baseado no treinamento de corpus de revisão de comércio eletrônico e é adequado para o reconhecimento emocional nos cenários de comércio eletrônico.

parâmetro:

Texto: digite o texto

O resultado retorna:

Tupla, formato: [probabilidade de emoção negativa, probabilidade de emoção positiva]

Exemplo:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (texto: str) -> lista [str]

Texto para Pinyin

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de Pinyin

Exemplo:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (texto: str) -> Lista [str]

Extrair radicais de texto

parâmetro:

Texto: digite o texto

O resultado retorna:

Lista de radicais

Exemplo:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.Checker (texto: str, sugestão: bool = true, k: int = 5, max_k: int = 200) -> união [list [tuple [int, str]], dict [tuple [int, str], list [tuple [str, float]]]]:

Correção de erro de texto

parâmetro:

Texto: digite o texto
sugerir: se deve retornar a palavra sugerida
K: Retorne o número de palavras sugeridas
max_k: número máximo de pesquisas de pinyin (é recomendável manter o valor padrão)

O resultado retorna:

Quando sugestão é falsa, ele retorna uma lista de (subscrito de palavras erradas, palavra errada); Quando sugestão é verdadeira, ele retorna um dicionário, a chave do dicionário é (lista do subscrito de palavras erradas, palavra errada) e os valores são as palavras sugeridas e a lista de peso.

Exemplo:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentenceVector (Model_dir: Opcional [str] = nenhum, gênero: str = 'genérico', max_length: int = 512)

Função de inicialização do vetor de sentença

Model_dir: o endereço de salvar modelo e o peso do modelo fornecido pelo XMNLP é carregado por padrão
Gênero: Tipo de conteúdo, atualmente suporta três tipos: ['genérico', 'financeiro', 'internacional']
max_length: o comprimento máximo do texto de entrada, padrão 512

A seguir, são apresentadas as três funções de membro do sentença

xmnlp.sv.sentencevector.transform (self, text: str) -> np.ndarray

xmnlp.sv.sentencevector.similaridade (self, x: Union [str, np.ndarray], y: union [str, np.ndary]) -> flutuação

xmnlp.sv.sentencevector.mem_similar (self, consulta: str, documentos: list [str], k: int = 1, ** kwargs) -> list [tuple [str, float]]

Consulta: conteúdo de consulta
Docos: Lista de documentos
K: Retorne Topk Texto semelhante
Kwargs: parâmetros kdtree, consulte Sklearn.neighbors.kdtree

Exemplo de uso

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

Saída

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

Processamento paralelo

A nova versão não fornece mais a interface de processamento paralela correspondente e requer o uso de xmnlp.utils.parallel_handler para definir a interface de processamento paralelo.

A interface é a seguinte:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

Exemplo de uso:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. Mais

Sobre colaboradores

Ansioso por mais contribuições de amigos para criar uma ferramenta de NLP chinesa simples e fácil de usar

Citação acadêmica Citação

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

Precisa de personalização

Estou comprometido com a pesquisa e implementação da PNL, e minhas instruções incluem: extração de informações, classificação emocional, etc.

Para outras necessidades de implementação da PNL, entre em contato com [email protected] (este é um serviço pago, e os bugs relacionados ao XMNLP podem ser relatados diretamente)

Grupo de Comunicação

Pesquise a conta oficial xmnlp-ai a seguir, selecione "Grupo de Comunicação" no menu para ingressar no grupo.

Referência

Os dados usados neste projeto são principalmente:

Análise lexical, correção de erro de texto: citação diária das pessoas
Reconhecimento emocional: chinesenlpcorpus

Licença

Apache 2.0

A maioria dos modelos é construída com base em Langml

Expandir