xmnlp 다운로드 xmnlp 소스 코드 다운로드

XMNLP : 오픈 소스 중국 자연 언어 처리 툴킷에서 상자

XMNLP : 상자 외부 중국 자연 언어 처리 툴킷

기능 개요

중국 어휘 분석 (Roberta + CRF Finetune)
- 분사
- 언어 주석의 일부
- 신체 인식이라는 이름이 지정되었습니다
- 맞춤형 사전을 지원합니다
중국 맞춤법 검사 (탐지기 + 교정기 맞춤법 체크)
텍스트 요약 및 키워드 추출 (Textrank)
감정 분석 (Roberta Finetune)
Pinyin (trie)에게 텍스트
중국자 급진파 (Hashmap)
문장 표현 및 유사성 계산

개요

1. 설치
- 모델 다운로드
- 구성 모델
2. 문서를 사용하십시오
- 기본 분사 : Seg
  - 빠른 분사 : Fast_seg
  - 깊이 분사 : Deep_Seg
- 음성 주석의 일부 : 태그
  - 음성 주석의 빠른 부분 : FAST_TAG
  - 깊은 부품 주석 : deep_tag
- 단어 부분 및 단어 주석의 부분에 부분적으로 맞춤형 사전
- 신체 인식이라는 이름 : Ner
- 키워드 추출 : 키워드
- 키 명령문 추출 : 키 프레이즈
- 정서적 인식 : 감정
- Pinyin 추출 : Pinyin
- 급진적 추출 : 라디칼
- 텍스트 오류 수정 : Checker
- 문장 표현 및 유사성 계산 : sentence_vector
- 병렬 처리
3. 더
- 기고자
- 학업 인용
- 사용자 정의가 필요합니다
- 커뮤니케이션 그룹
굴절
특허

1. 설치

최신 버전의 XMNLP를 설치하십시오

pip install -U xmnlp

국내 사용자는 인덱스 ORL을 추가 할 수 있습니다

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

패키지를 설치 한 후에는 정상적으로 사용할 모델 가중치를 다운로드해야합니다.

모델 다운로드

해당 버전의 XMNLP 모델을 다운로드하십시오. XMNLP 버전에 대해 명확하지 않은 경우 python -c 'import xmnlp; print(xmnlp.__version__)' 버전을 보려면'

모델 이름	해당 버전	주소를 다운로드하십시오
xmnlp-onnx- 모델 -v5.zip	v0.5.0, v0.5.1, v0.5.2, v0.5.3	Feishu [ighi] \| Baidu Netdisk [l9id]
xmnlp-onnx- 모드 -v4.zip	v0.4.0	Feishu [dkla] \| Baidu NetDisk [J1QI]
xmnlp-onnx- 모델 -v3.zip	v0.3.2, v0.3.3	Feishu [O4ba] \| Baidu Netdisk [9G7E]

구성 모델

모델을 다운로드 한 후에는 모델 경로 XMNLP를 정상적으로 실행하도록 설정해야합니다. 두 가지 구성 방법이 제공됩니다

방법 1 : 환경 변수 구성 (권장)

다운로드 된 모델이 압축 압축 된 후에는 환경 변수를 설정하여 모델 주소를 지정할 수 있습니다. Linux 시스템을 예로 들어 보면 설정은 다음과 같습니다.

 export XMNLP_MODEL=/path/to/xmnlp-models

방법 2 : 함수를 통해 설정

다음과 같이 XMNLP를 호출하기 전에 모델 주소를 설정하십시오

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* 위 /path/to/ 자리 표시 자에만 해당됩니다. 구성 할 때 모델의 실제 디렉토리 주소로 바꾸십시오.

2. 문서를 사용하십시오

xmnlp.seg (텍스트 : str) -> 목록 [str]

중국어 단어 세분화 (기본값), 역 최대 일치를 기반으로 Roberta + CRF는 새로운 단어 인식에 사용됩니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

목록, 단어 세분화 후 결과

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (텍스트 : str) -> 목록 [str]

리버스 최대 일치를 기반으로 한 단어 세분화에는 새로운 단어 인식이 포함되지 않으며 더 빠릅니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

목록, 단어 세분화 후 결과

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (텍스트 : str) -> 목록 [str]

Roberta + CRF 모델을 기반으로 속도가 느려집니다. 현재 Deep Interface는 전통적인 중국어가 아닌 단순화 된 중국인 만 지원합니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

목록, 단어 세분화 후 결과

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (텍스트 : str) -> 목록 [tuple (str, str)]

언어 주석의 일부.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

단어 목록과 말하기 튜플

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (텍스트 : str) -> 목록 [tuple (str, str)]

리버스 최대 일치를 기준으로 새로운 단어 인식이 포함되지 않으며 더 빠릅니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

단어 목록과 말하기 튜플

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (텍스트 : str) -> 목록 [tuple (str, str)]

Roberta + CRF 모델을 기반으로 속도가 느려집니다. 현재 Deep Interface는 전통적인 중국어가 아닌 단순화 된 중국인 만 지원합니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

단어 목록과 말하기 튜플

예:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

단어 부분 및 단어 주석의 부분에 부분적으로 맞춤형 사전

지원 사용자 정의 사전, 사전 형식입니다

词1 词性1
词2 词性2

또한 Jieba Partiple의 사전 형식과도 호환됩니다

词1 词频1 词性1
词2 词频2 词性2

참고 : 위 줄의 스페이서는 공간입니다

사용의 예 :

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (텍스트 : str) -> 목록 [tuple (str, str, int, int)]

신체 인식이라는 이름의 인식을 지원하는 엔티티 유형은 다음과 같습니다.

시간 : 시간
위치 : 위치
사람 : 캐릭터
직업 : 경력
조직 : 조직

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

엔티티, 엔티티 유형, 엔티티 시작 위치 및 엔티티 엔드 위치 목록

예:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (텍스트 : str, k : int = 10, stopword : bool = true, allowpos : 옵션 [list [str]] = none) -> 목록 [tuple [str, float]]

TextRank 알고리즘을 기반으로 텍스트에서 키워드를 추출합니다.

매개 변수 :

텍스트 : 텍스트 입력
K : 키워드 수를 반환하십시오
Stopword : Stopword를 제거할지 여부
허용 : 허용 된 단어 품질을 구성하십시오

결과는 다음과 같습니다.

키워드 및 가중치 목록

예:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (텍스트 : str, k : int = 10, stopword : bool = false) -> list [str]

TextTrank 알고리즘을 기반으로 텍스트에서 주요 문장을 추출하십시오.

매개 변수 :

텍스트 : 텍스트 입력
K : 키워드 수를 반환하십시오
Stopword : Stopword를 제거할지 여부

결과는 다음과 같습니다.

키워드 및 가중치 목록

예:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (text : str) -> 튜플 [float, float]

정서적 인식은 전자 상거래 검토 코퍼스 교육을 기반으로하며 전자 상거래 시나리오에서 정서적 인식에 적합합니다.

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

튜플, 형식 : [부정적인 감정 확률, 긍정적 감정 확률]

예:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (텍스트 : str) -> 목록 [str]

Pinyin에게 문자

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

Pinyin 목록

예:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (텍스트 : str) -> 목록 [str]

텍스트 라디칼을 추출하십시오

매개 변수 :

텍스트 : 텍스트를 입력하십시오

결과는 다음과 같습니다.

급진적 목록

예:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (텍스트 : str, 제안 : bool = true, k : int = 5, max_k : int = 200) -> Union [list [튜플 [int, str]], dict [tuple [int, str], list [tuple [str, float]]] :

텍스트 오류 수정

매개 변수 :

텍스트 : 텍스트를 입력하십시오
제안 : 제안 된 단어를 반환할지 여부
K : 제안 된 단어의 수를 반환하십시오
Max_k : 최대 Pinyin 검색 수 (기본값을 유지하는 것이 좋습니다)

결과는 다음과 같습니다.

제안이 false 일 때 (잘못된 Word Swcript, Wrong Word) 목록을 반환합니다. 제안이 사실이면 사전을 반환하고, 사전 키는 (잘못된 단어 첨자, 잘못된 단어) 목록이며 값은 제안 된 단어와 무게 목록입니다.

예:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentencevector (model_dir : 옵션 [str] = none, 장르 : str = 'generic', max_length : int = 512)

SentenceVector 초기화 함수

Model_DIR : 모델 저장 주소와 XMNLP가 제공하는 모델 가중치는 기본적으로로드됩니다.
장르 : 컨텐츠 유형, 현재 세 가지 유형을 지원합니다 : [일반 ','금융 ','국제 ']]]
max_length : 입력 텍스트의 최대 길이, 기본 512

다음은 SentenceVector의 세 가지 멤버 기능입니다

xmnlp.sv.sentencevector.transform (self, text : str) -> np.ndarray

xmnlp.sv.sentencevector.similarity (self, x : Union [str, np.ndarray], y : Union [str, np.ndarray]) -> float

xmnlp.sv.sentencevector.mest_similar (self, query : str, docs : list [str], k : int = 1, ** kwargs) -> list [tuple [str, float]]

쿼리 : 쿼리 컨텐츠
문서 : 문서 목록
K : Topk 비슷한 텍스트를 반환합니다
Kwargs : Kdtree 매개 변수, sklearn.neighbors.kdtree를 참조하십시오

사용의 예

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

산출

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

병렬 처리

새 버전은 더 이상 해당 병렬 처리 인터페이스를 제공하지 않으며 병렬 처리 인터페이스를 정의하기 위해 xmnlp.utils.parallel_handler 를 사용해야합니다.

인터페이스는 다음과 같습니다.

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

사용의 예 :

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. 더

기고자에 대해

간단하고 사용하기 쉬운 중국 NLP 도구를 만들기위한 더 많은 친구의 기여를 기대합니다.

학업 인용 인용

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

사용자 정의가 필요합니다

나는 NLP 연구 및 구현에 전념하고 있으며 내 지시에는 정보 추출, 정서적 분류 등이 포함됩니다.

다른 NLP 구현 요구에 대해서는 [email protected]으로 문의하십시오 (이것은 유료 서비스이며 xmnlp와 관련된 버그는 직접보고 될 수 있음).

커뮤니케이션 그룹

공식 계정 xmnlp-ai 검색하려면 메뉴에서 "커뮤니케이션 그룹"을 선택하여 그룹에 가입하십시오.

참조

이 프로젝트에 사용 된 데이터는 주로 다음과 같습니다.

어휘 분석, 텍스트 오류 수정 : 사람의 일일 인용
정서적 인식 : Chinesenlpcorpus

특허

아파치 2.0

대부분의 모델은 LANGML을 기반으로 구축됩니다

확장하다