Jiayan 다운로드 Jiayan 소스 코드 다운로드

Jiayan

기타 소스코드

1.0.0

다운로드

지아안

중국인
영어

소개

"Oracle Bone Classical Chinese"를 의미하는 A는 고대 중국 가공에 중점을 둔 NLP 툴킷입니다.
현재 일반 중국 NLP 도구는 주로 현대 중국어를 핵심 코퍼스로 사용하며 고대 중국의 처리 효과는 만족스럽지 않습니다 (자세한 내용은 분사 참조). 이 프로젝트의 원래 의도는 고대 중국 정보의 처리를 돕고 고대 문화 광물을 파고 고전적인 중국 자료를 더 잘 분석하고 활용하여 "문화적 유산"에서 "새로운 문화적 제품"을 만들기 위해 고대 문화 광물을 파헤 치는 데 관심이있는 고대 중국 학자 및 애호가들을 돕는 것입니다.
현재 버전은 Lexicon Construction, Automatic Word Segmentation, Part-of-Steech Annotation, Classical Chinese 문장 및 구두점 및 더 많은 기능의 5 가지 기능을 지원합니다.

기능

시소러스 구조
- 고전적인 중국 어휘는 감독되지 않은 이중 사전 트리, 포인트 뮤추얼 정보 및 왼쪽 및 오른쪽 인접 엔트로피를 사용하여 자동으로 구성됩니다.
분사
- 고대 중국의 자동 단어 세분화는 감독되지 않은 사전이없는 N- 메탈 문법 및 숨겨진 Markov 모델을 사용하는 데 사용됩니다.
- Lexicon Construction Function에서 생성 된 고전적인 중국 사전은 지시 된 링 프리 단어 그래프, 문장 최대 확률 경로 및 동적 프로그래밍 알고리즘을 기반으로 단어 분할을 수행하는 데 사용됩니다.
언어 주석의 일부
- 조건부 랜덤 필드라는 단어를 기반으로 한 시퀀스 주석에 대해서는 자세한 내용은 부품 연설 테이블을 참조하십시오.
문장을 깨십시오
- 조건부 임의의 문자 필드의 시퀀스 주석에 기초하여, 포인트 뮤추얼 정보 및 t- 테스트 값을 특성으로 도입하고 고전적인 중국 단락에 대한 문장을 자동으로 중단합니다.
구두
- 문자를 기반으로 한 계단식 조건 랜덤 필드의 시퀀스 주석은 문장이 깨지는 것에 기초하여 고전적인 중국 단락에서 자동으로 구분됩니다.
Wenbai의 번역
- 개발 중에는 현재 텍스트와 흰색의 평행 코퍼스를 수집하고 청소하는 단계에 있습니다.
- 양방향 장거리 및 단기 메모리 재발 네트워크 및주의 메커니즘의 신경망 생성 모델을 기반으로 고대 텍스트는 자동으로 번역됩니다.
참고 : 코퍼스의 영향으로 인해 전통적인 중국인은 현재 지원되지 않습니다. 전통적인 중국어를 처리 해야하는 경우 먼저 OpenCC를 사용하여 입력을 단순화 된 중국으로 변환 한 다음 결과를 해당 중국 (예 : 홍콩, 마카오 및 대만)으로 변환 할 수 있습니다.

설치하다

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

사용

다음 모듈은 examples.py에서 사용됩니다.

모델과 압축 압력을 다운로드 : Baidu NetDisk, 추출 코드 : p0sc
- jiayan.klm : 언어 모델, 주로 단어 세분화 및 특징 추출에 사용 된 문장 및 구두점 작업;
- POS_MODEL : CRF 부품 연설 주석 모델;
- CUT_MODEL : CRF 문장 읽기 모델;
- punc_model : CRF 구두점 모델;
- Zhuangzi.txt : 어휘 구성을 테스트하는 데 사용 된 Zhuangzi의 전문.

시소러스 구조

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, '庄子词库.csv')

결과:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

분사
1. 문자 수준의 숨겨진 Markov 모델 단어 분사, 효과는 언어 감각과 일치하며 사용하는 것이 좋습니다. 언어 모델 jiayan.klm 로드해야합니다.
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  결과:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  고대 중국인은 공개 단어 세분화 데이터가 없기 때문에 그 효과를 평가하는 것은 불가능하지만, 우리는 다양한 NLP 도구를 통해이 프로젝트의 장점을 직관적으로 느낄 수 있습니다.
  LTP (3.4.0) 모델 분사 결과를 비교하십시오.
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  HANLP Word 분사 결과를 다시 비교해보십시오.
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  이 도구의 고대 중국어에 대한 분사 효과라는 단어는 일반 중국 NLP 도구보다 훨씬 우수하다는 것을 알 수 있습니다.
  *업데이트 : Hanlp의 저자 Hankc에게 감사의 말을 전합니다. 대규모 코퍼스에서 미리 훈련 된 언어 모델을 사용하기 때문에이 코퍼스는 이미 인터넷에 거의 모든 고대 및 현대 중국어를 포함 시켰으므로 고대 중국에 미치는 영향은 질적으로 개선되었습니다. 분사 단어뿐만 아니라 샷 학습 효과 및 시맨틱 분석. 해당 특정 단어 분사 효과는이 문제를 참조하십시오.
2. 기본적으로 캐릭터 단위, 거친 입자 크기로 단어 수준 최대 확률 경로 분사
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  결과:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

언어 주석의 일부

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

결과:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

문장을 깨십시오

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

결과:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

구두

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

결과:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

버전

v0.0.21
- 최신 KENLM 버전을 얻을 수 있도록 설치 프로세스를 두 단계로 나누십시오.
v0.0.2
- 부품 주석 기능을 추가하십시오.
v0.0.1
- 어휘 구성, 자동 단어 세분화, 고전적인 중국 문장 읽기 및 구두점의 기능이 열려 있습니다.

소개

Oracle Bones에 새겨진 한자를 의미하는 Jiayan은 고전적인 중국어를위한 전문적인 파이썬 NLP 도구입니다.
우세한 중국 NLP 도구는 주로 현대 중국 데이터에 대해 교육을받으며, 이는 고전적인 중국어에서 성능이 좋지 않습니다 ( 토큰 화 참조). 이 프로젝트의 목적은 고전적인 중국 정보 처리를 지원하는 것입니다.
현재 버전은 Lexicon Construction, Tokenizing, POS 태그, 문장 세분화 및 자동 구두점을 지원하며 더 많은 기능이 개발 중입니다.

특징

사전 구성
- 감독되지 않은 접근 방식으로 Trie -tree, PMI ( Point -Wise Mutual Information ) 및 왼쪽 및 오른쪽 문자의 인접 엔트로피를 사용하여 Lexicon을 구성하십시오.
토큰 화
- 감독되지 않은 상태에서 N-Gram 언어 모델과 HMM ( 숨겨진 Markov 모델 )으로 고전적인 중국 문장을 토큰 화하는 사전 접근 방식이 없습니다.
- Lexicon Construction에서 생성 된 사전을 사용하여 지시 된 Acyclic Word 그래프, 최대 확률 경로 및 동적 프로그래밍으로 고전적인 중국 문장을 토큰 화합니다.
POS 태깅
- CRF ( 조건부 랜덤 필드 )를 사용한 워드 레벨 시퀀스 태깅. POS 태그 카테고리를 참조하십시오.
문장 세분화
- CRF를 사용한 문자 레벨 시퀀스 태깅은 기능으로 PMI 및 T- 검정 값을 소개합니다.
구두
- 문자 수준 시퀀스 태깅 계층 CRFS, 문장 세분화 결과를 기반으로 고전적인 중국어 텍스트가 주어진 구두점.
참고 : 우리가 사용한 데이터로 인해 지금은 전통적인 중국어를 지원하지 않습니다. 전통적인 것을 처리 해야하는 경우 OpenCC를 사용하여 기존 입력을 단순화하도록 변환하면 결과를 다시 변환 할 수 있습니다.

설치

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

사용법

아래의 사용 코드는 모두 examples.py의 것입니다.

모델을 다운로드하고 Google 드라이브를 압축 해제하십시오
- JIAYAN.KLM : 문장 세분화 및 문장 부호를위한 토큰 화 및 기능 추출에 사용되는 언어 모델;
- POS_MODEL : POS 태깅을위한 CRF 모델;
- cut_model : 문장 세분화를위한 CRF 모델;
- punc_model : 문장 부호를위한 CRF 모델;
- Zhuangzi.txt : Lexicon Construction을 테스트하는 데 사용되는 "Zhuangzi"의 전문.

사전 구성

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, 'Zhuangzi_Lexicon.csv')

결과:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

토큰 화
1. 문자 기반 hmm, 권장, 언어 모델이 필요합니다 : jiayan.klm
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  결과:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  고전적인 중국어에 대한 공개 토큰 화 데이터가 없기 때문에 성과 평가를 직접 수행하기는 어렵습니다. 그러나 결과를 다른 인기있는 현대 중국 NLP 도구와 비교하여 성능을 확인할 수 있습니다.
  LTP (3.4.0)의 토큰 화 결과를 비교하십시오.
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  또한 HANLP의 토큰 화 결과를 비교하십시오.
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Jiayan은 일반 중국 NLP 도구보다 성능을 훨씬 향상시킵니다.
2. 단어에 따라 토큰 화에 접근하는 최대 확률 경로
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  결과:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

POS 태깅

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

결과:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

문장 세분화

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

결과:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

구두

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

결과:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。