Jiayan Download - Jiayan Source Code Download

Jiayan

Anderer Quellcode

1.0.0

Herunterladen

Jiayan

chinesisch
Englisch

Einführung

A, was "Oracle Bone Classical Chinese" bedeutet, ist ein NLP -Toolkit, das sich auf die alte chinesische Verarbeitung konzentriert.
Derzeit verwenden die gemeinsamen chinesischen NLP -Tools moderne Chinesen hauptsächlich als Kernkorpus, und der Verarbeitungseffekt des alten Chinesen ist nicht zufriedenstellend (siehe Partizip für Einzelheiten). Die ursprüngliche Absicht dieses Projekts ist es, bei der Verarbeitung alter chinesischer Informationen zu helfen und alten chinesischen Gelehrten und Enthusiasten zu helfen, die daran interessiert sind, alte kulturelle Mineralien auszugraben, um klassische chinesische Materialien besser zu analysieren und zu nutzen, um "neue kulturelle Produkte" aus "kulturellem Erbe" zu kreieren.
Die aktuelle Version unterstützt fünf Funktionen: Lexikonkonstruktion, automatische Wortsegmentierung, Annotation der Sprache, klassische chinesische Satzlesung und Interpunktion und weitere Funktionen sind in der Entwicklung.

Funktion

Thesaurus -Konstruktion
- Das klassische chinesische Vokabular wird automatisch unter Verwendung eines unbeaufsichtigten Doppelwörterbuchbaums, der gegenseitigen Informationen und der linken und rechten benachbarten Entropie konstruiert.
Partizip
- Die automatische Wortsegmentierung im alten Chinesisch wird verwendet, um unbeaufsichtigtes, wörterbuchfreies N-Metal-Grammatik und verstecktes Markov-Modell zu verwenden.
- Das durch die Lexikonkonstruktionsfunktion erzeugte klassische chinesische Wörterbuch wird verwendet, um eine Wortsegmentierung basierend auf gerichteten ringfreien Wortgrafiken, Satzmaximalwahrscheinlichkeitswegen und dynamischen Programmieralgorithmen durchzuführen.
Teil der Sprachanmerkung
- Für die Annotation für die Sequenz basierend auf dem Feld des Wortes bedingte zufällige Feld finden Sie Einzelheiten zur Teil der Speech-Tabelle.
Satz brechen
- Basierend auf der Sequenzannotation des bedingten Zufallsfelds der Zeichen bricht die Einführung von Punktinformationen und T-Testwerten als Eigenschaften und automatisch Sätze für klassische chinesische Absätze.
Interpunktion
- Die Annotation der Sequenzannotation des auf Zeichen basierenden Zufallsfelds der Kaskadierung wird automatisch in klassischen chinesischen Absätzen auf der Grundlage des Satzes unterbrochen.
Übersetzung von Wenbai
- Während der Entwicklung befindet es sich derzeit in der Phase des Sammelns und Reinigens des parallelen Textkorpus von Text und Weiß.
- Basierend auf dem Modell der neuronalen Netzwerkgenerierungsmodell des wiederkehrenden Netzwerks und des Aufmerksamkeitsmechanismus des Kurzzeitgedächtnisses werden alte Texte automatisch übersetzt.
Hinweis: Aufgrund des Einflusses von Korpus wird derzeit traditionelle Chinesen derzeit nicht unterstützt. Wenn Sie sich mit traditionellen Chinesen befassen müssen, können Sie zuerst OpenCC verwenden, um die Eingabe in vereinfachte Chinesen umzuwandeln und die Ergebnisse dann in die entsprechenden traditionellen Chinesen (wie Hongkong, Macao und Taiwan) umzuwandeln.

Installieren

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

verwenden

Die folgenden Module werden aus Beispielen verwendet.

Laden Sie das Modell und Dekompress herunter: Baidu NetDisk, Code extrahieren: p0sc
- Jiyan.KLM: Sprachmodell, hauptsächlich zur Wortsegmentierung und Merkmalextraktion bei Satzlesen und Zeichensetzung verwendet;
- POS_MODEL: CRF-Annotationsmodell für Speech-Annotation;
- Cut_Model: CRF -Satzlesungsmodell;
- Punc_Model: CRF -Interpunktionsmodell;
- Zhuangzi.txt: Der vollständige Text von Zhuangzi zum Testen der Vokabularkonstruktion.

Thesaurus -Konstruktion

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, '庄子词库.csv')

Ergebnis:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Partizip
1. Hidden Markov Model Word Partizip auf Charakterebene, der Effekt entspricht dem Sprachbewusstsein, wird empfohlen, und das Sprachmodell jiayan.klm muss geladen werden
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  Ergebnis:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Da alte Chinesen keine Segmentierungsdaten für öffentliche Wort haben, ist es unmöglich, den Effekt zu bewerten, aber wir können die Vorteile dieses Projekts durch verschiedene NLP -Tools intuitiv spüren:
  Versuchen Sie, die Ergebnisse der LTP (3.4.0) -Modell -Partizip zu vergleichen:
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Versuchen Sie, HANLP -Wortpartizip -Ergebnisse erneut zu vergleichen:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Es ist ersichtlich, dass das Wort Partizipeffekt dieses Tools auf das alte Chinese deutlich besser ist als das des allgemeinen chinesischen NLP -Tools.
  *Update: Dank an HANLPs Autor Hankc für Sie das Erlaubnis - ab Anfang 2021 veröffentlichte HANLP Deep Learning -gesteuerte 2.x. Aufgrund der Verwendung von vorgeborenen Sprachmodellen auf großem Maßstab haben diese Korpus bereits fast alle alten und modernen Chinesen im Internet aufgenommen, sodass die Auswirkung auf das alte Chinesen qualitativ verbessert wurde. Nicht nur Partizip-Wörter, sondern auch Teil des Schusses Lerneffekte und semantische Analyse. Für den entsprechenden spezifischen Wortpartizipeffekt finden Sie dieses Problem.
2. Wortwahrscheinlichkeitspfad Partizip, im Grunde genommen in Charakteren, mit groben Korngröße
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  Ergebnis:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Teil der Sprachanmerkung

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

Ergebnis:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Satz brechen

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

Ergebnis:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

Interpunktion

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

Ergebnis:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Version

v0.0.21
- Teilen Sie den Installationsprozess in zwei Schritte ein, um sicherzustellen, dass die neueste KenLM -Version erhalten wird.
v0.0.2
- Fügen Sie eine Annotationsfunktion der Speech-Annotation hinzu.
v0.0.1
- Die Funktionen der Vokabularkonstruktion, automatische Wortsegmentierung, klassischer chinesischer Satzlesung und Zeichensetzung sind offen.

Einführung

Jiayan, was bedeutet, dass chinesische Charaktere auf Oracle Bones graviert sind, ist ein professionelles Python -NLP -Tool für klassisches Chinesisch.
Die vorherrschenden chinesischen NLP -Tools werden hauptsächlich in modernen chinesischen Daten geschult, was zu einer schlechten Leistung für klassische Chinesen führt (siehe Tokenisierung ). Der Zweck dieses Projekts ist es, die klassische chinesische Informationsverarbeitung zu unterstützen.
Die aktuelle Version unterstützt Lexikonkonstruktion, Tokenisierung, POS -Tagging, Satzsegmentierung und automatische Interpunktion. Weitere Funktionen sind in der Entwicklung.

Merkmale

Lexikonkonstruktion
- Konstruieren Sie mit einem unbeaufsichtigten Ansatz Lexikon mit Trie -Tree, PMI ( punktuelle gegenseitige Informationen ) und benachbarte Entropie der linken und rechten Zeichen.
Token
- Mit einem unbeaufsichtigten, kein Wörterbuchansatz zur Tokenisierung eines klassischen chinesischen Satzes mit N-Gram-Sprachmodell und HMM ( Hidden Markov-Modell ).
- Mit dem aus Lexikonkonstruktion hergestellten Wörterbuch einen klassischen chinesischen Satz mit gerichteten acyclischen Wortdiagramm, maximaler Wahrscheinlichkeitspfad und dynamischer Programmierung.
POS -Tagging
- Word -Level -Sequenz -Tagging mit CRF ( bedingtes Zufallsfeld ). Siehe POS -Tag -Kategorien hier.
Satzsegmentierung
- Charakterebene-Sequenz-Tagging mit CRF führt PMI- und T-Test-Werte als Funktionen ein.
Interpunktion
- Charakterebene -Sequenz -Tagging mit geschichteten CRFs, die angegebene klassische chinesische Texte basierend auf den Ergebnissen der Satzsegmentierung punkten.
Hinweis: Aufgrund von Daten, die wir verwendeten, unterstützen wir vorerst keine traditionellen Chinesen. Wenn Sie traditionelle verarbeiten müssen, verwenden Sie bitte OPECC, um die herkömmlichen Eingaben in vereinfacht zu konvertieren, und dann können Sie die Ergebnisse zurück konvertieren.

Installation

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

Verwendungen

Die folgenden Nutzungscodes stammen alle aus Beispielen.

Laden Sie die Modelle herunter und entpacken Sie sie: Google Drive
- Jiyan.klm: Das Sprachmodell, das zum Tokenisierungs- und Merkmalsextraktion für die Segmentierung und Zeichensetzung verwendet wird;
- POS_MODEL: Das CRF -Modell für POS -Tagging;
- cut_model: das CRF -Modell für die Satzsegmentierung;
- Punc_Model: Das CRF -Modell für die Interpunktion;
- Zhuangzi.txt: Der vollständige Text von "Zhuangzi" zum Testen von Lexikonkonstruktionen.

Lexikonkonstruktion

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, 'Zhuangzi_Lexicon.csv')

Ergebnisse:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Token
1. Das charakterbasierte HMM, empfohlen, braucht Sprachmodell: jiayan.klm
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  Ergebnisse:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Da es keine öffentlichen Tokenisierungsdaten für klassische Chinesen gibt, ist es schwierig, die Leistungsbewertung direkt durchzuführen. Wir können die Ergebnisse jedoch mit anderen beliebten modernen chinesischen NLP -Tools vergleichen, um die Leistung zu überprüfen:
  Vergleichen Sie das Tokenisierungsergebnis von LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Vergleichen Sie auch das Tokenisierungsergebnis von HANLP:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Es ist offensichtlich, dass Jiayan eine viel bessere Tokenisierung der Leistung hat als allgemeine chinesische NLP -Tools.
2. MAX -Wahrscheinlichkeitspfad, die sich auf der Grundlage von Wörtern Tokens nähern
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  Ergebnisse:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

POS -Tagging

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

Ergebnisse:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Satzsegmentierung

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

Ergebnisse:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

Interpunktion

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

Ergebnisse:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versionen

v0.0.21
- Teilen Sie die Installation in zwei Schritte ein, um sicherzustellen, dass die neueste Version von Kenlm abgerufen wird.
v0.0.2
- Die POS -Tagging -Funktion ist geöffnet.
v0.0.1
- Fügen Sie Merkmale der Lexikonkonstruktion, Tokenisierung, Satzsegmentierung und automatische Interpunktion hinzu.

Expandieren

Zusätzliche Informationen