Téléchargement Jiayan - Téléchargement du code source Jiayan

Jiayan

Autre code source

1.0.0

Télécharger

Jiayan

Chinois
Anglais

Introduction

A, qui signifie "Oracle Bone Classical Chinois", est une boîte à outils PNL axée sur le traitement chinois ancien.
Actuellement, les outils de PNL chinois communs utilisent principalement le chinois moderne comme corpus de base, et l'effet de traitement des chinois anciens n'est pas satisfaisant (voir participe pour plus de détails). L'intention initiale de ce projet est d'aider au traitement des informations chinoises anciennes et d'aider les anciens chercheurs et passionnés chinois qui souhaitent déterminer les anciens minéraux culturels pour mieux analyser et utiliser des matériaux chinois classiques pour créer des "nouveaux produits culturels" à partir de "patrimoine culturel".
La version actuelle prend en charge cinq fonctions: la construction du lexique, la segmentation automatique des mots, l'annotation d'une partie du discours, la lecture et la ponctuation des phrases chinoises classiques, et d'autres fonctions sont en cours de développement.

Fonction

Construction du thésaurus
- Le vocabulaire chinois classique est automatiquement construit à l'aide d'un arbre à double dictionnaire non supervisé, d'informations mutuelles ponctuelles et d'une entropie adjacente gauche et droite.
Participe
- La segmentation automatique des mots en chinois ancien est utilisée pour utiliser une grammaire N-Metal sans dictionnaire sans dictionnaire et un modèle de Markov caché.
- Le dictionnaire chinois classique généré par la fonction de construction du lexique est utilisé pour effectuer une segmentation des mots basée sur des graphiques de mots sans anneau, des chemins de probabilité maximale de phrases et des algorithmes de programmation dynamique.
Une partie de l'annotation de la parole
- Pour l'annotation de séquence basée sur le champ aléatoire conditionnel du mot, veuillez vous référer à la table partie de discours pour plus de détails.
Rompre la phrase
- Sur la base de l'annotation de séquence du champ aléatoire conditionnel des caractères, l'introduction des informations mutuelles ponctuelles et des valeurs de test t comme caractéristiques, et rompt automatiquement les phrases pour les paragraphes chinois classiques.
ponctuation
- L'annotation de séquence du champ aléatoire de la condition en cascade en fonction des caractères est automatiquement ponctuée sur les paragraphes chinois classiques basés sur la rupture de la phrase.
Traduction de Wenbai
- Pendant le développement, il est actuellement au stade de collection et de nettoyage du corpus parallèle de texte et de blanc.
- Sur la base du modèle de génération de réseau neuronal du réseau récurrent de mémoire et à court terme bidirectionnel et à court terme, les textes anciens sont automatiquement traduits.
Remarque: En raison de l'influence du corpus, le chinois traditionnel n'est pas actuellement soutenu. Si vous devez faire face aux chinois traditionnels, vous pouvez d'abord utiliser OpenCC pour convertir l'entrée en chinois simplifié, puis convertir les résultats en chinois traditionnel correspondant (comme Hong Kong, Macao et Taiwan).

Installer

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

utiliser

Les modules suivants sont utilisés à partir d'exemples.py.

Téléchargez le modèle et décompressez: Baidu NetDisk, Extrait Code: p0sc
- jiayan.klm: modèle linguistique, principalement utilisé pour la segmentation des mots et l'extraction de caractéristiques dans les tâches de lecture et de ponctuation des phrases;
- POS_MODEL: Modèle d'annotation de la partie du discours CRF;
- Cut_Model: Modèle de lecture de phrase CRF;
- punc_model: modèle de ponctuation CRF;
- Zhuangzi.txt: Le texte intégral de Zhuangzi a utilisé la construction de vocabulaire.

Construction du thésaurus

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, '庄子词库.csv')

résultat:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Participe
1. Particitum mot du modèle markov au niveau du caractère, L'effet est conforme au sens du langage, il est recommandé d'utiliser et le modèle de langue jiayan.klm doit être chargé
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  résultat:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Étant donné que les anciens chinois ne disposent pas de données de segmentation des mots publics, il est impossible d'évaluer l'effet, mais nous pouvons intuitivement ressentir les avantages de ce projet via différents outils PNL:
  Essayez de comparer les résultats du participe du modèle LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Essayez à nouveau de comparer les résultats du participe des mots HANLP:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  On peut voir que le mot participe de cet outil sur l'ancien chinois est nettement meilleur que celui de l'outil de PNL chinois général.
  * MISE À JOUR: Merci à l'auteur de HANLP HANKC pour vous avoir fait savoir - à partir du début de 2021, Hanlp a publié le 2.x. En raison de l'utilisation de modèles de langue pré-formés sur le corpus à grande échelle, ces corpus ont déjà inclus presque tous les chinois anciens et modernes sur Internet, de sorte que l'effet sur les chinois anciens a été qualitativement amélioré. Non seulement des mots de participe, mais aussi des effets d'apprentissage en partie des coups et une analyse sémantique. Pour l'effet de participe mot spécifique correspondant, veuillez vous référer à ce problème.
2. Participation de chemin de probabilité maximum au niveau du mot, essentiellement en unités de caractères, avec une taille de grain grossière
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  résultat:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Une partie de l'annotation de la parole

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

résultat:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Rompre la phrase

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

résultat:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

ponctuation

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

résultat:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Version

v0.0.21
- Divisez le processus d'installation en deux étapes pour vous assurer que la dernière version Kenlm est obtenue.
v0.0.2
- Ajoutez une partie d'annotation de dispositive.
v0.0.1
- Les fonctions de la construction du vocabulaire, de la segmentation automatique des mots, de la lecture classique des phrases chinoises et de la ponctuation sont ouvertes.

Introduction

Jiayan, qui signifie des caractères chinois gravés sur Oracle Bones, est un outil Python Python professionnel pour le chinois classique.
Les outils de PNL chinois en vigueur sont principalement formés sur les données chinoises modernes, ce qui conduit à de mauvaises performances sur le chinois classique (voir Tokenising ). Le but de ce projet est d'aider le traitement classique de l'information chinoise.
La version actuelle prend en charge la construction du lexique, le tokenisage, le marquage POS, la segmentation des phrases et la ponctuation automatique, d'autres fonctionnalités sont en développement.

Caractéristiques

Construction du lexique
- Avec une approche non supervisée, construisez le lexique avec Trie -Tree, PMI ( informations mutuelles ponctuelles ) et l'entropie voisine des caractères gauche et droit.
Tokenisage
- Avec une approche non supervisée et sans dictionnaire pour tokenize une phrase chinoise classique avec modèle de langue N-gram et HMM ( modèle de Markov caché ).
- Avec le dictionnaire produit à partir de la construction du lexique, tokenize une phrase chinoise classique avec graphe de mot acyclique dirigé, chemin de probabilité maximum et programmation dynamique.
Tagging POS
- Taging de séquence de niveau de mot avec CRF ( champ aléatoire conditionnel ). Voir les catégories de balises POS ici.
Segmentation des phrases
- Taging de séquence au niveau des caractères avec CRF, introduit des valeurs de test PMI et t comme fonctionnalités.
Ponctuation
- Taging de séquence au niveau des caractères avec des CRF en couches, ponctué donné des textes chinois classiques basés sur les résultats de la segmentation des phrases.
Remarque: En raison des données que nous avons utilisées, nous ne soutenons pas le chinois traditionnel pour l'instant. Si vous devez traiter un traditionnel, veuillez utiliser OpenCC pour convertir les entrées traditionnelles en simplification, vous pouvez convertir les résultats.

Installation

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

Usages

Les codes d'utilisation ci-dessous sont tous à partir d'exemples.py.

Téléchargez les modèles et se décompressez: Google Drive
- jiayan.klm: le modèle de langue utilisé pour les tokenisants et l'extraction de caractéristiques pour la segmentation et la ponctuation des phrases;
- pos_model: le modèle CRF pour le marquage POS;
- Cut_Model: le modèle CRF pour la segmentation des phrases;
- punc_model: le modèle CRF pour la ponctuation;
- Zhuangzi.txt: le texte intégral de "Zhuangzi" utilisé pour tester la construction du lexique.

Construction du lexique

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, 'Zhuangzi_Lexicon.csv')

Résultats:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Tokenisage
1. Le HMM basé sur les personnages, recommandé, a besoin de modèle de langue: jiayan.klm
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  Résultats:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Puisqu'il n'y a pas de données de tokenisation publique pour le chinois classique, il est difficile de faire une évaluation des performances directement; Cependant, nous pouvons comparer les résultats avec d'autres outils de PNL chinois modernes populaires pour vérifier les performances:
  Comparez le résultat de la tokenisage de LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Comparez également le résultat de la tokenisage de HANLP:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Il est évident que Jiayan a une bien meilleure performance de tokenisage que les outils généraux de PNL chinois.
2. Path de probabilité maximum approchant le tokenisage basé sur les mots
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  Résultats:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Tagging POS

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

Résultats:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Segmentation des phrases

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

Résultats:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

Ponctuation

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

Résultats:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versions

v0.0.21
- Divisez l'installation en deux étapes pour vous assurer d'obtenir la dernière version de Kenlm.
v0.0.2
- La fonction de balise POS est ouverte.
v0.0.1
- Ajoutez des fonctionnalités de la construction du lexique, de la tokenisation, de la segmentation des phrases et de la ponctuation automatique.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 216.93KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout