Descarga de Jiayan - Descarga del código fuente Jiayan

Jiayan

Otro código fuente

1.0.0

Descargar

Jiayan

Chino
Inglés

Introducción

A, que significa "Chino clásico de Oracle Bone", es un kit de herramientas NLP que se centra en el procesamiento chino antiguo.
Actualmente, las herramientas de PNL chinas comunes usan principalmente el chino moderno como el corpus central, y el efecto de procesamiento de los chinos antiguos no es satisfactorio (ver participio para más detalles). La intención original de este proyecto es ayudar en el procesamiento de la información china antigua y ayudar a los antiguos académicos y entusiastas chinos que están interesados en excavar minerales culturales antiguos para analizar y utilizar mejor materiales chinos clásicos para crear "nuevos productos culturales" de "herencia cultural".
La versión actual admite cinco funciones: construcción de léxicos, segmentación automática de palabras, anotación de parte de voz, lectura y puntuación de oraciones chinas clásicas, y se están desarrollando más funciones.

Función

Construcción del tesauro
- El vocabulario chino clásico se construye automáticamente utilizando árbol de doble diccionario no supervisado, información mutua de punto y entropía adyacente izquierda y derecha.
Participio
- La segmentación de palabras automáticas en chinos antiguos se utiliza para usar gramática N-metal sin diccionario y sin supervisión y modelo de Markov oculto.
- El diccionario clásico chino generado por la función de construcción de léxico se utiliza para realizar la segmentación de palabras basada en gráficos de palabras sin anillo dirigidos, rutas de probabilidad máxima de oración y algoritmos de programación dinámica.
Parte de la anotación del habla
- Para la anotación de secuencia basada en el campo aleatorio condicional de la palabra, consulte la tabla de parte del voz para más detalles.
Hacer una ruptura
- Basado en la anotación de secuencia del campo aleatorio condicional de los caracteres, la introducción de la información mutua de puntos y los valores de la prueba t como características, y rompe automáticamente las oraciones para los párrafos clásicos chinos.
puntuación
- La anotación de secuencia del campo aleatorio de la condición en cascada basada en caracteres se puntúa automáticamente en los párrafos chinos clásicos basados en la ruptura de la oración.
Traducción de Wenbai
- Durante el desarrollo, actualmente se encuentra en la etapa de recolección y limpieza del corpus paralelo de texto y blanco.
- Basado en el modelo de generación de redes neuronales de red y mecanismo de atención recurrente de memoria a largo y corto plazo, textos antiguos se traducen automáticamente.
Nota: Debido a la influencia del corpus, el chino tradicional no es compatible actualmente. Si necesita lidiar con el chino tradicional, primero puede usar OPENCC para convertir la entrada a chino simplificado, y luego convertir los resultados a los chinos tradicionales correspondientes (como Hong Kong, Macao y Taiwán).

Instalar

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

usar

Los siguientes módulos se usan de ejemplos.py.

Descargue el modelo y descomprima: Baidu NetDisk, Extract Code: p0sc
- jiayan.klm: modelo de idioma, utilizado principalmente para la segmentación de palabras y extracción de características en tareas de lectura y puntuación de oraciones;
- POS_MODEL: Modelo de anotación de parte de voz de CRF;
- Cut_model: modelo de lectura de oraciones CRF;
- Punc_Model: modelo de puntuación CRF;
- Zhuangzi.txt: el texto completo de Zhuangzi utilizado para probar la construcción del vocabulario.

Construcción del tesauro

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, '庄子词库.csv')

resultado:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Participio
1. Participio de palabras del modelo de Markov oculto a nivel de personaje, el efecto está en línea con el sentido del lenguaje, se recomienda usar y el modelo de idioma jiayan.klm debe cargarse
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  resultado:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Dado que los chinos antiguos no tienen datos de segmentación de palabras públicas, es imposible evaluar el efecto, pero podemos sentir intuitivamente las ventajas de este proyecto a través de diferentes herramientas de PNL:
  Intente comparar los resultados del participio LTP (3.4.0) del modelo:
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Intente comparar los resultados del participio de la palabra HANLP nuevamente:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Se puede ver que el efecto de la palabra participio de esta herramienta en los chinos antiguos es significativamente mejor que el de la herramienta NLP china general.
  *ACTUALIZACIÓN: Gracias al autor de Hanlp Hankc por informarle: a principios de 2021, Hanlp lanzó Deep Learning, impulsado 2.x. Debido al uso de modelos lingüísticos previamente capacitados en el corpus a gran escala, estos corpus ya han incluido casi todos los chinos antiguos y modernos en Internet, por lo que el efecto en los chinos antiguos ha mejorado cualitativamente. No solo las palabras participle, sino también los efectos de aprendizaje de parte de los disparos y el análisis semántico. Para el efecto de participio de palabras específico correspondiente, consulte este tema.
2. Participador de ruta de probabilidad máxima a nivel de palabra, básicamente en unidades de caracteres, con tamaño de grano grueso
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  resultado:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Parte de la anotación del habla

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

resultado:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Hacer una ruptura

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

resultado:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

puntuación

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

resultado:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versión

V0.0.21
- Divida el proceso de instalación en dos pasos para garantizar que se obtenga la última versión de Kenlm.
V0.0.2
- Agregue la función de anotación de parte de voz.
V0.0.1
- Las funciones de la construcción del vocabulario, la segmentación automática de palabras, la lectura clásica de oraciones chinas y la puntuación están abiertas.

Introducción

Jiayan, que significa caracteres chinos grabados en Oracle Bones, es una herramienta profesional PYTHON NLP para chino clásico.
Las herramientas de PNL chinas predominantes se capacitan principalmente en datos chinos modernos, lo que conduce a un mal rendimiento en los chinos clásicos (ver Tokenizing ). El propósito de este proyecto es ayudar al procesamiento clásico de la información china.
La versión actual admite la construcción de léxicos, tokenización, etiquetado POS, segmentación de oraciones y puntuación automática, se están desarrollando más características.

Características

Construcción de léxico
- Con un enfoque no supervisado, construya el léxico con Trie -Tree, PMI ( información mutua puntiaguda ) y entropía vecina de caracteres izquierdo y derecho.
Tokenización
- Con un enfoque de diccionario sin supervisión para tokenizar una oración china clásica con modelo de idioma N-Gram y HMM ( modelo de Markov oculto ).
- Con el diccionario producido a partir de la construcción de léxicos, tokenize una oración clásica china con gráfico de palabras acíclicas dirigidas, ruta de probabilidad máxima y programación dinámica.
Etiquetado POS
- Etiquetado de secuencia de nivel de palabras con CRF ( campo aleatorio condicional ). Vea las categorías de etiquetas POS aquí.
Segmentación de oraciones
- Etiquetado de secuencia de nivel de caracteres con CRF, introduce los valores de PMI y la prueba t como características.
Puntuación
- Etiquetado de secuencia de nivel de caracteres con CRF en capas, puntúe los textos chinos clásicos basados en los resultados de la segmentación de las oraciones.
Nota: Debido a los datos que utilizamos, no apoyamos el chino tradicional por ahora. Si tiene que procesar uno tradicional, use OpenCC para convertir la entrada tradicional a simplificada, entonces puede volver a convertir los resultados.

Instalación

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

Usos

Los códigos de uso a continuación son todos de ejemplos.py.

Descargue los modelos y descompite: Google Drive
- jiayan.klm: el modelo de idioma utilizado para tokenizar y extracción de características para la segmentación y puntuación de oraciones;
- POS_MODEL: el modelo CRF para etiquetado POS;
- Cut_model: el modelo CRF para la segmentación de oraciones;
- Punc_Model: el modelo CRF para la puntuación;
- Zhuangzi.txt: el texto completo de "Zhuangzi" utilizado para probar la construcción de léxico.

Construcción de léxico

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, 'Zhuangzi_Lexicon.csv')

Resultados:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Tokenización
1. El personaje basado en el personaje HMM, recomendado, necesita modelo de idioma: jiayan.klm
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  Resultados:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Dado que no hay datos de tokenización pública para el chino clásico, es difícil realizar la evaluación del rendimiento directamente; Sin embargo, podemos comparar los resultados con otras herramientas de PNL chinas modernas populares para verificar el rendimiento:
  Compare el resultado de tokenización de LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Además, compare el resultado de la tokenización de HANLP:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Es evidente que Jiayan tiene un rendimiento tokenizante mucho mejor que las herramientas de PNL chinas generales.
2. Max Probabilidad Ruta que se acerca a la tokenización basada en palabras
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  Resultados:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Etiquetado POS

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

Resultados:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Segmentación de oraciones

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

Resultados:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

Puntuación

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

Resultados:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versiones

V0.0.21
- Divida la instalación en dos pasos para asegurarse de obtener la última versión de KenLM.
V0.0.2
- La función de etiquetado POS está abierta.
V0.0.1
- Agregue características de la construcción de léxico, tokenización, segmentación de oraciones y puntuación automática.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 216.93KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo