Jiayan Download - Jiayan Fonte Code Download

Jiayan

Outro código-fonte

1.0.0

Baixar

Jiayan

chinês
Inglês

Introdução

A, que significa "chinês clássico Oracle Bone", é um kit de ferramentas do NLP com foco no processamento chinês antigo.
Atualmente, as ferramentas comuns de PNL chinesas usam principalmente chineses modernos como corpus central, e o efeito de processamento do chinês antigo não é satisfatório (consulte o particípio para obter detalhes). A intenção original deste projeto é ajudar no processamento de informações chinesas antigas e ajudar os antigos estudiosos e entusiastas chineses que estão interessados em cavar minerais culturais antigos para analisar e utilizar melhor os materiais chineses clássicos para criar "novos produtos culturais" a partir de "patrimônio cultural".
A versão atual suporta cinco funções: construção de léxico, segmentação automática de palavras, anotação de parte da fala, leitura e pontuação clássica de frases chinesas e mais funções estão em desenvolvimento.

Função

Construção de sinônimos
- O vocabulário chinês clássico é construído automaticamente usando árvore de dicionário duplo não supervisionado, informações mútuas de ponto e entropia adjacente à esquerda e direita.
Particípio
- A segmentação automática de palavras em chinês antiga é usada para usar a gramática n-metal não supervisionada e sem dicionário e o modelo de Markov oculto.
- O dicionário chinês clássico gerado pela função de construção do léxico é usado para executar a segmentação de palavras com base em gráficos de palavras sem anel direcionados, na frase de probabilidade máxima e algoritmos de programação dinâmica.
Parte da anotação da fala
- Para anotação de sequência com base no campo aleatório condicional da palavra, consulte a tabela de parte do fala para obter detalhes.
Break Frende
- Com base na anotação de sequência do campo aleatório condicional de caracteres, a introdução de informações mútuas de ponto e os valores do teste t como características e quebra automaticamente frases para parágrafos clássicos chineses.
pontuação
- A anotação de sequência do campo aleatório da condição em cascata com base em caracteres é automaticamente pontuada nos parágrafos clássicos chineses com base na quebra da frase.
Tradução de Wenbai
- Durante o desenvolvimento, está atualmente no estágio de coleta e limpeza de corpus paralelo de texto e branco.
- Com base no modelo de geração de rede neural de rede recorrente de memória bidirecional e de curto prazo e mecanismo de atenção, os textos antigos são traduzidos automaticamente.
NOTA: Devido à influência do corpus, o chinês tradicional não é atualmente suportado. Se você precisar lidar com os chineses tradicionais, primeiro pode usar o OpenCC para converter a entrada em chinês simplificado e depois converter os resultados para os chineses tradicionais correspondentes (como Hong Kong, Macau e Taiwan).

Instalar

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

usar

Os módulos a seguir são usados em exemplos.py.

Faça o download do modelo e descompacte: Baidu NetDisk, Extract Code: p0sc
- Jiayan.klm: Modelo de idioma, usado principalmente para segmentação de palavras e extração de recursos nas tarefas de leitura e pontuação de frases;
- Pos_model: modelo de anotação de parte da fala da CRF;
- Cut_model: Modelo de leitura da frase CRF;
- Punc_model: modelo de pontuação CRF;
- Zhuangzi.txt: O texto completo de Zhuangzi usado para testar a construção do vocabulário.

Construção de sinônimos

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, '庄子词库.csv')

resultado:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Particípio
1. Particípio do modelo de modelo de modelo oculto no nível do personagem, o efeito está alinhado com o sentido da linguagem, é recomendável usar, e o modelo de idioma jiayan.klm precisa ser carregado
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  resultado:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Como o chinês antigo não possui dados de segmentação de palavras públicas, é impossível avaliar o efeito, mas podemos sentir intuitivamente as vantagens deste projeto por meio de diferentes ferramentas de PNL:
  Tente comparar os resultados do particípio do modelo LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Tente comparar os resultados do particípio da palavra hanlp novamente:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  Pode -se observar que o efeito do particípio dessa ferramenta no chinês antigo é significativamente melhor que o da ferramenta geral da PNL chinesa.
  *ATUALIZAÇÃO: Obrigado ao autor Hankc da Hanlp por informar - desde o início de 2021, o Hanlp lançou o Deep Learning, acionado por aprendizado 2.x. Devido ao uso de modelos de idiomas pré-treinados em corpus em larga escala, esses corpus já incluíram quase todos os chineses antigos e modernos na Internet, de modo que o efeito sobre os chineses antigos foi qualitativamente melhorado. Não apenas as palavras de particípio, mas também os efeitos de aprendizado parte de tiros e análises semânticas. Para o efeito de particípio da palavra específico correspondente, consulte este problema.
2. Particípio do caminho de probabilidade máxima no nível da palavra, basicamente em unidades de caracteres, com tamanho de grão grosso
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  resultado:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Parte da anotação da fala

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

resultado:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Break Frende

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

resultado:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

pontuação

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

resultado:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versão

v0.0.21
- Divida o processo de instalação em duas etapas para garantir que a versão mais recente do Kenlm seja obtida.
v0.0.2
- Adicione a função de anotação de parte da fala.
v0.0.1
- As funções da construção do vocabulário, segmentação automática de palavras, leitura clássica de frases chinesas e pontuação estão abertas.

Introdução

Jiayan, que significa que os caracteres chineses gravados em Oracle Bones, são uma ferramenta profissional de Python PNL para chinês clássico.
As ferramentas de PNL chinesas predominantes são treinadas principalmente em dados chineses modernos, o que leva a um desempenho ruim nos chineses clássicos (consulte tokenizing ). O objetivo deste projeto é ajudar o processamento clássico de informações chinesas.
A versão atual suporta a construção do léxico, o tokenizing, a marcação de POS, a segmentação de frases e a pontuação automática, mais recursos estão em desenvolvimento.

Características

Construção do léxico
- Com uma abordagem não supervisionada, construa o léxico com trie -tree, PMI ( informação mútua de ponto ) e entropia vizinha dos caracteres esquerdo e direito.
Tokenizing
- Com uma abordagem sem supervisão e nenhuma abordagem de dicionário para tokenizar uma frase chinesa clássica com o modelo de linguagem n-gramas e HMM ( Hidden Markov Model ).
- Com o dicionário produzido pela Lexicon Construction, tokenize uma frase clássica chinesa com gráfico de palavras acíclicas direcionadas, caminho de probabilidade máxima e programação dinâmica.
Marcação de POS
- Marca de sequência do nível de palavras com CRF ( campo aleatório condicional ). Veja as categorias de tags pos aqui.
Segmentação de frases
- A marcação de sequência do nível do caractere com CRF, introduz valores de teste PMI e t como recursos.
Pontuação
- E marcação de sequência no nível do caractere com CRFs em camadas, pontuando textos clássicos chineses com base nos resultados da segmentação de frases.
Nota: Devido a dados que usamos, não apoiamos os chineses tradicionais por enquanto. Se você precisar processar um tradicional, use o OpenCC para converter a entrada tradicional em simplificada, poderá converter os resultados de volta.

Instalação

 $ pip install jiayan 
$ pip install https://github.com/kpu/kenlm/archive/master.zip

Usos

Os códigos de uso abaixo são todos dos exemplos.py.

Baixe os modelos e descompacte -os: Google Drive
- Jiayan.klm: o modelo de idioma usado para tokenizing e extração de recursos para segmentação e pontuação de frases;
- Pos_model: o modelo CRF para marcação de POS;
- Cut_model: o modelo CRF para segmentação de frases;
- punc_model: o modelo CRF para pontuação;
- Zhuangzi.txt: O texto completo de "Zhuangzi" usado para testar a construção do léxico.

Construção do léxico

 from jiayan import PMIEntropyLexiconConstructor

constructor = PMIEntropyLexiconConstructor()
lexicon = constructor.construct_lexicon('庄子.txt')
constructor.save(lexicon, 'Zhuangzi_Lexicon.csv')

Resultados:

 Word,Frequency,PMI,R_Entropy,L_Entropy
之,2999,80,7.944909328101839,8.279435615456894
而,2089,80,7.354575005231323,8.615211168836439
不,1941,80,7.244331150611089,6.362131306822925
...
天下,280,195.23602384978196,5.158574399464853,5.24731990592901
圣人,111,150.0620531154239,4.622606551534004,4.6853474419338585
万物,94,377.59805590304126,4.5959107835319895,4.538837960294887
天地,92,186.73504238078462,3.1492586603863617,4.894533538722486
孔子,80,176.2550051738876,4.284638190120882,2.4056390622295662
庄子,76,169.26227942514097,2.328252899085616,2.1920058354921066
仁义,58,882.3468468468468,3.501609497059026,4.96900162987599
老聃,45,2281.2228260869565,2.384853500510039,2.4331958387289765
...

Tokenizing
1. O HMM baseado em personagem, recomendado, precisa de Modelo de Idioma: jiayan.klm
```
 from jiayan import load_lm
from jiayan import CharHMMTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'

lm = load_lm('jiayan.klm')
tokenizer = CharHMMTokenizer(lm)
print(list(tokenizer.tokenize(text)))
```
  Resultados:
  ['是', '故', '内圣外王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']
  Como não há dados de tokenização pública para os chineses clássicos, é difícil fazer uma avaliação de desempenho diretamente; No entanto, podemos comparar os resultados com outras ferramentas populares da PNL moderna chinesa para verificar o desempenho:
  Compare o resultado tokenizador do LTP (3.4.0):
  ['是', '故内', '圣外王', '之', '道', '，', '暗而不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉以自为方', '。']
  Além disso, compare o resultado tokenizador de Hanlp:
  ['是故', '内', '圣', '外', '王之道', '，', '暗', '而', '不明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各为其所欲焉', '以', '自为', '方', '。']
  É evidente que o Jiayan tem um desempenho tokenizador muito melhor do que as ferramentas gerais de PNL chinesas.
2. Caminho de probabilidade máximo que se aproxima de tokenizador com base em palavras
```
 from jiayan import WordNgramTokenizer

text = '是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方。'
tokenizer = WordNgramTokenizer()
print(list(tokenizer.tokenize(text)))
```
  Resultados:
  ['是', '故', '内', '圣', '外', '王', '之', '道', '，', '暗', '而', '不', '明', '，', '郁', '而', '不', '发', '，', '天下', '之', '人', '各', '为', '其', '所', '欲', '焉', '以', '自', '为', '方', '。']

Marcação de POS

 from jiayan import CRFPOSTagger

words = ['天下', '大乱', '，', '贤圣', '不', '明', '，', '道德', '不', '一', '，', '天下', '多', '得', '一', '察', '焉', '以', '自', '好', '。']

postagger = CRFPOSTagger()
postagger.load('pos_model')
print(postagger.postag(words))

Resultados:
['n', 'a', 'wp', 'n', 'd', 'a', 'wp', 'n', 'd', 'm', 'wp', 'n', 'a', 'u', 'm', 'v', 'r', 'p', 'r', 'a', 'wp']

Segmentação de frases

 from jiayan import load_lm
from jiayan import CRFSentencizer

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
sentencizer = CRFSentencizer(lm)
sentencizer.load('cut_model')
print(sentencizer.sentencize(text))

Resultados:
['天下大乱', '贤圣不明', '道德不一', '天下多得一察焉以自好', '譬如耳目', '皆有所明', '不能相通', '犹百家众技也', '皆有所长', '时有所用', '虽然', '不该不遍', '一之士也', '判天地之美', '析万物之理', '察古人之全', '寡能备于天地之美', '称神之容', '是故内圣外王之道', '暗而不明', '郁而不发', '天下之人各为其所欲焉以自为方', '悲夫', '百家往而不反', '必不合矣', '后世之学者', '不幸不见天地之纯', '古之大体', '道术将为天下裂']

Pontuação

 from jiayan import load_lm
from jiayan import CRFPunctuator

text = '天下大乱贤圣不明道德不一天下多得一察焉以自好譬如耳目皆有所明不能相通犹百家众技也皆有所长时有所用虽然不该不遍一之士也判天地之美析万物之理察古人之全寡能备于天地之美称神之容是故内圣外王之道暗而不明郁而不发天下之人各为其所欲焉以自为方悲夫百家往而不反必不合矣后世之学者不幸不见天地之纯古之大体道术将为天下裂'

lm = load_lm('jiayan.klm')
punctuator = CRFPunctuator(lm, 'cut_model')
punctuator.load('punc_model')
print(punctuator.punctuate(text))

Resultados:
天下大乱，贤圣不明，道德不一，天下多得一察焉以自好，譬如耳目，皆有所明，不能相通，犹百家众技也，皆有所长，时有所用，虽然，不该不遍，一之士也，判天地之美，析万物之理，察古人之全，寡能备于天地之美，称神之容，是故内圣外王之道，暗而不明，郁而不发，天下之人各为其所欲焉以自为方，悲夫！百家往而不反，必不合矣，后世之学者，不幸不见天地之纯，古之大体，道术将为天下裂。

Versões

v0.0.21
- Divida a instalação em duas etapas para garantir que a versão mais recente do Kenlm.
v0.0.2
- O recurso de marcação de POS está aberto.
v0.0.1
- Adicione os recursos da construção do léxico, simulação, segmentação de frases e pontuação automática.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 216.93KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos