Download do JioNLP - JioNLP Download de código fonte

JioNLP

Outro código-fonte

1.0.0

Baixar

Jionlp: PNs de pré -processamento chinês e análise de ferramentas Python Lib para pré -processamento e análise da PNL chinesa

Instale: `pip install jionlp`

O JionLP é um kit de ferramentas para desenvolvedores de PNL , fornecendo funções de pré -processamento e análise de tarefas de NLP, com limiar de uso preciso, eficiente e zero. Desça esta página, verifique as informações específicas da função e pressione Ctrl+F para pesquisar. A edição on -line do Jionlp pode experimentar rapidamente alguns recursos. Siga a conta oficial do WeChat com o mesmo nome, Jionlp e obtenha as informações mais recentes de informações e dados da IA.
- Direção de desenvolvimento da IA - do pipeline ao end2end
- Por que você não acredita na revisão do modelo LLM: revisão aprofundada das interfaces LLM
- Ai parece estar correndo em uma direção estranha
- O chatgpt será tão forte afetar o ambiente de emprego do NLPER?
- Entenda os princípios do modelo ChatGPT em um artigo
- Após três semanas, atualizei outra versão do software de código aberto ffio => ffio link

2023-12-12 Adicione Mellm

Mellm , abreviação de avaliação mútua de grandes modelos de linguagem , é um algoritmo de avaliação automática do LLMS sem supervisão humana. O Mellm foi testado efetivamente em vários resultados e resultados dos testes de LLMs e conjuntos de dados. Você pode usar o código de exemplo abaixo para tentar.
Antes de executar este código, você deve baixar norm_score.json e max_score.json a partir de dados de teste com a senha jmbo .
Se você encontrar algum erro, leia o arquivo test_mellm.py para baixar *.json arquivo.

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py

2023-06-22 Adicione um grande conjunto de dados de avaliação de Modelo de Idioma LLM

O JionLP fornece um conjunto de conjuntos de dados de teste LLM e avalia automaticamente usando o algoritmo Mellm.
Para obter resultados de avaliação, siga a conta oficial Jionlp e verifique as capturas de tela de revisão específicas de cada empresa.

 >>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])

Instalação de instalação

Python> = 3,6 Github Version está um pouco à frente de Pip

 $ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .

Instalação PIP

 $ pip install jionlp

Usando recursos

Importe o kit de ferramentas e visualize as principais funções e comentários da função do kit de ferramentas

 >>> import jionlp as jio
>>> print(jio.__version__)  # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)

A classificação de estrelas representa recursos especiais de alta qualidade

1. Gadgets

Função	função	descrever
Encontre ajuda	ajuda	Se você não souber quais funções Jionlp, você pode digitar várias palavras -chave de acordo com a linha de comando solicita a pesquisa
Análise do número da placa	parse_motor_vehicle_licence_plate	Dado um número da placa, analise -o
Análise semântica do tempo	parse_time	Dado um texto do tempo, analise sua semântica do tempo (carimbo de hora, duração), etc.
Extração de frase -chave	Extract_keyphrase	Dado um texto, extraia suas frases -chave correspondentes
Resumo do texto extraído	Extract_summary	Dado um texto, extraia seu dicionário correspondente
Stop Word Filtraing	remove_stopwords	Dada uma lista de palavras depois que um texto é participado, remova as palavras de parada dela
Frase	split_sentence	Texto pontuado
Resolução de endereço	parse_location	Dado uma corda contendo endereço doméstico, identificando informações como província, cidade, condado, município, rua, vila, etc.
Local do número de telefone, Análise do operador	Phone_location Cell_Phone_Location Landline_phone_location	Dado um número de telefone (número do número de telefone celular, número de telefone fixo), identifique a província, a cidade e o operador.
Reconhecimento do nome do local de notícias	reconhecer_location	Dado um texto de notícias, identifique províncias domésticas, cidades, condados, países estrangeiros, cidades e outras informações.
Datas do calendário gregoriano	Lunar2Solar Solar2lunar	Dada uma certa data do calendário, converta -a em um calendário regional
Análise de número de cartão de identidade	parse_id_card	Dado um número de identificação, identifique a província correspondente, cidade, condado, data de nascimento, Gênero, código de verificação e outras informações
Idioma sólido	idiom_solitaire	O idioma é o mesmo que o último personagem do idioma anterior e o primeiro personagem do próximo idioma (pronúncia)
Filtragem de dados pornográficos	-	-
Filtragem de dados reacionários	-	-
Chinês tradicional para chinês simplificado	TRA2SIM	Chinês tradicional para chinês simplificado, apoiando dois modos de correspondência literal e máxima
Chinês simplificado para chinês tradicional	Sim2tra	Chinês simplificado para chinês tradicional, apoiando dois modos de correspondência literal e máxima
Personagens chineses para Pinyin	Pinyin	Descubra o pinyin chinês correspondente ao texto chinês e retorne as iniciais , finais e tom
Caracteres chineses para radicais e personagens	char_radiical	Descubra as informações da estrutura de caracteres chinesas correspondentes ao texto chinês, Incluindo radicais ("ele" lâmpada), estrutura da fonte ("ele", estrutura à esquerda e direita), Código de quatro cantos ("He" 31120), desmontagem de caracteres chineses ("ele" lata de água), Código Wubi ("River" ISKG)
Número da quantidade para caracteres chineses	Money_num2char	Dada uma quantia numérica, retorne o resultado de sua capitalização de caracteres chineses
Nova descoberta de palavras	new_word_discovery	Dado um arquivo de texto de corpus, a alta probabilidade de ser uma palavra

2. Aprimoramento dos dados

Descrição de vários métodos para aprimoramento de dados de texto

Função	função	descrever
Responder à tradução	Backtranslation	Dado um texto, use a interface de tradução da máquina das plataformas de nuvem dos principais fabricantes. Implementar aprimoramento de dados
Transposição de caracteres quase chineses	swap_char_position	Trocar aleatoriamente as posições de caracteres semelhantes para obter aprimoramento de dados
Substituição de homofones	homophone_substitution	A mesma substituição de vocabulário de pronúncia para obter aprimoramento de dados
Adição e exclusão de personagens aleatórios	random_add_delete	Adicione ou exclua aleatoriamente um personagem no texto, que não afeta a semântica
Substituição da entidade nerd	substituir_entity	De acordo com o Dictionary da entidade, a substituição aleatória de uma entidade no texto não afetará a semântica e também é amplamente utilizada na anotação de sequência e na classificação do texto

3. Extração e análise regulares

Função	função	descrever
Texto limpo	limpo_text	Remova caracteres de exceção, caracteres redundantes, tags html, informações de suporte no texto, URL, e-mail, número de telefone, conversão alfanumérica de largura total em meia largura
Extraia e-mail	Extract_email	Extraia o e-mail no texto, retorne o local e o nome de domínio
Análise do valor da moeda	Extract_Money	Analisar a sequência do valor da moeda
Extraia sinais WeChat	Extract_wechat_id	Desenhe WeChat ID e retorne ao local
Desenhe um número de telefone	Extract_phone_number	Extraia o número de telefone (incluindo número de telefone celular e número de telefone fixo ) e retorne o nome do domínio , tipo e localização
Extrair o ID do cartão de identificação chinês	Extract_id_card	Extraia o ID ID e coopere com Jio.parse_id_card para retornar as informações detalhadas do cartão de identificação ( Província, cidade , data de nascimento , gênero , código de verificação )
Desenhe o número QQ	Extract_qq	Desenhe números QQ, divididos em regras estritas e regras soltas
Extrair URL	Extract_url	Extraia o hiperlink de URL
Extraia o endereço IP	Extract_ip_address	Extraia o endereço IP
Extrair o conteúdo entre colchetes	Extract_parenteses	Extraia o conteúdo dos colchetes, incluindo {} "[] [] () () <>"
Desenhe o número da placa	Extract_motor_vehicle_licence_plate	Extrair informações do número da placa do continente
Excluir e-mail	remove_email	Exclua a mensagem de e-mail no texto
Excluir URL	remove_url	Excluir informações de URL em texto
Exclua o número de telefone	Remova_phone_number	Exclua o número de telefone no texto
Excluir endereço IP	Remova_IP_Address	Exclua o endereço IP no texto
Excluir número de identificação	Remow_id_card	Exclua as informações do cartão de identificação no texto
Exclua QQ	remove_qq	Exclua o número QQ no texto
Exclua tags HTML	Remova_html_tag	Exclua as tags HTML restantes no texto
Exclua o conteúdo entre colchetes	remove_parenteses	Exclua o conteúdo dos colchetes, incluindo {} "[] [] () () <>"
Excluir caracteres de exceção	Remone_exception_char	Excluir caracteres de exceção no texto, mantendo principalmente caracteres chineses e comumente usados. Símbolos de cálculo da unidade, alfanuméricos, etc.
Exclua caracteres redundantes	REMOVER_REDUNDANT_CHAR	Excluir caracteres duplicados redundantes no texto
E-mail normalizado	substituir_email	A mensagem de e-mail no texto normalizada é <ailail>
URL normalizado	substituir_url	As informações de URL no texto normalizado são <url>
Número de telefone normalizado	substituir_phone_number	O número de telefone no texto normalizado é <l>
Endereço IP normalizado	substitua_ip_address	O endereço IP no texto normalizado é <P>
Número de identificação normalizado	substituir_id_card	As informações do cartão de identificação no texto normalizado é <ID>
QQ normalizado	substituir_qq	O número qq no texto normalizado é <qq>
Determinar se o texto contém caracteres chineses	check_any_chinese_char	Verifique se o texto contém caracteres chineses. Se pelo menos um estiver incluído, ele retornará verdadeiro.
Determine se o texto é todos caracteres chineses	check_all_chinese_char	Verifique se todos os caracteres chineses estão no texto. Se tudo estiver, retorne verdadeiro
Determinar se o texto contém algaris	check_any_arabic_num	Verifique se o texto contém números árabes. Se pelo menos um estiver incluído, ele retornará verdadeiro
Determinar se todos os textos são algarismos árabes	check_all_arabic_num	Verifique se todos os números árabes do texto estão. Se tudo estiver, retorne verdadeiro

4. Ferramentas de leitura e escrita de arquivos

Função	função	descrever
Leia os arquivos por linha	read_file_by_iter	É fácil ler arquivos por linha na forma de um iterador, salvando memória. Suporta o número especificado de linhas , pule as linhas vazias
Leia os arquivos por linha	read_file_by_line	Leia os arquivos por linha, suporte número especificado de linhas , pule linhas vazias
Escreva elementos na lista para arquivar por linha	write_file_by_line	Escreva elementos na lista para arquivar por linha
Ferramenta de tempo	Timeit	Calcule o tempo gasto em um determinado segmento de código
Ferramentas de log	set_logger	Ajuste o formulário de saída de log do kit de ferramentas

5. Carregamento e uso do dicionário

Função	função	descrever
DataSet de avaliação de Modelo de Linguagem Grande	jio.llm_test_dataset_loader	Conjunto de dados de avaliação de LLM
BPE no nível de byte	jio.bpe.byte_level_bpe	Algoritmo de Byte-Level-BPE
Stop Word Dictionary	jio.stopwords_loader ()	Dicionário abrangente de palavras de parada de Baidu, Jieba, Iflytek, etc.
Dicionário idioma	chinês_idiom_loader	Carregando Dicionário Idiom
Dicionário de expressões idiomáticas	xiehouyu_loader	Carregando Dicionário Idiom
Dicionário chinês de substantivos	China_location_loader	Carregue o dicionário de três níveis da provincial, municipal e municipal da China
Dicionário Chinês de Ajuste da Divisão	China_location_change_loader	Carregando registros de renomeação e renomeação do condado e acima do zoneamento na China desde 2018
Dicionário de substantivo mundial	World_Location_loader	Carregue o continente mundial, o país, o dicionário da cidade
Dicionário Xinhua	chinês_char_dictionary_loader	Carregando o dicionário Xinhua
Dicionário Xinhua	chinês_word_dictionary_loader	Carregando o dicionário Xinhua

6. Algoritmo de reconhecimento de entidade (NER) Conjunto de ferramentas auxiliares

Descrição da especificação de dados do kit de ferramentas

Função	função	descrever
Extrair entidade da quantidade de moeda	Extract_Money	Extraia o valor da moeda do texto
Extraia entidade de tempo	Extract_time	Extraindo entidades de tempo do texto
Baseado no Dicionário Ner	Léxico	Entidade máxima correspondente com base no dicionário de entidade especificado
entidade para marcar	entity2tag	Converta a entidade do formato JSON em uma sequência de tags processada pelo modelo
tag para entidade	tag2Entity	Converta a sequência de tags processada pelo modelo em uma entidade de formato JSON
Token de palavras transpomunhas de token	Char2word	Converter o token de nível de personagem em token de nível de vocabulário
Token de palavras transformar token de palavras	Word2Char	Converter o token de nível de vocabulário em token de nível de personagem
Comparação das diferenças de entidade entre rótulos e previsões de modelos	entity_compare	Compare diferencialmente com os resultados da entidade previstos pelo modelo para anotação manual.
Aceleração de previsão do modelo NER	TokensplitsEnce TokenbreaklongSentence Tokenbatchbucket	Métodos para prever a aceleração paralela para modelos NER
DataSet dividido	Analyze_Dataset	O corpus de anotação NER é dividido em conjunto de treinamento, conjunto de verificação e conjunto de testes, e as estatísticas de distribuição do tipo de entidade de cada subconjunto são fornecidas.
Coleção de entidades	COLLECT_Dataset_entities	Colete as entidades no corpus anotado para formar um dicionário

7. Classificação de texto

Função	função	descrever	Classificação de estrelas
Vocabulário de categoria de análise bayesiana ingênua	Analyze_freq_words	Para o corpus anotado de classificação de texto, execute uma análise ingênua de frequência de palavras bayesianas e retorne vocabulário probabilístico de alta condição para vários textos
DataSet dividido	Analyze_Dataset	O corpus de anotação para classificação de texto é dividido em conjunto de treinamento, conjunto de verificação e conjunto de testes. E dê as estatísticas de distribuição de classificação de cada subconjunto

8. Análise de sentimentos

Função	função	descrever	Classificação de estrelas
Análise de sentimentos baseados em dicionário	Lexiconsentimento	Com base no dicionário emocional construído artificialmente, o valor emocional do texto é calculado, variando de 0 a 1

9. Particípio

Função	função	descrever
Palavra para marcar	cws.word2tag	Converter sequência de segmentação de palavras de formato JSON em sequência de tags processada por modelo
Tag to word	cws.tag2word	Converta a sequência de tags processada pelo modelo em JSON Format Word Segmentation
Estatísticas Valor F1	CWS.F1	Comparação do valor de F1 do rótulo da palavra Particle Label no rótulo de previsão do modelo
Dicionário padrão de correção de dados do particípio de palavras	cws.cwsdcwithstandardwords	Dados de anotação correta e reparo e reparos de palavras-palavras

Citações de literatura

Se o artigo precisar ser citado, as seguintes citações podem ser copiadas:

Chengyu Cui, Jionlp, (2020), Github Repository, https://github.com/dongrixinyu/jionlp

Intenção original

O pré-processamento e a análise da PNL são críticos e demorados. Este LIB pode ajudar rapidamente a concluir várias operações triviais de pré -processamento e análise, acelerar o progresso do desenvolvimento e dedicar energia limitada ao pensamento e não ao código.
Se houver alguma sugestão funcional ou bugs, você poderá enviá -los de acordo com o modelo através da edição.
Os desenvolvedores e pesquisadores da PNL podem trabalhar juntos para melhorar este kit de ferramentas e adicionar novos recursos .

Se esta ferramenta for útil para você, clique na estrela no canto superior direito

Ou digitalize o código para pedir ao autor para tomar uma xícara de café (● '◡' ●), o projeto de código aberto é completamente alimentado pela IA, obrigado! Uso prioritário recomendado [Alipay] ~~

Obrigado aos patrocinadores na lista de agradecimento. Suas recompensas me deixaram mais motivado

Não é fácil fazer PNL. Bem -vindo a ingressar no Grupo de Comunicação do Processamento de Linguagem Natural

Digitalize o código a seguir ou procure a conta oficial Jionlp por WX, siga e responda [Digite o grupo]

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-15
tamanho 17.57MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos

JioNLP

Jionlp: PNs de pré -processamento chinês e análise de ferramentas Python Lib para pré -processamento e análise da PNL chinesa

Instale: pip install jionlp

2023-12-12 Adicione Mellm

2023-06-22 Adicione um grande conjunto de dados de avaliação de Modelo de Idioma LLM

Instalação de instalação

Usando recursos

1. Gadgets

2. Aprimoramento dos dados

3. Extração e análise regulares

4. Ferramentas de leitura e escrita de arquivos

5. Carregamento e uso do dicionário

6. Algoritmo de reconhecimento de entidade (NER) Conjunto de ferramentas auxiliares

7. Classificação de texto

8. Análise de sentimentos

9. Particípio

Citações de literatura

Intenção original

Se esta ferramenta for útil para você, clique na estrela no canto superior direito

Ou digitalize o código para pedir ao autor para tomar uma xícara de café (● '◡' ●), o projeto de código aberto é completamente alimentado pela IA, obrigado! Uso prioritário recomendado [Alipay] ~~

Não é fácil fazer PNL. Bem -vindo a ingressar no Grupo de Comunicação do Processamento de Linguagem Natural

Digitalize o código a seguir ou procure a conta oficial Jionlp por WX, siga e responda [Digite o grupo]

Instale: `pip install jionlp`