JioNLP
1.0.0

pip install jionlpO JionLP é um kit de ferramentas para desenvolvedores de PNL , fornecendo funções de pré -processamento e análise de tarefas de NLP, com limiar de uso preciso, eficiente e zero. Desça esta página, verifique as informações específicas da função e pressione Ctrl+F para pesquisar. A edição on -line do Jionlp pode experimentar rapidamente alguns recursos. Siga a conta oficial do WeChat com o mesmo nome, Jionlp e obtenha as informações mais recentes de informações e dados da IA.
norm_score.json e max_score.json a partir de dados de teste com a senha jmbo .*.json arquivo. $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Encontre ajuda | ajuda | Se você não souber quais funções Jionlp, você pode digitar várias palavras -chave de acordo com a linha de comando solicita a pesquisa | |
| Análise do número da placa | parse_motor_vehicle_licence_plate | Dado um número da placa, analise -o | |
| Análise semântica do tempo | parse_time | Dado um texto do tempo, analise sua semântica do tempo (carimbo de hora, duração), etc. | |
| Extração de frase -chave | Extract_keyphrase | Dado um texto, extraia suas frases -chave correspondentes | |
| Resumo do texto extraído | Extract_summary | Dado um texto, extraia seu dicionário correspondente | |
| Stop Word Filtraing | remove_stopwords | Dada uma lista de palavras depois que um texto é participado, remova as palavras de parada dela | |
| Frase | split_sentence | Texto pontuado | |
| Resolução de endereço | parse_location | Dado uma corda contendo endereço doméstico, identificando informações como província, cidade, condado, município, rua, vila, etc. | |
| Local do número de telefone, Análise do operador | Phone_location Cell_Phone_Location Landline_phone_location | Dado um número de telefone (número do número de telefone celular, número de telefone fixo), identifique a província, a cidade e o operador. | |
| Reconhecimento do nome do local de notícias | reconhecer_location | Dado um texto de notícias, identifique províncias domésticas, cidades, condados, países estrangeiros, cidades e outras informações. | |
| Datas do calendário gregoriano | Lunar2Solar Solar2lunar | Dada uma certa data do calendário, converta -a em um calendário regional | |
| Análise de número de cartão de identidade | parse_id_card | Dado um número de identificação, identifique a província correspondente, cidade, condado, data de nascimento, Gênero, código de verificação e outras informações | |
| Idioma sólido | idiom_solitaire | O idioma é o mesmo que o último personagem do idioma anterior e o primeiro personagem do próximo idioma (pronúncia) | |
| Filtragem de dados pornográficos | - | - | |
| Filtragem de dados reacionários | - | - | |
| Chinês tradicional para chinês simplificado | TRA2SIM | Chinês tradicional para chinês simplificado, apoiando dois modos de correspondência literal e máxima | |
| Chinês simplificado para chinês tradicional | Sim2tra | Chinês simplificado para chinês tradicional, apoiando dois modos de correspondência literal e máxima | |
| Personagens chineses para Pinyin | Pinyin | Descubra o pinyin chinês correspondente ao texto chinês e retorne as iniciais , finais e tom | |
| Caracteres chineses para radicais e personagens | char_radiical | Descubra as informações da estrutura de caracteres chinesas correspondentes ao texto chinês, Incluindo radicais ("ele" lâmpada), estrutura da fonte ("ele", estrutura à esquerda e direita), Código de quatro cantos ("He" 31120), desmontagem de caracteres chineses ("ele" lata de água), Código Wubi ("River" ISKG) | |
| Número da quantidade para caracteres chineses | Money_num2char | Dada uma quantia numérica, retorne o resultado de sua capitalização de caracteres chineses | |
| Nova descoberta de palavras | new_word_discovery | Dado um arquivo de texto de corpus, a alta probabilidade de ser uma palavra |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Responder à tradução | Backtranslation | Dado um texto, use a interface de tradução da máquina das plataformas de nuvem dos principais fabricantes. Implementar aprimoramento de dados | |
| Transposição de caracteres quase chineses | swap_char_position | Trocar aleatoriamente as posições de caracteres semelhantes para obter aprimoramento de dados | |
| Substituição de homofones | homophone_substitution | A mesma substituição de vocabulário de pronúncia para obter aprimoramento de dados | |
| Adição e exclusão de personagens aleatórios | random_add_delete | Adicione ou exclua aleatoriamente um personagem no texto, que não afeta a semântica | |
| Substituição da entidade nerd | substituir_entity | De acordo com o Dictionary da entidade, a substituição aleatória de uma entidade no texto não afetará a semântica e também é amplamente utilizada na anotação de sequência e na classificação do texto |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Texto limpo | limpo_text | Remova caracteres de exceção, caracteres redundantes, tags html, informações de suporte no texto, URL, e-mail, número de telefone, conversão alfanumérica de largura total em meia largura | |
| Extraia e-mail | Extract_email | Extraia o e-mail no texto, retorne o local e o nome de domínio | |
| Análise do valor da moeda | Extract_Money | Analisar a sequência do valor da moeda | |
| Extraia sinais WeChat | Extract_wechat_id | Desenhe WeChat ID e retorne ao local | |
| Desenhe um número de telefone | Extract_phone_number | Extraia o número de telefone (incluindo número de telefone celular e número de telefone fixo ) e retorne o nome do domínio , tipo e localização | |
| Extrair o ID do cartão de identificação chinês | Extract_id_card | Extraia o ID ID e coopere com Jio.parse_id_card para retornar as informações detalhadas do cartão de identificação ( Província, cidade , data de nascimento , gênero , código de verificação ) | |
| Desenhe o número QQ | Extract_qq | Desenhe números QQ, divididos em regras estritas e regras soltas | |
| Extrair URL | Extract_url | Extraia o hiperlink de URL | |
| Extraia o endereço IP | Extract_ip_address | Extraia o endereço IP | |
| Extrair o conteúdo entre colchetes | Extract_parenteses | Extraia o conteúdo dos colchetes, incluindo {} "[] [] () () <>" | |
| Desenhe o número da placa | Extract_motor_vehicle_licence_plate | Extrair informações do número da placa do continente | |
| Excluir e-mail | remove_email | Exclua a mensagem de e-mail no texto | |
| Excluir URL | remove_url | Excluir informações de URL em texto | |
| Exclua o número de telefone | Remova_phone_number | Exclua o número de telefone no texto | |
| Excluir endereço IP | Remova_IP_Address | Exclua o endereço IP no texto | |
| Excluir número de identificação | Remow_id_card | Exclua as informações do cartão de identificação no texto | |
| Exclua QQ | remove_qq | Exclua o número QQ no texto | |
| Exclua tags HTML | Remova_html_tag | Exclua as tags HTML restantes no texto | |
| Exclua o conteúdo entre colchetes | remove_parenteses | Exclua o conteúdo dos colchetes, incluindo {} "[] [] () () <>" | |
| Excluir caracteres de exceção | Remone_exception_char | Excluir caracteres de exceção no texto, mantendo principalmente caracteres chineses e comumente usados. Símbolos de cálculo da unidade, alfanuméricos, etc. | |
| Exclua caracteres redundantes | REMOVER_REDUNDANT_CHAR | Excluir caracteres duplicados redundantes no texto | |
| E-mail normalizado | substituir_email | A mensagem de e-mail no texto normalizada é <ailail> | |
| URL normalizado | substituir_url | As informações de URL no texto normalizado são <url> | |
| Número de telefone normalizado | substituir_phone_number | O número de telefone no texto normalizado é <l> | |
| Endereço IP normalizado | substitua_ip_address | O endereço IP no texto normalizado é <P> | |
| Número de identificação normalizado | substituir_id_card | As informações do cartão de identificação no texto normalizado é <ID> | |
| QQ normalizado | substituir_qq | O número qq no texto normalizado é <qq> | |
| Determinar se o texto contém caracteres chineses | check_any_chinese_char | Verifique se o texto contém caracteres chineses. Se pelo menos um estiver incluído, ele retornará verdadeiro. | |
| Determine se o texto é todos caracteres chineses | check_all_chinese_char | Verifique se todos os caracteres chineses estão no texto. Se tudo estiver, retorne verdadeiro | |
| Determinar se o texto contém algaris | check_any_arabic_num | Verifique se o texto contém números árabes. Se pelo menos um estiver incluído, ele retornará verdadeiro | |
| Determinar se todos os textos são algarismos árabes | check_all_arabic_num | Verifique se todos os números árabes do texto estão. Se tudo estiver, retorne verdadeiro |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Leia os arquivos por linha | read_file_by_iter | É fácil ler arquivos por linha na forma de um iterador, salvando memória. Suporta o número especificado de linhas , pule as linhas vazias | |
| Leia os arquivos por linha | read_file_by_line | Leia os arquivos por linha, suporte número especificado de linhas , pule linhas vazias | |
| Escreva elementos na lista para arquivar por linha | write_file_by_line | Escreva elementos na lista para arquivar por linha | |
| Ferramenta de tempo | Timeit | Calcule o tempo gasto em um determinado segmento de código | |
| Ferramentas de log | set_logger | Ajuste o formulário de saída de log do kit de ferramentas |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| DataSet de avaliação de Modelo de Linguagem Grande | jio.llm_test_dataset_loader | Conjunto de dados de avaliação de LLM | |
| BPE no nível de byte | jio.bpe.byte_level_bpe | Algoritmo de Byte-Level-BPE | |
| Stop Word Dictionary | jio.stopwords_loader () | Dicionário abrangente de palavras de parada de Baidu, Jieba, Iflytek, etc. | |
| Dicionário idioma | chinês_idiom_loader | Carregando Dicionário Idiom | |
| Dicionário de expressões idiomáticas | xiehouyu_loader | Carregando Dicionário Idiom | |
| Dicionário chinês de substantivos | China_location_loader | Carregue o dicionário de três níveis da provincial, municipal e municipal da China | |
| Dicionário Chinês de Ajuste da Divisão | China_location_change_loader | Carregando registros de renomeação e renomeação do condado e acima do zoneamento na China desde 2018 | |
| Dicionário de substantivo mundial | World_Location_loader | Carregue o continente mundial, o país, o dicionário da cidade | |
| Dicionário Xinhua | chinês_char_dictionary_loader | Carregando o dicionário Xinhua | |
| Dicionário Xinhua | chinês_word_dictionary_loader | Carregando o dicionário Xinhua |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Extrair entidade da quantidade de moeda | Extract_Money | Extraia o valor da moeda do texto | |
| Extraia entidade de tempo | Extract_time | Extraindo entidades de tempo do texto | |
| Baseado no Dicionário Ner | Léxico | Entidade máxima correspondente com base no dicionário de entidade especificado | |
| entidade para marcar | entity2tag | Converta a entidade do formato JSON em uma sequência de tags processada pelo modelo | |
| tag para entidade | tag2Entity | Converta a sequência de tags processada pelo modelo em uma entidade de formato JSON | |
| Token de palavras transpomunhas de token | Char2word | Converter o token de nível de personagem em token de nível de vocabulário | |
| Token de palavras transformar token de palavras | Word2Char | Converter o token de nível de vocabulário em token de nível de personagem | |
| Comparação das diferenças de entidade entre rótulos e previsões de modelos | entity_compare | Compare diferencialmente com os resultados da entidade previstos pelo modelo para anotação manual. | |
| Aceleração de previsão do modelo NER | TokensplitsEnce TokenbreaklongSentence Tokenbatchbucket | Métodos para prever a aceleração paralela para modelos NER | |
| DataSet dividido | Analyze_Dataset | O corpus de anotação NER é dividido em conjunto de treinamento, conjunto de verificação e conjunto de testes, e as estatísticas de distribuição do tipo de entidade de cada subconjunto são fornecidas. | |
| Coleção de entidades | COLLECT_Dataset_entities | Colete as entidades no corpus anotado para formar um dicionário |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Vocabulário de categoria de análise bayesiana ingênua | Analyze_freq_words | Para o corpus anotado de classificação de texto, execute uma análise ingênua de frequência de palavras bayesianas e retorne vocabulário probabilístico de alta condição para vários textos | |
| DataSet dividido | Analyze_Dataset | O corpus de anotação para classificação de texto é dividido em conjunto de treinamento, conjunto de verificação e conjunto de testes. E dê as estatísticas de distribuição de classificação de cada subconjunto |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Análise de sentimentos baseados em dicionário | Lexiconsentimento | Com base no dicionário emocional construído artificialmente, o valor emocional do texto é calculado, variando de 0 a 1 |
| Função | função | descrever | Classificação de estrelas |
|---|---|---|---|
| Palavra para marcar | cws.word2tag | Converter sequência de segmentação de palavras de formato JSON em sequência de tags processada por modelo | |
| Tag to word | cws.tag2word | Converta a sequência de tags processada pelo modelo em JSON Format Word Segmentation | |
| Estatísticas Valor F1 | CWS.F1 | Comparação do valor de F1 do rótulo da palavra Particle Label no rótulo de previsão do modelo | |
| Dicionário padrão de correção de dados do particípio de palavras | cws.cwsdcwithstandardwords | Dados de anotação correta e reparo e reparos de palavras-palavras |
Chengyu Cui, Jionlp, (2020), Github Repository, https://github.com/dongrixinyu/jionlp

