Download de HanLP - Download de código -fonte HanLP

Hanlp: Han Language Processing

Inglês | Japonês | Documentos | Papéis | Fóruns | Docker | ▶ ️ Execute online

Um kit de ferramentas de processamento de linguagem natural multilíngue para ambientes de produção é baseado nos motores duplos Pytorch e Tensorflow 2.x, com o objetivo de popularizar a tecnologia PNL de maior ponta. O HANLP possui as características de funções completas, precisão precisa, desempenho eficiente, novo corpus, arquitetura clara e personalizável.

Com o maior corpus multilíngue do mundo, o Hanlp2.1 suporta 10 tarefas conjuntas e várias tarefas únicas em 130 idiomas, incluindo chinês tradicional, chinês, inglês, japonês, japonês, russo, francês e alemão. O HANLP pré-treino dezenas de modelos em mais de uma dúzia de tarefas e está iterando continuamente o corpus e os modelos:

Função	Repousante	Multitarefa	Tarefa única	Modelo	Padrões de rotulagem
Particípio	Tutorial	Tutorial	Tutorial	Tok	Subdivisão grossa
Parte da anotação da fala	Tutorial	Tutorial	Tutorial	POS	CTB, PKU, 863
Reconhecimento de entidade nomeado	Tutorial	Tutorial	Tutorial	ner	PKU, MSRA, ontonotes
Análise de sintaxe de dependência	Tutorial	Tutorial	Tutorial	Dep	SD, UD, PMT
Análise de sintaxe do componente	Tutorial	Tutorial	Tutorial	Con	Banco de Árvore Chinesa
Análise de dependência semântica	Tutorial	Tutorial	Tutorial	SDP	CSDP
Anotação semântica	Tutorial	Tutorial	Tutorial	srl	Banco de Proposição Chinesa
Expressão de significado abstrato	Tutorial	Nenhum ainda	Tutorial	Amr	Camr
Refere -se à dissolução	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Ontonotes
Similaridade semântica de texto	Tutorial	Nenhum ainda	Tutorial	Sts	Nenhum ainda
Conversão de estilo de texto	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Extração de frase -chave	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Resumo automático extraído	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Resumo automático generativo	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Correção da sintaxe de texto	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Classificação de texto	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	Nenhum ainda
Análise de sentimentos	Tutorial	Nenhum ainda	Nenhum ainda	Nenhum ainda	`[-1,+1]`
Detecção de idiomas	Tutorial	Nenhum ainda	Tutorial	Nenhum ainda	Codificação ISO 639-1

Para extração do STEM e extração de recursos gramaticais gramaticais, consulte o tutorial em inglês; Para vetores de palavras e preenchimento de cloze, consulte os documentos correspondentes.
Para uma conversão chinesa simples e tradicional, pinyin, nova descoberta de palavras e cluster de texto, consulte o tutorial 1.x.

ABLICADA, HANLP fornece duas APIs: repousante e nativo , que são voltadas para dois cenários: leve e massivo. Independentemente da API e do idioma, a interface HANLP permanece semanticamente consistente e insiste em código aberto no código. Se você usou o HANLP em sua pesquisa, cite nosso artigo EMNLP.

API RESTful leve

Apenas alguns KBs, adequados para desenvolvimento ágil, aplicativo móvel e outros cenários. Simples e fácil de usar, não há necessidade de instalar a GPU e está instalada em segundos. Mais corpus, modelos maiores, maior precisão, altamente recomendado . O poder de computação da GPU do servidor é limitado e a cota anônima do usuário é pequena. Recomenda -se solicitar uma auth gratuita da API de bem -estar pública .

Python

pip install hanlp_restful

Crie um cliente e preencha o endereço do servidor e a chave secreta:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Golang

Instale go get -u github.com/hankcs/gohanlp@main , crie um cliente, preencha o endereço do servidor e a chave secreta:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Java

Adicione dependências em pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Crie um cliente e preencha o endereço do servidor e a chave secreta:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Comece rapidamente

Independentemente da linguagem de desenvolvimento, chame a interface parse e passe em um artigo para obter resultados de análise precisa da HANLP.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Para mais funções, consulte os casos de documentação e teste.

API nativa maciça

Baseando -se em tecnologias de aprendizado profundo, como Pytorch e Tensorflow, é adequado para engenheiros profissionais de PNL, pesquisadores e cenários locais de dados. Requer Python 3.6 a 3.10, suporta Windows e *Nix é recomendado. Pode ser executado na CPU, a GPU/TPU é recomendada. Instale a versão pytorch:

pip install hanlp

O HANLP passou nos testes de unidade para o Python 3.6 a 3.10 no Linux, MacOS e Windows toda vez que for lançado, e não há problema de instalação.

Os modelos lançados pelo HANLP são divididos em dois tipos: várias tarefas e uma tarefa única. A velocidade de várias tarefas é rápida e salva a memória de vídeo, e a precisão de tarefa única é alta e flexível.

Modelo multitarefa

O fluxo de trabalho do HANLP é carregar o modelo e depois chamá -lo de função, como o seguinte modelo de multitarefa conjunta:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

A unidade de entrada da API nativa é uma frase e é necessário usar um modelo de cláusula multilíngue ou uma função de cláusula baseada em regras para a pré-seção. Os designs semânticos dos dois APIs repousos e nativos são completamente consistentes, e os usuários podem intercambiar perfeitamente. A interface simples também suporta parâmetros flexíveis. Técnicas comuns incluem:

Programação flexível tasks , quanto menos tarefas, mais rápida a velocidade. Veja o tutorial para obter detalhes. Em cenários com memória limitada, os usuários também podem excluir tarefas desnecessárias para alcançar o efeito do emagrecimento do modelo.
Para um dicionário personalizado eficiente da Trie Tree, bem como três regras: obrigatório, mesclagem e correção, consulte a demonstração e a documentação. Os efeitos do sistema de regras serão aplicados perfeitamente a modelos estatísticos subsequentes, adaptando -se rapidamente a novas áreas.

Modelo de tarefa única

De acordo com nossa última pesquisa, as vantagens da aprendizagem de várias tarefas estão em velocidade e memória de vídeo, mas a precisão geralmente não é tão boa quanto o modelo de tarefa única. Assim, o HANLP pré-criou muitos modelos de tarefas únicas e projetou modos elegantes para montá-los.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Para obter mais recursos, consulte a demonstração e a documentação para obter mais modelos e uso.

Formato de saída

Não importa qual API, linguagem de desenvolvimento e linguagem natural, a saída do HANLP é unificada em um Document compatível com formato json que é dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

Em particular, Python Restful e APIs nativas suportam a visualização baseada em fontes monofácicas, que podem visualizar diretamente estruturas linguísticas no console:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Para o significado do conjunto de rótulos, consulte as "especificações de rotulagem linguística" e "especificações de formato". Compramos, marcamos ou usamos o maior e mais diversificado corpus do mundo para o aprendizado conjunto de várias tarefas, de modo que o conjunto de anotações do HANLP também é o mais extenso.

Treine seu próprio modelo de domínio

Escrever um modelo de aprendizado profundo não é difícil, mas a dificuldade está reproduzindo uma taxa de precisão mais alta. O código a seguir mostra como gastar 6 minutos no SIGHAN2005 PKU Corpus para treinar um modelo de segmentação de palavras chinês que vai além do mundo acadêmico.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Entre eles, como uma semente de número aleatória é especificado, o resultado deve ser 96.73 . Ao contrário dos documentos acadêmicos ou projetos comerciais anunciados falsamente, o HANLP garante que todos os resultados possam ser reproduzidos. Se você tiver alguma dúvida, solucionaremos o problema como o bug fatal de maior prioridade.

Consulte a demonstração para obter mais scripts de treinamento.

desempenho

Lang	Corpora	modelo	Tok		POS				ner			Dep	Con	srl	SDP				Lem	Fea	Amr
Lang	Corpora	modelo	multar	Grosso	ctb	PKU	863	ud	PKU	MSRA	ontonotes	Dep	Con	srl	Semval16	Dm	Pas	Psd	Lem	Fea	Amr
Mul	UD2.7 Ontontotes5	Pequeno	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
Mul	UD2.7 Ontontotes5	base	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
Zh	abrir	Pequeno	97.25	-	96.66	-	-	-	-	-	95,00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	abrir	base	97,50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	Fechar	Pequeno	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		base	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		Ernie	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

De acordo com nossa pesquisa mais recente, o aprendizado de tarefa única tende a superar o aprendizado de várias tarefas. Se você se preocupa com precisão sobre a velocidade, é recomendável usar um modelo de tarefa única.

As taxas de pré -processamento e divisão de dados adotadas pelo HANLP não são necessariamente as mesmas que os métodos populares. Por exemplo, o HANLP adota a versão completa do MSRA nomeado Corpus de reconhecimento de entidade, em vez da versão castrada usada pelo público; O HANLP usa o padrão de dependências de Stanford com uma cobertura de sintaxe mais ampla, em vez do padrão Zhang e Clark (2008) adotado pela comunidade acadêmica; O HANLP propõe um método de segmentação uniforme dos CTBs em vez da comunidade acadêmica desigual e da falta de 51 documentos de ouro. O HANLP abre a fonte de um conjunto completo de scripts de pré -processamento de corpus e corpus correspondente, esforçando -se para promover a transparência do PNL chinês.

Em suma, o HANLP faz apenas o que achamos correto e avançado, não necessariamente o que é popular e autoritário.

Citar

Se você usar o HANLP em sua pesquisa, cite -a no seguinte formato:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Licença

código -fonte

O Contrato de Autorização para o Código Fonte do HANLP é a Apache License 2.0 , que pode ser usada para fins comerciais gratuitamente. Anexe o contrato de link e autorização da HANLP à descrição do produto. O HANLP é protegido pela lei de direitos autorais e a violação será perseguida.

Semântica Natural (Qingdao) Technology Co., Ltd.

O HANLP opera independentemente da v1.7, com a Semântica Natural (Qingdao) Technology Co., Ltd. como o principal corpo do projeto, liderando o desenvolvimento das versões subsequentes e com os direitos autorais das versões subsequentes.

Pesquise rapidamente

As versões Hanlp v1.3 ~ v1.65 são desenvolvidas pela Dakuai Search e continuam sendo completamente de código aberto. A pesquisa de Dakuai tem os direitos autorais relevantes.

Empresa de Linyuan de Xangai

A HANLP foi apoiada pela Shanghai Linyuan Company nos primeiros dias e tem os direitos autorais das versões 1.28 e anteriores. As versões relevantes também foram lançadas no site da empresa de Shanghai Linyuan.

Modelo pré-treinado

A autorização dos modelos de aprendizado de máquina não é legalmente determinada, mas no espírito de respeitar a autorização original do corpus de código aberto, se não especificamente declarado, a autorização multilíngue multilíngue do HANLP continua a usar apenas o CC by-NC-SA 4.0, e a autorização do modelo chinês é apenas para fins de pesquisa e ensino.

Referências

https://hanlp.hankcs.com/docs/references.html

Expandir

HanLP

Hanlp: Han Language Processing

Inglês | Japonês | Documentos | Papéis | Fóruns | Docker | ▶ ️ Execute online

API RESTful leve

Python

Golang

Java

Comece rapidamente

API nativa maciça

Modelo multitarefa

Modelo de tarefa única

Formato de saída

Treine seu próprio modelo de domínio

desempenho

Citar

Licença

código -fonte

Semântica Natural (Qingdao) Technology Co., Ltd.

Pesquise rapidamente

Empresa de Linyuan de Xangai

Modelo pré-treinado

Referências

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express