
Um kit de ferramentas de processamento de linguagem natural multilíngue para ambientes de produção é baseado nos motores duplos Pytorch e Tensorflow 2.x, com o objetivo de popularizar a tecnologia PNL de maior ponta. O HANLP possui as características de funções completas, precisão precisa, desempenho eficiente, novo corpus, arquitetura clara e personalizável.
Com o maior corpus multilíngue do mundo, o Hanlp2.1 suporta 10 tarefas conjuntas e várias tarefas únicas em 130 idiomas, incluindo chinês tradicional, chinês, inglês, japonês, japonês, russo, francês e alemão. O HANLP pré-treino dezenas de modelos em mais de uma dúzia de tarefas e está iterando continuamente o corpus e os modelos:
| Função | Repousante | Multitarefa | Tarefa única | Modelo | Padrões de rotulagem |
|---|---|---|---|---|---|
| Particípio | Tutorial | Tutorial | Tutorial | Tok | Subdivisão grossa |
| Parte da anotação da fala | Tutorial | Tutorial | Tutorial | POS | CTB, PKU, 863 |
| Reconhecimento de entidade nomeado | Tutorial | Tutorial | Tutorial | ner | PKU, MSRA, ontonotes |
| Análise de sintaxe de dependência | Tutorial | Tutorial | Tutorial | Dep | SD, UD, PMT |
| Análise de sintaxe do componente | Tutorial | Tutorial | Tutorial | Con | Banco de Árvore Chinesa |
| Análise de dependência semântica | Tutorial | Tutorial | Tutorial | SDP | CSDP |
| Anotação semântica | Tutorial | Tutorial | Tutorial | srl | Banco de Proposição Chinesa |
| Expressão de significado abstrato | Tutorial | Nenhum ainda | Tutorial | Amr | Camr |
| Refere -se à dissolução | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Ontonotes |
| Similaridade semântica de texto | Tutorial | Nenhum ainda | Tutorial | Sts | Nenhum ainda |
| Conversão de estilo de texto | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Extração de frase -chave | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Resumo automático extraído | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Resumo automático generativo | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Correção da sintaxe de texto | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Classificação de texto | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | Nenhum ainda |
| Análise de sentimentos | Tutorial | Nenhum ainda | Nenhum ainda | Nenhum ainda | [-1,+1] |
| Detecção de idiomas | Tutorial | Nenhum ainda | Tutorial | Nenhum ainda | Codificação ISO 639-1 |
ABLICADA, HANLP fornece duas APIs: repousante e nativo , que são voltadas para dois cenários: leve e massivo. Independentemente da API e do idioma, a interface HANLP permanece semanticamente consistente e insiste em código aberto no código. Se você usou o HANLP em sua pesquisa, cite nosso artigo EMNLP.
Apenas alguns KBs, adequados para desenvolvimento ágil, aplicativo móvel e outros cenários. Simples e fácil de usar, não há necessidade de instalar a GPU e está instalada em segundos. Mais corpus, modelos maiores, maior precisão, altamente recomendado . O poder de computação da GPU do servidor é limitado e a cota anônima do usuário é pequena. Recomenda -se solicitar uma auth gratuita da API de bem -estar pública .
pip install hanlp_restfulCrie um cliente e preencha o endereço do servidor e a chave secreta:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Instale go get -u github.com/hankcs/gohanlp@main , crie um cliente, preencha o endereço do servidor e a chave secreta:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Adicione dependências em pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Crie um cliente e preencha o endereço do servidor e a chave secreta:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 Independentemente da linguagem de desenvolvimento, chame a interface parse e passe em um artigo para obter resultados de análise precisa da HANLP.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Para mais funções, consulte os casos de documentação e teste.
Baseando -se em tecnologias de aprendizado profundo, como Pytorch e Tensorflow, é adequado para engenheiros profissionais de PNL, pesquisadores e cenários locais de dados. Requer Python 3.6 a 3.10, suporta Windows e *Nix é recomendado. Pode ser executado na CPU, a GPU/TPU é recomendada. Instale a versão pytorch:
pip install hanlpOs modelos lançados pelo HANLP são divididos em dois tipos: várias tarefas e uma tarefa única. A velocidade de várias tarefas é rápida e salva a memória de vídeo, e a precisão de tarefa única é alta e flexível.
O fluxo de trabalho do HANLP é carregar o modelo e depois chamá -lo de função, como o seguinte modelo de multitarefa conjunta:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])A unidade de entrada da API nativa é uma frase e é necessário usar um modelo de cláusula multilíngue ou uma função de cláusula baseada em regras para a pré-seção. Os designs semânticos dos dois APIs repousos e nativos são completamente consistentes, e os usuários podem intercambiar perfeitamente. A interface simples também suporta parâmetros flexíveis. Técnicas comuns incluem:
tasks , quanto menos tarefas, mais rápida a velocidade. Veja o tutorial para obter detalhes. Em cenários com memória limitada, os usuários também podem excluir tarefas desnecessárias para alcançar o efeito do emagrecimento do modelo.De acordo com nossa última pesquisa, as vantagens da aprendizagem de várias tarefas estão em velocidade e memória de vídeo, mas a precisão geralmente não é tão boa quanto o modelo de tarefa única. Assim, o HANLP pré-criou muitos modelos de tarefas únicas e projetou modos elegantes para montá-los.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Para obter mais recursos, consulte a demonstração e a documentação para obter mais modelos e uso.
Não importa qual API, linguagem de desenvolvimento e linguagem natural, a saída do HANLP é unificada em um Document compatível com formato json que é dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}Em particular, Python Restful e APIs nativas suportam a visualização baseada em fontes monofácicas, que podem visualizar diretamente estruturas linguísticas no console:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Para o significado do conjunto de rótulos, consulte as "especificações de rotulagem linguística" e "especificações de formato". Compramos, marcamos ou usamos o maior e mais diversificado corpus do mundo para o aprendizado conjunto de várias tarefas, de modo que o conjunto de anotações do HANLP também é o mais extenso.
Escrever um modelo de aprendizado profundo não é difícil, mas a dificuldade está reproduzindo uma taxa de precisão mais alta. O código a seguir mostra como gastar 6 minutos no SIGHAN2005 PKU Corpus para treinar um modelo de segmentação de palavras chinês que vai além do mundo acadêmico.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Entre eles, como uma semente de número aleatória é especificado, o resultado deve ser 96.73 . Ao contrário dos documentos acadêmicos ou projetos comerciais anunciados falsamente, o HANLP garante que todos os resultados possam ser reproduzidos. Se você tiver alguma dúvida, solucionaremos o problema como o bug fatal de maior prioridade.
Consulte a demonstração para obter mais scripts de treinamento.
| Lang | Corpora | modelo | Tok | POS | ner | Dep | Con | srl | SDP | Lem | Fea | Amr | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| multar | Grosso | ctb | PKU | 863 | ud | PKU | MSRA | ontonotes | Semval16 | Dm | Pas | Psd | |||||||||
| Mul | UD2.7 Ontontotes5 | Pequeno | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| base | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| Zh | abrir | Pequeno | 97.25 | - | 96.66 | - | - | - | - | - | 95,00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| base | 97,50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| Fechar | Pequeno | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| base | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| Ernie | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
As taxas de pré -processamento e divisão de dados adotadas pelo HANLP não são necessariamente as mesmas que os métodos populares. Por exemplo, o HANLP adota a versão completa do MSRA nomeado Corpus de reconhecimento de entidade, em vez da versão castrada usada pelo público; O HANLP usa o padrão de dependências de Stanford com uma cobertura de sintaxe mais ampla, em vez do padrão Zhang e Clark (2008) adotado pela comunidade acadêmica; O HANLP propõe um método de segmentação uniforme dos CTBs em vez da comunidade acadêmica desigual e da falta de 51 documentos de ouro. O HANLP abre a fonte de um conjunto completo de scripts de pré -processamento de corpus e corpus correspondente, esforçando -se para promover a transparência do PNL chinês.
Em suma, o HANLP faz apenas o que achamos correto e avançado, não necessariamente o que é popular e autoritário.
Se você usar o HANLP em sua pesquisa, cite -a no seguinte formato:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}O Contrato de Autorização para o Código Fonte do HANLP é a Apache License 2.0 , que pode ser usada para fins comerciais gratuitamente. Anexe o contrato de link e autorização da HANLP à descrição do produto. O HANLP é protegido pela lei de direitos autorais e a violação será perseguida.
O HANLP opera independentemente da v1.7, com a Semântica Natural (Qingdao) Technology Co., Ltd. como o principal corpo do projeto, liderando o desenvolvimento das versões subsequentes e com os direitos autorais das versões subsequentes.
As versões Hanlp v1.3 ~ v1.65 são desenvolvidas pela Dakuai Search e continuam sendo completamente de código aberto. A pesquisa de Dakuai tem os direitos autorais relevantes.
A HANLP foi apoiada pela Shanghai Linyuan Company nos primeiros dias e tem os direitos autorais das versões 1.28 e anteriores. As versões relevantes também foram lançadas no site da empresa de Shanghai Linyuan.
A autorização dos modelos de aprendizado de máquina não é legalmente determinada, mas no espírito de respeitar a autorização original do corpus de código aberto, se não especificamente declarado, a autorização multilíngue multilíngue do HANLP continua a usar apenas o CC by-NC-SA 4.0, e a autorização do modelo chinês é apenas para fins de pesquisa e ensino.
https://hanlp.hankcs.com/docs/references.html