
Un juego de herramientas de procesamiento de lenguaje natural multilingüe para entornos de producción se basa en motores Pytorch y TensorFlow 2.x, con el objetivo de popularizar la tecnología PNL más de vanguardia. HANLP tiene las características de funciones completas, precisión precisa, rendimiento eficiente, nuevo corpus, arquitectura clara y personalizable.
Con el corpus multilingüe más grande del mundo, Hanlp2.1 admite 10 tareas conjuntas y múltiples tareas individuales en 130 idiomas, incluidos los chinos tradicionales, chinos, inglés, japoneses, japoneses, rusos, franceses y alemán. HANLP pre-Entrena docenas de modelos en más de una docena de tareas y está iterando continuamente el corpus y los modelos:
| Función | Sosegado | Multitarea | Tarea única | Modelo | Estándares de etiquetado |
|---|---|---|---|---|---|
| Participio | Tutorial | Tutorial | Tutorial | tok | Grueso, subdivisión |
| Parte de la anotación del habla | Tutorial | Tutorial | Tutorial | pajita | CTB, PKU, 863 |
| Reconocimiento de entidad nombrado | Tutorial | Tutorial | Tutorial | ner | PKU, MSRA, Ontonotes |
| Análisis de sintaxis de dependencia | Tutorial | Tutorial | Tutorial | DEP | SD, UD, PMT |
| Análisis de sintaxis de componentes | Tutorial | Tutorial | Tutorial | estafa | Banco de árboles chino |
| Análisis de dependencia semántica | Tutorial | Tutorial | Tutorial | partido socialdemócrata | CSDP |
| Anotación de roles semánticos | Tutorial | Tutorial | Tutorial | SRL | Banco de propuestas chinas |
| Expresión de significado abstracto | Tutorial | Ninguno todavía | Tutorial | amr | CAMR |
| Se refiere a la disolución | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ontonotes |
| Similitud de texto semántico | Tutorial | Ninguno todavía | Tutorial | sts | Ninguno todavía |
| Conversión de estilo de texto | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Extracción de frase de palabras clave | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Resumen automático extraído | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Resumen automático generativo | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Corrección de sintaxis de texto | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Clasificación de texto | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | Ninguno todavía |
| Análisis de sentimientos | Tutorial | Ninguno todavía | Ninguno todavía | Ninguno todavía | [-1,+1] |
| Detección de idiomas | Tutorial | Ninguno todavía | Tutorial | Ninguno todavía | ISO 639-1 codificación |
A medida, HANLP proporciona dos API: RESTFUL y nativas , que están dirigidas a dos escenarios: livianos y masivos. Independientemente de la API y el lenguaje, la interfaz HANLP permanece semánticamente consistente e insiste en el código abierto en el código. Si ha usado HANLP en su investigación, cite nuestro documento EMNLP.
Solo unos pocos KB, adecuados para el desarrollo ágil, aplicaciones móviles y otros escenarios. Simple y fácil de usar, sin necesidad de instalar GPU, y se instala en segundos. Más corpus, modelos más grandes, mayor precisión, muy recomendable . La alimentación informática de GPU del servidor es limitada y la cuota de usuario anónima es pequeña. Se recomienda solicitar una auth de la clave de API de bienestar público gratuito .
pip install hanlp_restfulCrear un cliente y completar la dirección del servidor y la clave secreta:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Instale go get -u github.com/hankcs/gohanlp@main , cree un cliente, complete la dirección del servidor y la clave secreta:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Agregar dependencias en pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Crear un cliente y completar la dirección del servidor y la clave secreta:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 No importa qué lenguaje de desarrollo, llame a la interfaz parse y pase en un artículo para obtener los resultados de análisis precisos de HANLP.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Para obtener más funciones, consulte la documentación y los casos de prueba.
Confiando en tecnologías de aprendizaje profundo como Pytorch y TensorFlow, es adecuado para ingenieros profesionales de PNL, investigadores y escenarios locales de datos masivos. Requiere Python 3.6 a 3.10, admite Windows y *NIX se recomienda. Se puede ejecutar en la CPU, se recomienda GPU/TPU. Instale la versión de Pytorch:
pip install hanlpLos modelos lanzados por HANLP se dividen en dos tipos: tareas múltiples y una sola tarea. La velocidad de tareas múltiples es rápida y guarda memoria de video, y la precisión de una sola tarea es alta y flexible.
El flujo de trabajo de HANLP es cargar el modelo y luego llamarlo en función, como el siguiente modelo de multitarea conjunta:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])La unidad de entrada de la API nativa es una oración, y es necesario utilizar un modelo de cláusula multilingüe o una función de cláusula basada en reglas para la pre-sección. Los diseños semánticos de las dos API Restful y Native son completamente consistentes, y los usuarios pueden intercambiar sin problemas. La interfaz simple también admite parámetros flexibles. Las técnicas comunes incluyen:
tasks flexibles, menos tareas, más rápida es la velocidad. Vea el tutorial para más detalles. En escenarios con memoria limitada, los usuarios también pueden eliminar tareas innecesarias para lograr el efecto del adelgazamiento del modelo.Según nuestra última investigación, las ventajas del aprendizaje multitarea se encuentran en la velocidad y la memoria de video, pero la precisión a menudo no es tan buena como el modelo de tarea única. Entonces, HANLP previó muchos modelos de tareas únicas y diseñó modos de tubería elegantes para ensamblarlos.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Para obtener más funciones, consulte la demostración y la documentación para obtener más modelos y uso.
No importa qué API, lenguaje de desarrollo y lenguaje natural, la producción de HANLP se unifica en un Document compatible con formato json que se dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}En particular, las API de Python Restful y nativas admiten la visualización basada en fuentes monoespaciales, que pueden visualizar directamente las estructuras lingüísticas en la consola:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Para el significado del conjunto de etiquetas, consulte las "Especificaciones de etiquetado lingüístico" y "Especificaciones de formato". Hemos comprado, marcado o utilizado el corpus más grande y diverso del mundo para el aprendizaje conjunto de tareas múltiples, por lo que el conjunto de anotaciones de HANLP también es el más extenso.
Escribir un modelo de aprendizaje profundo no es difícil en absoluto, pero la dificultad es reproducir una tasa de precisión más alta. El siguiente código muestra cómo pasar 6 minutos en el Corpus PKU Sighan2005 para capacitar a un modelo de segmentación de palabras chino que va más allá del mundo académico.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Entre ellos, dado que se especifica una semilla de número aleatorio, el resultado debe ser 96.73 . A diferencia de los documentos académicos o proyectos académicos anunciados falsamente, HANLP garantiza que se puedan reproducir todos los resultados. Si tiene alguna pregunta, solucionaremos el problema como el error fatal de mayor prioridad.
Consulte la demostración para obtener más guiones de capacitación.
| lang | Corp para | modelo | tok | pajita | ner | DEP | estafa | SRL | partido socialdemócrata | lem | fea | amr | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| bien | Grueso | CTB | pku | 863 | ud | pku | MSRA | Ontonotes | Semeval16 | Dm | Pasta | PSD | |||||||||
| mul | UD2.7 Ontonotes5 | Pequeño | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| base | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| zh | abierto | Pequeño | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| base | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| Cerca | Pequeño | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| base | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| Ernie | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
Las relaciones de preprocesamiento y división de datos adoptadas por HANLP no son necesariamente las mismas que los métodos populares. Por ejemplo, HANLP adopta la versión completa del Corpus de reconocimiento de entidad MSRA en lugar de la versión castrada utilizada por el público; HanLP utiliza el estándar de dependencias de Stanford con una cobertura de sintaxis más amplia, en lugar del estándar de Zhang y Clark (2008) adoptado por la comunidad académica; HANLP propone un método de segmentación uniforme de CTB en lugar de la comunidad académica desigual y falta 51 documentos de oro. HANLP abre la fuente de un conjunto completo de scripts de preprocesamiento del corpus y el corpus correspondiente, esforzándose por promover la transparencia de la PNL china.
En resumen, HANLP solo hace lo que creemos que es correcto y avanzado, no necesariamente lo que es popular y autorizado.
Si usa HANLP en su investigación, cíalo en el siguiente formato:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}El acuerdo de autorización para el código fuente de HANLP es Apache License 2.0 , que puede usarse con fines comerciales de forma gratuita. Adjunte el enlace y el acuerdo de autorización de HANLP a la descripción del producto. HANLP está protegido por la ley de derechos de autor y se seguirá la infracción.
HanLP opera independientemente de V1.7, con Semántica Natural (Qingdao) Technology Co., Ltd. como el cuerpo principal del proyecto, liderando el desarrollo de versiones posteriores y con los derechos de autor de versiones posteriores.
Las versiones HANLP V1.3 ~ V1.65 son desarrolladas por Dakuai Search y continúan siendo completamente de código abierto. Dakuai Search tiene los derechos de autor relevantes.
Hanlp fue apoyado por Shanghai Linyuan Company en los primeros días y tiene los derechos de autor de las 1.28 y las versiones anteriores. Las versiones relevantes también se han publicado en el sitio web de Shanghai Linyuan Company.
La autorización de los modelos de aprendizaje automático no está legalmente determinada, pero en el espíritu de respetar la autorización original del corpus de código abierto, si no se establece específicamente, la autorización del modelo multilingüe de HANLP continúa utilizando CC BY-NC-SA 4.0, y la autorización del modelo chino es solo para fines de investigación y enseñanza.
https://hanlp.hankcs.com/docs/references.html