Descarga de HanLP - Descarga del código fuente HanLP

HANLP: procesamiento del lenguaje Han

Inglés | Japonés | Documentos | Documentos | Foros | Docker | ▶ ️ Ejecutar en línea

Un juego de herramientas de procesamiento de lenguaje natural multilingüe para entornos de producción se basa en motores Pytorch y TensorFlow 2.x, con el objetivo de popularizar la tecnología PNL más de vanguardia. HANLP tiene las características de funciones completas, precisión precisa, rendimiento eficiente, nuevo corpus, arquitectura clara y personalizable.

Con el corpus multilingüe más grande del mundo, Hanlp2.1 admite 10 tareas conjuntas y múltiples tareas individuales en 130 idiomas, incluidos los chinos tradicionales, chinos, inglés, japoneses, japoneses, rusos, franceses y alemán. HANLP pre-Entrena docenas de modelos en más de una docena de tareas y está iterando continuamente el corpus y los modelos:

Función	Sosegado	Multitarea	Tarea única	Modelo	Estándares de etiquetado
Participio	Tutorial	Tutorial	Tutorial	tok	Grueso, subdivisión
Parte de la anotación del habla	Tutorial	Tutorial	Tutorial	pajita	CTB, PKU, 863
Reconocimiento de entidad nombrado	Tutorial	Tutorial	Tutorial	ner	PKU, MSRA, Ontonotes
Análisis de sintaxis de dependencia	Tutorial	Tutorial	Tutorial	DEP	SD, UD, PMT
Análisis de sintaxis de componentes	Tutorial	Tutorial	Tutorial	estafa	Banco de árboles chino
Análisis de dependencia semántica	Tutorial	Tutorial	Tutorial	partido socialdemócrata	CSDP
Anotación de roles semánticos	Tutorial	Tutorial	Tutorial	SRL	Banco de propuestas chinas
Expresión de significado abstracto	Tutorial	Ninguno todavía	Tutorial	amr	CAMR
Se refiere a la disolución	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ontonotes
Similitud de texto semántico	Tutorial	Ninguno todavía	Tutorial	sts	Ninguno todavía
Conversión de estilo de texto	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Extracción de frase de palabras clave	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Resumen automático extraído	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Resumen automático generativo	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Corrección de sintaxis de texto	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Clasificación de texto	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	Ninguno todavía
Análisis de sentimientos	Tutorial	Ninguno todavía	Ninguno todavía	Ninguno todavía	`[-1,+1]`
Detección de idiomas	Tutorial	Ninguno todavía	Tutorial	Ninguno todavía	ISO 639-1 codificación

Para la extracción STEM y la extracción de características gramaticales gramaticales, consulte el tutorial en inglés; Para los vectores de palabras y el relleno de cloze, consulte los documentos correspondientes.
Para la conversión china simple y tradicional, pinyin, nuevo descubrimiento de palabras y agrupación de texto, consulte el tutorial 1.x.

A medida, HANLP proporciona dos API: RESTFUL y nativas , que están dirigidas a dos escenarios: livianos y masivos. Independientemente de la API y el lenguaje, la interfaz HANLP permanece semánticamente consistente e insiste en el código abierto en el código. Si ha usado HANLP en su investigación, cite nuestro documento EMNLP.

API liviana RESTful

Solo unos pocos KB, adecuados para el desarrollo ágil, aplicaciones móviles y otros escenarios. Simple y fácil de usar, sin necesidad de instalar GPU, y se instala en segundos. Más corpus, modelos más grandes, mayor precisión, muy recomendable . La alimentación informática de GPU del servidor es limitada y la cuota de usuario anónima es pequeña. Se recomienda solicitar una auth de la clave de API de bienestar público gratuito .

Pitón

pip install hanlp_restful

Crear un cliente y completar la dirección del servidor y la clave secreta:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Golang

Instale go get -u github.com/hankcs/gohanlp@main , cree un cliente, complete la dirección del servidor y la clave secreta:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Java

Agregar dependencias en pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Crear un cliente y completar la dirección del servidor y la clave secreta:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Empiece a comenzar rápidamente

No importa qué lenguaje de desarrollo, llame a la interfaz parse y pase en un artículo para obtener los resultados de análisis precisos de HANLP.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Para obtener más funciones, consulte la documentación y los casos de prueba.

API nativa masiva

Confiando en tecnologías de aprendizaje profundo como Pytorch y TensorFlow, es adecuado para ingenieros profesionales de PNL, investigadores y escenarios locales de datos masivos. Requiere Python 3.6 a 3.10, admite Windows y *NIX se recomienda. Se puede ejecutar en la CPU, se recomienda GPU/TPU. Instale la versión de Pytorch:

pip install hanlp

HANLP ha pasado las pruebas unitarias para Python 3.6 a 3.10 en Linux, MacOS y Windows cada vez que se libera, y no hay ningún problema de instalación.

Los modelos lanzados por HANLP se dividen en dos tipos: tareas múltiples y una sola tarea. La velocidad de tareas múltiples es rápida y guarda memoria de video, y la precisión de una sola tarea es alta y flexible.

Modelo multitarea

El flujo de trabajo de HANLP es cargar el modelo y luego llamarlo en función, como el siguiente modelo de multitarea conjunta:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

La unidad de entrada de la API nativa es una oración, y es necesario utilizar un modelo de cláusula multilingüe o una función de cláusula basada en reglas para la pre-sección. Los diseños semánticos de las dos API Restful y Native son completamente consistentes, y los usuarios pueden intercambiar sin problemas. La interfaz simple también admite parámetros flexibles. Las técnicas comunes incluyen:

Programación tasks flexibles, menos tareas, más rápida es la velocidad. Vea el tutorial para más detalles. En escenarios con memoria limitada, los usuarios también pueden eliminar tareas innecesarias para lograr el efecto del adelgazamiento del modelo.
Para un Diccionario personalizado de TRIE eficiente, así como tres reglas: obligatorios, fusiones y corrección, consulte la demostración y la documentación. Los efectos del sistema de reglas se aplicarán perfectamente a los modelos estadísticos posteriores, adaptándose rápidamente a nuevas áreas.

Modelo de tarea única

Según nuestra última investigación, las ventajas del aprendizaje multitarea se encuentran en la velocidad y la memoria de video, pero la precisión a menudo no es tan buena como el modelo de tarea única. Entonces, HANLP previó muchos modelos de tareas únicas y diseñó modos de tubería elegantes para ensamblarlos.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Para obtener más funciones, consulte la demostración y la documentación para obtener más modelos y uso.

Formato de salida

No importa qué API, lenguaje de desarrollo y lenguaje natural, la producción de HANLP se unifica en un Document compatible con formato json que se dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

En particular, las API de Python Restful y nativas admiten la visualización basada en fuentes monoespaciales, que pueden visualizar directamente las estructuras lingüísticas en la consola:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Para el significado del conjunto de etiquetas, consulte las "Especificaciones de etiquetado lingüístico" y "Especificaciones de formato". Hemos comprado, marcado o utilizado el corpus más grande y diverso del mundo para el aprendizaje conjunto de tareas múltiples, por lo que el conjunto de anotaciones de HANLP también es el más extenso.

Entrena tu propio modelo de dominio

Escribir un modelo de aprendizaje profundo no es difícil en absoluto, pero la dificultad es reproducir una tasa de precisión más alta. El siguiente código muestra cómo pasar 6 minutos en el Corpus PKU Sighan2005 para capacitar a un modelo de segmentación de palabras chino que va más allá del mundo académico.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Entre ellos, dado que se especifica una semilla de número aleatorio, el resultado debe ser 96.73 . A diferencia de los documentos académicos o proyectos académicos anunciados falsamente, HANLP garantiza que se puedan reproducir todos los resultados. Si tiene alguna pregunta, solucionaremos el problema como el error fatal de mayor prioridad.

Consulte la demostración para obtener más guiones de capacitación.

actuación

lang	Corp para	modelo	tok		pajita				ner			DEP	estafa	SRL	partido socialdemócrata				lem	fea	amr
lang	Corp para	modelo	bien	Grueso	CTB	pku	863	ud	pku	MSRA	Ontonotes	DEP	estafa	SRL	Semeval16	Dm	Pasta	PSD	lem	fea	amr
mul	UD2.7 Ontonotes5	Pequeño	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
mul	UD2.7 Ontonotes5	base	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
zh	abierto	Pequeño	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	abierto	base	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	Cerca	Pequeño	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		base	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		Ernie	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

Según nuestra última investigación, el aprendizaje de una sola tarea tiende a superar el aprendizaje de varias tareas. Si le importa la precisión sobre la velocidad, se recomienda usar un modelo de tarea única.

Las relaciones de preprocesamiento y división de datos adoptadas por HANLP no son necesariamente las mismas que los métodos populares. Por ejemplo, HANLP adopta la versión completa del Corpus de reconocimiento de entidad MSRA en lugar de la versión castrada utilizada por el público; HanLP utiliza el estándar de dependencias de Stanford con una cobertura de sintaxis más amplia, en lugar del estándar de Zhang y Clark (2008) adoptado por la comunidad académica; HANLP propone un método de segmentación uniforme de CTB en lugar de la comunidad académica desigual y falta 51 documentos de oro. HANLP abre la fuente de un conjunto completo de scripts de preprocesamiento del corpus y el corpus correspondiente, esforzándose por promover la transparencia de la PNL china.

En resumen, HANLP solo hace lo que creemos que es correcto y avanzado, no necesariamente lo que es popular y autorizado.

Cita

Si usa HANLP en su investigación, cíalo en el siguiente formato:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Licencia

código fuente

El acuerdo de autorización para el código fuente de HANLP es Apache License 2.0 , que puede usarse con fines comerciales de forma gratuita. Adjunte el enlace y el acuerdo de autorización de HANLP a la descripción del producto. HANLP está protegido por la ley de derechos de autor y se seguirá la infracción.

Natural Semantics (Qingdao) Technology Co., Ltd.

HanLP opera independientemente de V1.7, con Semántica Natural (Qingdao) Technology Co., Ltd. como el cuerpo principal del proyecto, liderando el desarrollo de versiones posteriores y con los derechos de autor de versiones posteriores.

Buscar rápidamente

Las versiones HANLP V1.3 ~ V1.65 son desarrolladas por Dakuai Search y continúan siendo completamente de código abierto. Dakuai Search tiene los derechos de autor relevantes.

Shanghai Linyuan Company

Hanlp fue apoyado por Shanghai Linyuan Company en los primeros días y tiene los derechos de autor de las 1.28 y las versiones anteriores. Las versiones relevantes también se han publicado en el sitio web de Shanghai Linyuan Company.

Modelo previamente capacitado

La autorización de los modelos de aprendizaje automático no está legalmente determinada, pero en el espíritu de respetar la autorización original del corpus de código abierto, si no se establece específicamente, la autorización del modelo multilingüe de HANLP continúa utilizando CC BY-NC-SA 4.0, y la autorización del modelo chino es solo para fines de investigación y enseñanza.

Referencias

https://hanlp.hankcs.com/docs/references.html

Expandir

HanLP

HANLP: procesamiento del lenguaje Han

Inglés | Japonés | Documentos | Documentos | Foros | Docker | ▶ ️ Ejecutar en línea

API liviana RESTful

Pitón

Golang

Java

Empiece a comenzar rápidamente

API nativa masiva

Modelo multitarea

Modelo de tarea única

Formato de salida

Entrena tu propio modelo de dominio

actuación

Cita

Licencia

código fuente

Natural Semantics (Qingdao) Technology Co., Ltd.

Buscar rápidamente

Shanghai Linyuan Company

Modelo previamente capacitado

Referencias

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express