Téléchargement HanLP - Téléchargement du code source HanLP

Hanlp: Traitement de la langue Han

Anglais | Japonais | Documents | Documents | Forums | docker | ▶ ️ Exécuter en ligne

Une boîte à outils de traitement du langage naturel multilingue pour les environnements de production est basée sur les moteurs doubles Pytorch et TensorFlow 2.x, dans le but de populariser la technologie NLP la plus pointe. HANLP a les caractéristiques des fonctions complètes, une précision précise, des performances efficaces, un nouveau corpus, une architecture claire et personnalisable.

Avec le plus grand corpus multilingue du monde, HANLP2.1 prend en charge 10 tâches conjointes et plusieurs tâches uniques en 130 langues, notamment chinois traditionnelle, chinois, anglais, japonais, japonais, russe, français et allemand. HANLP pré-trains des dizaines de modèles sur plus d'une douzaine de tâches et itère continuellement le corpus et les modèles:

Fonction	Reposant	Multitâche	Tâche	Modèle	Normes d'étiquetage
Participe	Tutoriel	Tutoriel	Tutoriel	tok	Grossier, subdivision
Une partie de l'annotation de la parole	Tutoriel	Tutoriel	Tutoriel	point de point	CTB, PKU, 863
Reconnaissance d'entité nommée	Tutoriel	Tutoriel	Tutoriel	nervure	PKU, MSRA, Ontonotes
Analyse de la syntaxe de dépendance	Tutoriel	Tutoriel	Tutoriel	dep	SD, UD, PMT
Analyse de la syntaxe des composants	Tutoriel	Tutoriel	Tutoriel	escroquer	Banque d'arbres chinois
Analyse de dépendance sémantique	Tutoriel	Tutoriel	Tutoriel	SDP	Csdp
Annotation du rôle sémantique	Tutoriel	Tutoriel	Tutoriel	SRL	Banque de proposition chinoise
Expression de signification abstraite	Tutoriel	Aucun encore	Tutoriel	AMR	Camr
Se réfère à la dissolution	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Ontonotes
Similitude du texte sémantique	Tutoriel	Aucun encore	Tutoriel	STS	Aucun encore
Conversion de style texte	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Extraction de phrases de mots clés	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Résumé automatique extrait	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Résumé automatique génératif	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Correction de syntaxe texte	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Classification de texte	Tutoriel	Aucun encore	Aucun encore	Aucun encore	Aucun encore
Analyse des sentiments	Tutoriel	Aucun encore	Aucun encore	Aucun encore	`[-1,+1]`
Détection des langues	Tutoriel	Aucun encore	Tutoriel	Aucun encore	Encodage ISO 639-1

Pour l'extraction des tiges et l'extraction grammaticale grammaticale, veuillez vous référer au tutoriel anglais; Pour les vecteurs de mots et le remplissage de cloze, veuillez vous référer aux documents correspondants.
Pour une conversion chinoise simple et traditionnelle, Pinyin, une nouvelle découverte de mots et un regroupement de texte, veuillez vous référer au tutoriel 1.x.

Sur mesure, HanLP fournit deux API: RESTFUL et natif , qui sont destinés à deux scénarios: léger et massif. Quelle que soit l'API et la langue, l'interface HANLP reste sémantiquement cohérente et insiste sur l'open source dans le code. Si vous avez utilisé HANLP dans vos recherches, veuillez citer notre article EMNLP.

API reposant léger

Seuls quelques KB, adaptés au développement agile, aux applications mobiles et à d'autres scénarios. Simple et facile à utiliser, pas besoin d'installer GPU et il est installé en quelques secondes. Plus de corpus, de modèles plus grands, une précision plus élevée, fortement recommandée . Le serveur GPU Computing Power est limité et le quota utilisateur anonyme est petit. Il est recommandé de demander un API GRATUIT auth API de protection sociale .

Python

pip install hanlp_restful

Créez un client et remplissez l'adresse du serveur et la clé secrète:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Golang

Installer go get -u github.com/hankcs/gohanlp@main , créez un client, remplissez l'adresse du serveur et la clé secrète:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Java

Ajouter des dépendances dans pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Créez un client et remplissez l'adresse du serveur et la clé secrète:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Commencez rapidement

Peu importe le langage de développement, appelez l'interface parse et passe dans un article pour obtenir les résultats de l'analyse précise de HANLP.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Pour plus de fonctions, veuillez vous référer aux cas de documentation et de test.

API native massive

S'appuyant sur des technologies d'apprentissage en profondeur telles que Pytorch et TensorFlow, il convient aux ingénieurs PNL professionnels , aux chercheurs et aux scénarios de données massifs locaux. Nécessite Python 3.6 à 3.10, prend en charge Windows et * Nix est recommandé. Peut fonctionner sur le CPU, le GPU / TPU est recommandé. Installez la version Pytorch:

pip install hanlp

Hanlp a passé les tests unitaires pour Python 3.6 à 3.10 sur Linux, MacOS et Windows à chaque fois qu'il est libéré, et il n'y a pas de problème d'installation.

Les modèles publiés par HANLP sont divisés en deux types: multi-tâches et une seule tâche. La vitesse multi-tâches est rapide et enregistre la mémoire vidéo, et la précision unique est élevée et flexible.

Modèle multitâche

Le flux de travail de HANLP consiste à charger le modèle, puis à l'appeler en fonction, comme le modèle multitâche conjoint suivant:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

L'unité d'entrée de l'API native est une phrase, et il est nécessaire d'utiliser un modèle de clause multilingue ou une fonction de clause basée sur des règles à la pré-section. Les conceptions sémantiques des deux API Restful et natives sont complètement cohérentes, et les utilisateurs peuvent échanger de manière transparente. L'interface simple prend également en charge les paramètres flexibles. Les techniques courantes comprennent:

Planification tasks flexible, moins les tâches sont, plus la vitesse est rapide. Voir le tutoriel pour plus de détails. Dans des scénarios avec une mémoire limitée, les utilisateurs peuvent également supprimer des tâches inutiles pour réaliser l'effet des minets de modèle.
Pour un dictionnaire personnalisé efficace Trie Tree, ainsi que trois règles: obligatoire, fusion et correction, veuillez vous référer à la démo et à la documentation. Les effets du système de règles seront appliqués de manière transparente aux modèles statistiques ultérieurs, s'adaptant ainsi rapidement à de nouvelles zones.

Modèle unique

Selon nos dernières recherches, les avantages de l'apprentissage multitâche résident dans la vitesse et la mémoire vidéo, mais la précision n'est souvent pas aussi bonne que le modèle à tâche unique. Ainsi, HANLP a prétraité de nombreux modèles à une seule tâche et a conçu des modes de pipeline élégants pour les assembler.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Pour plus de fonctionnalités, veuillez vous référer à la démo et à la documentation pour plus de modèles et d'utilisation.

Format de sortie

Quelle que soit l'API, le langage de développement et le langage naturel, la sortie de Hanlp est unifiée en un Document compatible au format json qui est dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

En particulier, Python Resful et les API natifs soutiennent la visualisation basée sur les polices monospatiales, qui peuvent visualiser directement les structures linguistiques de la console:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Pour la signification de l'ensemble d'étiquettes, veuillez vous référer aux "spécifications d'étiquetage linguistique" et "Spécifications de format". Nous avons acheté, marqué ou utilisé le corpus le plus grand et le plus diversifié du monde pour l'apprentissage multi-language conjoint multi-tâches, de sorte que l'ensemble d'annotation du HANLP est également le plus étendu.

Formez votre propre modèle de domaine

Écrire un modèle d'apprentissage en profondeur n'est pas du tout difficile, mais la difficulté est de reproduire un taux de précision plus élevé. Le code suivant montre comment passer 6 minutes sur le corpus PKU SIGHAN2005 pour former un modèle de segmentation de mots chinois qui va au-delà du monde académique.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Parmi eux, comme une graine de nombre aléatoire est spécifiée, le résultat doit être 96.73 . Contrairement à ces documents académiques à tort à tort ou à des projets commerciaux, HANLP garantit que tous les résultats peuvent être reproduits. Si vous avez des questions, nous dépannerons le problème comme le bug mortel le plus élevé.

Veuillez vous référer à Demo pour plus de scripts de formation.

performance

égouter	Corpus	modèle	tok		point de point				nervure			dep	escroquer	SRL	SDP				lem	fea	AMR
égouter	Corpus	modèle	bien	Grossier	CTB	pku	863	UD	pku	MSRA	ontonotes	dep	escroquer	SRL	Semeval16	DM	Pas	PSD	lem	fea	AMR
mâle	UD2.7 Ontonotes5	Petit	98,62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70,63	-	91.19	93.67	85.34	87.71	84.51	-
mâle	UD2.7 Ontonotes5	base	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
zh	ouvrir	Petit	97.25	-	96.66	-	-	-	-	-	95,00	84.57	87,62	73.40	84.57	-	-	-	-	-	-
	ouvrir	base	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	Fermer	Petit	96.70	95,93	96.87	97,56	95.05	-	96.22	95,74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		base	97,52	96.44	96.99	97,59	95.29	-	96.48	95,72	77.77	85.29	88,57	76,52	73.76	-	-	-	-	-	-
		Ernie	96.95	97.29	96.76	97,64	95.22	-	97.31	96.47	77,95	85,67	89.17	78,51	74.10	-	-	-	-	-	-

Selon nos dernières recherches, l'apprentissage d'une seule tâche a tendance à surpasser l'apprentissage multi-tâches. Si vous vous souciez de la précision sur la vitesse, il est recommandé d'utiliser un modèle à une seule tâche.

Les ratios de prétraitement et de division des données adoptés par HANLP ne sont pas nécessairement les mêmes que les méthodes populaires. Par exemple, HANLP adopte la version complète du Corpus de reconnaissance entités nommé MSRA au lieu de la version castrée utilisée par le public; HanLP utilise la norme de dépendances de Stanford avec une couverture de syntaxe plus large, plutôt que la norme Zhang et Clark (2008) adoptée par la communauté académique; HANLP propose une méthode de segmentation uniforme des CTB au lieu de la communauté académique inégale et manquant 51 documents d'or. HanLP ouvre la source d'un ensemble complet de scripts de prétraitement du corpus et de corpus correspondant, s'efforçant de promouvoir la transparence de la PNL chinoise.

En bref, HANLP fait uniquement ce que nous pensons être correct et avancé, pas nécessairement ce qui est populaire et faisant autorité.

Citation

Si vous utilisez HANLP dans votre recherche, veuillez le citer dans le format suivant:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Licence

code source

L'accord d'autorisation pour le code source HANLP est Apache Licence 2.0 , qui peut être utilisé à des fins commerciales gratuitement. Veuillez joindre le lien et l'accord d'autorisation de HANLP à la description du produit. HanLP est protégé par la loi sur le droit d'auteur et la violation sera poursuivie.

Natural Semantics (Qingdao) Technology Co., Ltd.

HanLP opère indépendamment de V1.7, avec Natural Semantics (Qingdao) Technology Co., Ltd. comme le corps principal du projet, menant le développement de versions suivantes et ayant le droit d'auteur de versions suivantes.

Rechercher rapidement

Les versions HANLP V1.3 ~ V1.65 sont développées par Dakuai Search et continuent d'être complètement open source. Dakuai Search a le droit d'auteur pertinent.

Compagnie Shanghai Linyuan

Hanlp a été soutenu par Shanghai Linyuan Company au début et a le droit d'auteur des versions 1.28 et précédentes. Les versions pertinentes ont également été publiées sur le site Web de la société Shanghai Linyuan.

Modèle pré-formé

L'autorisation des modèles d'apprentissage automatique n'est pas légalement déterminée, mais dans l'esprit de respect de l'autorisation originale du corpus open source, sinon spécifiquement indiqué, l'autorisation du modèle multilingue de HANLP continue d'utiliser CC BY-NC-SA 4.0, et l'autorisation du modèle chinois est à des fins de recherche et d'enseignement uniquement.

Références

https://hanlp.hankcs.com/docs/references.html

Développer

HanLP

Hanlp: Traitement de la langue Han

Anglais | Japonais | Documents | Documents | Forums | docker | ▶ ️ Exécuter en ligne

API reposant léger

Python

Golang

Java

Commencez rapidement

API native massive

Modèle multitâche

Modèle unique

Format de sortie

Formez votre propre modèle de domaine

performance

Citation

Licence

code source

Natural Semantics (Qingdao) Technology Co., Ltd.

Rechercher rapidement

Compagnie Shanghai Linyuan

Modèle pré-formé

Références

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express