HanLP -Download - HanLP -Quellcode -Download

HANLP: Han -Sprachverarbeitung

Englisch | Japanisch | Dokumente | Papiere | Foren | Docker | ▶ ️ Online laufen

Ein mehrsprachiges Toolkit für die Verarbeitung natürlicher Sprache für Produktionsumgebungen basiert auf Pytorch- und Tensorflow 2.x-Dual-Motoren mit dem Ziel, die hochmodernste NLP-Technologie zu populieren. HANLP verfügt über die Eigenschaften vollständiger Funktionen, genaue Genauigkeit, effiziente Leistung, neuer Korpus, klare Architektur und anpassbar.

Mit dem weltweit größten mehrsprachigen Korpus unterstützt HanLP2.1 10 gemeinsame Aufgaben und mehrere einzelne Aufgaben in 130 Sprachen, darunter traditionelle chinesische, chinesische, englische, japanische, japanische, russische, französische und deutsche. HANLP Pre-Trains Dutzende von Modellen bei mehr als einem Dutzend Aufgaben und iteriert kontinuierlich den Korpus und die Modelle:

Funktion	Erholsam	Multitasking	Einzelaufgabe	Modell	Kennzeichnungsstandards
Partizip	Tutorial	Tutorial	Tutorial	Tok	Grob, Unterteilung
Teil der Sprachanmerkung	Tutorial	Tutorial	Tutorial	pos	CTB, PKU, 863
Genannte Entitätserkennung	Tutorial	Tutorial	Tutorial	Ner	PKU, MSRA, Ontonotes
Abhängigkeitssyntaxanalyse	Tutorial	Tutorial	Tutorial	Dep	SD, UD, PMT
Komponentensyntaxanalyse	Tutorial	Tutorial	Tutorial	Con	Chinesische Baumbank
Semantische Abhängigkeitsanalyse	Tutorial	Tutorial	Tutorial	SDP	CSDP
Semantische Rollenanträge	Tutorial	Tutorial	Tutorial	srl	Chinesische Proposition Bank
Abstrakter Bedeutungsausdruck	Tutorial	Noch keiner	Tutorial	AMR	Camr
Bezieht sich auf die Auflösung	Tutorial	Noch keiner	Noch keiner	Noch keiner	Ontonotes
Semantische Textähnlichkeit	Tutorial	Noch keiner	Tutorial	Sts	Noch keiner
Textstil -Konvertierung	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Schlüsselwort -Phrasenextraktion	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Extrahierte automatische Zusammenfassung	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Generative automatische Zusammenfassung	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Textsyntaxkorrektur	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Textklassifizierung	Tutorial	Noch keiner	Noch keiner	Noch keiner	Noch keiner
Stimmungsanalyse	Tutorial	Noch keiner	Noch keiner	Noch keiner	`[-1,+1]`
Spracherkennung	Tutorial	Noch keiner	Tutorial	Noch keiner	ISO 639-1 Codierung

Für die Stammextraktion und grammatikalische Grammatikfunktionsextraktion finden Sie im englischen Tutorial. Für Wortvektoren und Lückleerungen finden Sie in den entsprechenden Dokumenten.
Für eine einfache und traditionelle chinesische Konvertierung, Pinyin, neue Wortentdeckung und Textclustering finden Sie im Tutorial 1.x.

Zu maßgeschneidertem HANLP bietet HANLP zwei APIs: RESTful und Native , die auf zwei Szenarien abzielen: leicht und massiv. Unabhängig von API und Sprache bleibt die HANLP -Schnittstelle semantisch konsistent und besteht auf Open Source im Code. Wenn Sie HANLP in Ihrer Forschung verwendet haben, zitieren Sie bitte unser EMNLP -Papier.

Leichte Rastful -API

Nur wenige KBs, geeignet für agile Entwicklung, mobile App und andere Szenarien. Einfach und einfach zu bedienen, keine GPU zu installieren, und es ist in Sekunden installiert. Mehr Korpus, größere Modelle, höhere Genauigkeit, sehr empfohlen . Die Server -GPU -Computerleistung ist begrenzt und die anonyme Benutzerquote ist gering. Es wird empfohlen, einen kostenlosen öffentlichen Sozialhilfe -API auth zu beantragen.

Python

pip install hanlp_restful

Erstellen Sie einen Client und füllen Sie die Serveradresse und den geheimen Schlüssel ein:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Golang

Installieren Sie go get -u github.com/hankcs/gohanlp@main , erstellen Sie einen Client, geben Sie die Serveradresse und den geheimen Schlüssel ein:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Java

Fügen Sie Abhängigkeiten in pom.xml hinzu:

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Erstellen Sie einen Client und füllen Sie die Serveradresse und den geheimen Schlüssel ein:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Fangen Sie schnell an

Unabhängig davon, welche Entwicklungssprache, rufen Sie die parse -Schnittstelle an und geben Sie einen Artikel über, um die genauen Analyseergebnisse von HANLP zu erhalten.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Weitere Funktionen finden Sie in den Dokumentations- und Testfällen.

Massive einheimische API

In Bezug auf tiefe Lerntechnologien wie Pytorch und TensorFlow eignet es sich für professionelle NLP -Ingenieure, Forscher und lokale massive Datenszenarien. Benötigt Python 3.6 bis 3.10, unterstützt Windows und *Nix wird empfohlen. Wenn Sie auf der CPU ausgeführt werden, wird GPU/TPU empfohlen. Installieren Sie die Pytorch -Version:

pip install hanlp

HANLP hat die Unit -Tests für Python 3.6 bis 3.10 bei Linux, MacOS und Windows jedes Mal, wenn es freigegeben wird, bestanden und es gibt kein Installationsproblem.

Die von HANLP veröffentlichten Modelle sind in zwei Typen unterteilt: Multi-Task und Einzelaufgaben. Die Geschwindigkeit von Multitasks ist schnell und spart Videospeicher, und die Genauigkeit der Einzelaufgaben ist hoch und flexibel.

Multitasking -Modell

Der Workflow von HANLP besteht darin, das Modell zu laden und es dann als Funktion aufzurufen, z. B. das folgende gemeinsame Multitasking -Modell:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

Die Eingangseinheit der nativen API ist ein Satz, und es ist erforderlich, ein mehrsprachiges Klauselmodell oder eine regelbasierte Klauselfunktion für den Vorabschnitt zu verwenden. Die semantischen Designs der beiden APIs Rastful and Native sind völlig konsistent, und Benutzer können nahtlos austauschen. Die einfache Schnittstelle unterstützt auch flexible Parameter. Gemeinsame Techniken umfassen:

Flexible tasks , je weniger Aufgaben, desto schneller die Geschwindigkeit. Einzelheiten finden Sie im Tutorial. In Szenarien mit begrenztem Speicher können Benutzer auch unnötige Aufgaben löschen, um den Effekt der Modellschleife zu erreichen.
Für ein effizientes Trie Tree Custom Dictionary sowie drei Regeln: obligatorische, verschmelzen und Korrektur finden Sie auf Demo und Dokumentation. Die Auswirkungen des Regelsystems werden nahtlos auf nachfolgende statistische Modelle angewendet, wodurch sich schnell an neue Bereiche angepasst werden.

Einzelaufgabenmodell

Nach unseren neuesten Forschungen liegen die Vorteile des Multitasking-Lernens in Geschwindigkeit und Videogedächtnis, aber die Genauigkeit ist oft nicht so gut wie das Einzelaufgabenmodell. HANLP hat also viele Single-Task-Modelle vorgebracht und elegante Pipeline-Modi entworfen, um sie zusammenzustellen.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Weitere Funktionen finden Sie in der Demo und Dokumentation für weitere Modelle und Verwendung.

Ausgangsformat

Unabhängig davon, welche API, Entwicklungssprache und natürliche Sprache, ist die Ausgabe von HANLP in ein json -Format -kompatibler Document dict ist:

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

Insbesondere unterstützt Python Rastful und Native APIs die Visualisierung auf der Grundlage von Monospace -Schriftarten, die sprachliche Strukturen in der Konsole direkt visualisieren können:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Die Bedeutung des Etikettssatzes finden Sie in den "Sprachkennzeichnungsspezifikationen" und "Formatspezifikationen". Wir haben das weltweit größte und vielfältigste Korpus für ein gemeinsames Multi-Task-Lernen gekauft, markiert oder benutzt, sodass das Annotationssatz des HANLP auch am umfangreichsten ist.

Trainieren Sie Ihr eigenes Domänenmodell

Das Schreiben eines Deep -Learning -Modells ist überhaupt nicht schwierig, aber die Schwierigkeit besteht darin, eine höhere Genauigkeitsrate zu reproduzieren. Der folgende Code zeigt, wie Sie 6 Minuten auf dem Seufh2005 PKU -Korpus verbringen, um ein chinesisches Wort -Segmentierungsmodell auszubilden, das über die akademische Welt hinausgeht.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Da ein Zufallszahlensamen angegeben ist, muss das Ergebnis 96.73 betragen. Im Gegensatz zu den fälschlicherweise beworbenen akademischen Papieren oder kommerziellen Projekten garantiert HANLP, dass alle Ergebnisse reproduziert werden können. Wenn Sie Fragen haben, beheben wir das Problem als den tödlichen Fehler mit höchster Priorität.

Weitere Schulungsskripte finden Sie in der Demo.

Leistung

Lang	Korpora	Modell	Tok		pos				Ner			Dep	Con	srl	SDP				lem	Fea	AMR
Lang	Korpora	Modell	Bußgeld	Grob	CTB	PKU	863	ud	PKU	MSRA	Ontonotes	Dep	Con	srl	Semeval16	DM	Pas	PSD	lem	Fea	AMR
Mul	UD2.7 Ontonotes5	Klein	98.62	- -	- -	- -	- -	93.23	- -	- -	74,42	79.10	76,85	70,63	- -	91.19	93.67	85.34	87.71	84,51	- -
Mul	UD2.7 Ontonotes5	Base	98.97	- -	- -	- -	- -	90.32	- -	- -	80.32	78,74	71.23	73,63	- -	92.60	96.04	81.19	85.08	82.13	- -
Zh	offen	Klein	97,25	- -	96.66	- -	- -	- -	- -	- -	95.00	84,57	87.62	73,40	84,57	- -	- -	- -	- -	- -	- -
	offen	Base	97,50	- -	97.07	- -	- -	- -	- -	- -	96.04	87.11	89,84	77,78	87.11	- -	- -	- -	- -	- -	- -
	Schließen	Klein	96.70	95.93	96,87	97,56	95.05	- -	96,22	95.74	76,79	84.44	88.13	75,81	74,28	- -	- -	- -	- -	- -	- -
		Base	97.52	96,44	96,99	97.59	95.29	- -	96,48	95.72	77,77	85.29	88,57	76,52	73,76	- -	- -	- -	- -	- -	- -
		Ernie	96,95	97.29	96,76	97.64	95.22	- -	97.31	96,47	77,95	85.67	89.17	78,51	74.10	- -	- -	- -	- -	- -	- -

Laut unserer neuesten Forschungen neigt das Lernen von Single-Task-Lernen dazu, das Lernen von mehreren Aufgaben zu übertreffen. Wenn Sie sich für die Genauigkeit über die Geschwindigkeit interessieren, wird empfohlen, ein Einzelaufgabenmodell zu verwenden.

Die von HANLP angewandten Datenvorverarbeitungs- und Aufteilungsverhältnisse sind nicht unbedingt die gleichen Methoden. Beispielsweise nimmt HANLP die Vollversion des MSRA -Namens -Erkennungskorpus anstelle der von der Öffentlichkeit verwendeten kastrierten Version an. HANLP verwendet den Standard der Stanford -Abhängigkeiten mit einer breiteren Syntax -Berichterstattung anstelle des von der akademischen Gemeinschaft verabschiedeten Standards von Zhang und Clark (2008). HANLP schlägt eine Methode zur einheitlichen Segmentierung von CTBS anstelle der ungleichmäßigen akademischen Gemeinschaft und fehlenden 51 Golddokumenten vor. HANLP öffnet die Quelle eines vollständigen Satzes von Korpusvorverarbeitungsskripten und dem entsprechenden Korpus, wodurch sich die Transparenz des chinesischen NLP fördern möchte.

Kurz gesagt, HANLP macht nur das, was wir für richtig und fortgeschritten halten, und nicht unbedingt das, was populär und maßgeblich ist.

Zitat

Wenn Sie HANLP in Ihrer Forschung verwenden, zitieren Sie es bitte im folgenden Format:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Lizenz

Quellcode

Die Autorisierungsvereinbarung für den HANLP -Quellcode ist Apache -Lizenz 2.0 , der kostenlos für kommerzielle Zwecke verwendet werden kann. Bitte fügen Sie der Produktbeschreibung den Link und die Autorisierungsvereinbarung von HANLP bei. HANLP ist durch das Urheberrecht geschützt und Verstöße werden verfolgt.

Natural Semantics (Qingdao) Technology Co., Ltd.

HANLP arbeitet unabhängig von V1.7 mit natürlicher Semantik (QINGDAO) Technology Co., Ltd. als Hauptkörper des Projekts, der die Entwicklung nachfolgender Versionen und das Urheberrecht nachfolgender Versionen leitet.

Suchen Sie schnell

HANLP V1.3 ~ V1.65 -Versionen werden von der Dakuai -Suche entwickelt und sind weiterhin vollständig Open Source. Die Dakuai -Suche hat das relevante Urheberrecht.

Shanghai Linyuan Company

HANLP wurde in den frühen Tagen von Shanghai Linyuan Company unterstützt und hat das Urheberrecht der 1,28 und früheren Versionen. Die relevanten Versionen wurden auch auf der Website von Shanghai Linyuan Company veröffentlicht.

Vorausgebildeter Modell

Die Genehmigung von Modellen für maschinelles Lernen ist nicht gesetzlich festgelegt, aber im Geiste, die ursprüngliche Genehmigung des Open-Source-Korpus zu respektieren, wenn nicht speziell angegeben, verwendet die mehrsprachige Modellgenehmigung von HANLP weiterhin CC BY-NC-SA 4.0, und die chinesische Modellgenehmigung dient nur zu Forschungs- und Unterrichtszwecken.

Referenzen

https://hanlp.hankcs.com/docs/references.html

Expandieren

HanLP

HANLP: Han -Sprachverarbeitung

Englisch | Japanisch | Dokumente | Papiere | Foren | Docker | ▶ ️ Online laufen

Leichte Rastful -API

Python

Golang

Java

Fangen Sie schnell an

Massive einheimische API

Multitasking -Modell

Einzelaufgabenmodell

Ausgangsformat

Trainieren Sie Ihr eigenes Domänenmodell

Leistung

Zitat

Lizenz

Quellcode

Natural Semantics (Qingdao) Technology Co., Ltd.

Suchen Sie schnell

Shanghai Linyuan Company

Vorausgebildeter Modell

Referenzen

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express