
Ein mehrsprachiges Toolkit für die Verarbeitung natürlicher Sprache für Produktionsumgebungen basiert auf Pytorch- und Tensorflow 2.x-Dual-Motoren mit dem Ziel, die hochmodernste NLP-Technologie zu populieren. HANLP verfügt über die Eigenschaften vollständiger Funktionen, genaue Genauigkeit, effiziente Leistung, neuer Korpus, klare Architektur und anpassbar.
Mit dem weltweit größten mehrsprachigen Korpus unterstützt HanLP2.1 10 gemeinsame Aufgaben und mehrere einzelne Aufgaben in 130 Sprachen, darunter traditionelle chinesische, chinesische, englische, japanische, japanische, russische, französische und deutsche. HANLP Pre-Trains Dutzende von Modellen bei mehr als einem Dutzend Aufgaben und iteriert kontinuierlich den Korpus und die Modelle:
| Funktion | Erholsam | Multitasking | Einzelaufgabe | Modell | Kennzeichnungsstandards |
|---|---|---|---|---|---|
| Partizip | Tutorial | Tutorial | Tutorial | Tok | Grob, Unterteilung |
| Teil der Sprachanmerkung | Tutorial | Tutorial | Tutorial | pos | CTB, PKU, 863 |
| Genannte Entitätserkennung | Tutorial | Tutorial | Tutorial | Ner | PKU, MSRA, Ontonotes |
| Abhängigkeitssyntaxanalyse | Tutorial | Tutorial | Tutorial | Dep | SD, UD, PMT |
| Komponentensyntaxanalyse | Tutorial | Tutorial | Tutorial | Con | Chinesische Baumbank |
| Semantische Abhängigkeitsanalyse | Tutorial | Tutorial | Tutorial | SDP | CSDP |
| Semantische Rollenanträge | Tutorial | Tutorial | Tutorial | srl | Chinesische Proposition Bank |
| Abstrakter Bedeutungsausdruck | Tutorial | Noch keiner | Tutorial | AMR | Camr |
| Bezieht sich auf die Auflösung | Tutorial | Noch keiner | Noch keiner | Noch keiner | Ontonotes |
| Semantische Textähnlichkeit | Tutorial | Noch keiner | Tutorial | Sts | Noch keiner |
| Textstil -Konvertierung | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Schlüsselwort -Phrasenextraktion | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Extrahierte automatische Zusammenfassung | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Generative automatische Zusammenfassung | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Textsyntaxkorrektur | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Textklassifizierung | Tutorial | Noch keiner | Noch keiner | Noch keiner | Noch keiner |
| Stimmungsanalyse | Tutorial | Noch keiner | Noch keiner | Noch keiner | [-1,+1] |
| Spracherkennung | Tutorial | Noch keiner | Tutorial | Noch keiner | ISO 639-1 Codierung |
Zu maßgeschneidertem HANLP bietet HANLP zwei APIs: RESTful und Native , die auf zwei Szenarien abzielen: leicht und massiv. Unabhängig von API und Sprache bleibt die HANLP -Schnittstelle semantisch konsistent und besteht auf Open Source im Code. Wenn Sie HANLP in Ihrer Forschung verwendet haben, zitieren Sie bitte unser EMNLP -Papier.
Nur wenige KBs, geeignet für agile Entwicklung, mobile App und andere Szenarien. Einfach und einfach zu bedienen, keine GPU zu installieren, und es ist in Sekunden installiert. Mehr Korpus, größere Modelle, höhere Genauigkeit, sehr empfohlen . Die Server -GPU -Computerleistung ist begrenzt und die anonyme Benutzerquote ist gering. Es wird empfohlen, einen kostenlosen öffentlichen Sozialhilfe -API auth zu beantragen.
pip install hanlp_restfulErstellen Sie einen Client und füllen Sie die Serveradresse und den geheimen Schlüssel ein:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Installieren Sie go get -u github.com/hankcs/gohanlp@main , erstellen Sie einen Client, geben Sie die Serveradresse und den geheimen Schlüssel ein:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Fügen Sie Abhängigkeiten in pom.xml hinzu:
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Erstellen Sie einen Client und füllen Sie die Serveradresse und den geheimen Schlüssel ein:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 Unabhängig davon, welche Entwicklungssprache, rufen Sie die parse -Schnittstelle an und geben Sie einen Artikel über, um die genauen Analyseergebnisse von HANLP zu erhalten.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Weitere Funktionen finden Sie in den Dokumentations- und Testfällen.
In Bezug auf tiefe Lerntechnologien wie Pytorch und TensorFlow eignet es sich für professionelle NLP -Ingenieure, Forscher und lokale massive Datenszenarien. Benötigt Python 3.6 bis 3.10, unterstützt Windows und *Nix wird empfohlen. Wenn Sie auf der CPU ausgeführt werden, wird GPU/TPU empfohlen. Installieren Sie die Pytorch -Version:
pip install hanlpDie von HANLP veröffentlichten Modelle sind in zwei Typen unterteilt: Multi-Task und Einzelaufgaben. Die Geschwindigkeit von Multitasks ist schnell und spart Videospeicher, und die Genauigkeit der Einzelaufgaben ist hoch und flexibel.
Der Workflow von HANLP besteht darin, das Modell zu laden und es dann als Funktion aufzurufen, z. B. das folgende gemeinsame Multitasking -Modell:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])Die Eingangseinheit der nativen API ist ein Satz, und es ist erforderlich, ein mehrsprachiges Klauselmodell oder eine regelbasierte Klauselfunktion für den Vorabschnitt zu verwenden. Die semantischen Designs der beiden APIs Rastful and Native sind völlig konsistent, und Benutzer können nahtlos austauschen. Die einfache Schnittstelle unterstützt auch flexible Parameter. Gemeinsame Techniken umfassen:
tasks , je weniger Aufgaben, desto schneller die Geschwindigkeit. Einzelheiten finden Sie im Tutorial. In Szenarien mit begrenztem Speicher können Benutzer auch unnötige Aufgaben löschen, um den Effekt der Modellschleife zu erreichen.Nach unseren neuesten Forschungen liegen die Vorteile des Multitasking-Lernens in Geschwindigkeit und Videogedächtnis, aber die Genauigkeit ist oft nicht so gut wie das Einzelaufgabenmodell. HANLP hat also viele Single-Task-Modelle vorgebracht und elegante Pipeline-Modi entworfen, um sie zusammenzustellen.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Weitere Funktionen finden Sie in der Demo und Dokumentation für weitere Modelle und Verwendung.
Unabhängig davon, welche API, Entwicklungssprache und natürliche Sprache, ist die Ausgabe von HANLP in ein json -Format -kompatibler Document dict ist:
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}Insbesondere unterstützt Python Rastful und Native APIs die Visualisierung auf der Grundlage von Monospace -Schriftarten, die sprachliche Strukturen in der Konsole direkt visualisieren können:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Die Bedeutung des Etikettssatzes finden Sie in den "Sprachkennzeichnungsspezifikationen" und "Formatspezifikationen". Wir haben das weltweit größte und vielfältigste Korpus für ein gemeinsames Multi-Task-Lernen gekauft, markiert oder benutzt, sodass das Annotationssatz des HANLP auch am umfangreichsten ist.
Das Schreiben eines Deep -Learning -Modells ist überhaupt nicht schwierig, aber die Schwierigkeit besteht darin, eine höhere Genauigkeitsrate zu reproduzieren. Der folgende Code zeigt, wie Sie 6 Minuten auf dem Seufh2005 PKU -Korpus verbringen, um ein chinesisches Wort -Segmentierungsmodell auszubilden, das über die akademische Welt hinausgeht.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Da ein Zufallszahlensamen angegeben ist, muss das Ergebnis 96.73 betragen. Im Gegensatz zu den fälschlicherweise beworbenen akademischen Papieren oder kommerziellen Projekten garantiert HANLP, dass alle Ergebnisse reproduziert werden können. Wenn Sie Fragen haben, beheben wir das Problem als den tödlichen Fehler mit höchster Priorität.
Weitere Schulungsskripte finden Sie in der Demo.
| Lang | Korpora | Modell | Tok | pos | Ner | Dep | Con | srl | SDP | lem | Fea | AMR | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Bußgeld | Grob | CTB | PKU | 863 | ud | PKU | MSRA | Ontonotes | Semeval16 | DM | Pas | PSD | |||||||||
| Mul | UD2.7 Ontonotes5 | Klein | 98.62 | - - | - - | - - | - - | 93.23 | - - | - - | 74,42 | 79.10 | 76,85 | 70,63 | - - | 91.19 | 93.67 | 85.34 | 87.71 | 84,51 | - - |
| Base | 98.97 | - - | - - | - - | - - | 90.32 | - - | - - | 80.32 | 78,74 | 71.23 | 73,63 | - - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - - | ||
| Zh | offen | Klein | 97,25 | - - | 96.66 | - - | - - | - - | - - | - - | 95.00 | 84,57 | 87.62 | 73,40 | 84,57 | - - | - - | - - | - - | - - | - - |
| Base | 97,50 | - - | 97.07 | - - | - - | - - | - - | - - | 96.04 | 87.11 | 89,84 | 77,78 | 87.11 | - - | - - | - - | - - | - - | - - | ||
| Schließen | Klein | 96.70 | 95.93 | 96,87 | 97,56 | 95.05 | - - | 96,22 | 95.74 | 76,79 | 84.44 | 88.13 | 75,81 | 74,28 | - - | - - | - - | - - | - - | - - | |
| Base | 97.52 | 96,44 | 96,99 | 97.59 | 95.29 | - - | 96,48 | 95.72 | 77,77 | 85.29 | 88,57 | 76,52 | 73,76 | - - | - - | - - | - - | - - | - - | ||
| Ernie | 96,95 | 97.29 | 96,76 | 97.64 | 95.22 | - - | 97.31 | 96,47 | 77,95 | 85.67 | 89.17 | 78,51 | 74.10 | - - | - - | - - | - - | - - | - - | ||
Die von HANLP angewandten Datenvorverarbeitungs- und Aufteilungsverhältnisse sind nicht unbedingt die gleichen Methoden. Beispielsweise nimmt HANLP die Vollversion des MSRA -Namens -Erkennungskorpus anstelle der von der Öffentlichkeit verwendeten kastrierten Version an. HANLP verwendet den Standard der Stanford -Abhängigkeiten mit einer breiteren Syntax -Berichterstattung anstelle des von der akademischen Gemeinschaft verabschiedeten Standards von Zhang und Clark (2008). HANLP schlägt eine Methode zur einheitlichen Segmentierung von CTBS anstelle der ungleichmäßigen akademischen Gemeinschaft und fehlenden 51 Golddokumenten vor. HANLP öffnet die Quelle eines vollständigen Satzes von Korpusvorverarbeitungsskripten und dem entsprechenden Korpus, wodurch sich die Transparenz des chinesischen NLP fördern möchte.
Kurz gesagt, HANLP macht nur das, was wir für richtig und fortgeschritten halten, und nicht unbedingt das, was populär und maßgeblich ist.
Wenn Sie HANLP in Ihrer Forschung verwenden, zitieren Sie es bitte im folgenden Format:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}Die Autorisierungsvereinbarung für den HANLP -Quellcode ist Apache -Lizenz 2.0 , der kostenlos für kommerzielle Zwecke verwendet werden kann. Bitte fügen Sie der Produktbeschreibung den Link und die Autorisierungsvereinbarung von HANLP bei. HANLP ist durch das Urheberrecht geschützt und Verstöße werden verfolgt.
HANLP arbeitet unabhängig von V1.7 mit natürlicher Semantik (QINGDAO) Technology Co., Ltd. als Hauptkörper des Projekts, der die Entwicklung nachfolgender Versionen und das Urheberrecht nachfolgender Versionen leitet.
HANLP V1.3 ~ V1.65 -Versionen werden von der Dakuai -Suche entwickelt und sind weiterhin vollständig Open Source. Die Dakuai -Suche hat das relevante Urheberrecht.
HANLP wurde in den frühen Tagen von Shanghai Linyuan Company unterstützt und hat das Urheberrecht der 1,28 und früheren Versionen. Die relevanten Versionen wurden auch auf der Website von Shanghai Linyuan Company veröffentlicht.
Die Genehmigung von Modellen für maschinelles Lernen ist nicht gesetzlich festgelegt, aber im Geiste, die ursprüngliche Genehmigung des Open-Source-Korpus zu respektieren, wenn nicht speziell angegeben, verwendet die mehrsprachige Modellgenehmigung von HANLP weiterhin CC BY-NC-SA 4.0, und die chinesische Modellgenehmigung dient nur zu Forschungs- und Unterrichtszwecken.
https://hanlp.hankcs.com/docs/references.html