
Une boîte à outils de traitement du langage naturel multilingue pour les environnements de production est basée sur les moteurs doubles Pytorch et TensorFlow 2.x, dans le but de populariser la technologie NLP la plus pointe. HANLP a les caractéristiques des fonctions complètes, une précision précise, des performances efficaces, un nouveau corpus, une architecture claire et personnalisable.
Avec le plus grand corpus multilingue du monde, HANLP2.1 prend en charge 10 tâches conjointes et plusieurs tâches uniques en 130 langues, notamment chinois traditionnelle, chinois, anglais, japonais, japonais, russe, français et allemand. HANLP pré-trains des dizaines de modèles sur plus d'une douzaine de tâches et itère continuellement le corpus et les modèles:
| Fonction | Reposant | Multitâche | Tâche | Modèle | Normes d'étiquetage |
|---|---|---|---|---|---|
| Participe | Tutoriel | Tutoriel | Tutoriel | tok | Grossier, subdivision |
| Une partie de l'annotation de la parole | Tutoriel | Tutoriel | Tutoriel | point de point | CTB, PKU, 863 |
| Reconnaissance d'entité nommée | Tutoriel | Tutoriel | Tutoriel | nervure | PKU, MSRA, Ontonotes |
| Analyse de la syntaxe de dépendance | Tutoriel | Tutoriel | Tutoriel | dep | SD, UD, PMT |
| Analyse de la syntaxe des composants | Tutoriel | Tutoriel | Tutoriel | escroquer | Banque d'arbres chinois |
| Analyse de dépendance sémantique | Tutoriel | Tutoriel | Tutoriel | SDP | Csdp |
| Annotation du rôle sémantique | Tutoriel | Tutoriel | Tutoriel | SRL | Banque de proposition chinoise |
| Expression de signification abstraite | Tutoriel | Aucun encore | Tutoriel | AMR | Camr |
| Se réfère à la dissolution | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Ontonotes |
| Similitude du texte sémantique | Tutoriel | Aucun encore | Tutoriel | STS | Aucun encore |
| Conversion de style texte | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Extraction de phrases de mots clés | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Résumé automatique extrait | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Résumé automatique génératif | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Correction de syntaxe texte | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Classification de texte | Tutoriel | Aucun encore | Aucun encore | Aucun encore | Aucun encore |
| Analyse des sentiments | Tutoriel | Aucun encore | Aucun encore | Aucun encore | [-1,+1] |
| Détection des langues | Tutoriel | Aucun encore | Tutoriel | Aucun encore | Encodage ISO 639-1 |
Sur mesure, HanLP fournit deux API: RESTFUL et natif , qui sont destinés à deux scénarios: léger et massif. Quelle que soit l'API et la langue, l'interface HANLP reste sémantiquement cohérente et insiste sur l'open source dans le code. Si vous avez utilisé HANLP dans vos recherches, veuillez citer notre article EMNLP.
Seuls quelques KB, adaptés au développement agile, aux applications mobiles et à d'autres scénarios. Simple et facile à utiliser, pas besoin d'installer GPU et il est installé en quelques secondes. Plus de corpus, de modèles plus grands, une précision plus élevée, fortement recommandée . Le serveur GPU Computing Power est limité et le quota utilisateur anonyme est petit. Il est recommandé de demander un API GRATUIT auth API de protection sociale .
pip install hanlp_restfulCréez un client et remplissez l'adresse du serveur et la clé secrète:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Installer go get -u github.com/hankcs/gohanlp@main , créez un client, remplissez l'adresse du serveur et la clé secrète:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Ajouter des dépendances dans pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Créez un client et remplissez l'adresse du serveur et la clé secrète:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 Peu importe le langage de développement, appelez l'interface parse et passe dans un article pour obtenir les résultats de l'analyse précise de HANLP.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Pour plus de fonctions, veuillez vous référer aux cas de documentation et de test.
S'appuyant sur des technologies d'apprentissage en profondeur telles que Pytorch et TensorFlow, il convient aux ingénieurs PNL professionnels , aux chercheurs et aux scénarios de données massifs locaux. Nécessite Python 3.6 à 3.10, prend en charge Windows et * Nix est recommandé. Peut fonctionner sur le CPU, le GPU / TPU est recommandé. Installez la version Pytorch:
pip install hanlpLes modèles publiés par HANLP sont divisés en deux types: multi-tâches et une seule tâche. La vitesse multi-tâches est rapide et enregistre la mémoire vidéo, et la précision unique est élevée et flexible.
Le flux de travail de HANLP consiste à charger le modèle, puis à l'appeler en fonction, comme le modèle multitâche conjoint suivant:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])L'unité d'entrée de l'API native est une phrase, et il est nécessaire d'utiliser un modèle de clause multilingue ou une fonction de clause basée sur des règles à la pré-section. Les conceptions sémantiques des deux API Restful et natives sont complètement cohérentes, et les utilisateurs peuvent échanger de manière transparente. L'interface simple prend également en charge les paramètres flexibles. Les techniques courantes comprennent:
tasks flexible, moins les tâches sont, plus la vitesse est rapide. Voir le tutoriel pour plus de détails. Dans des scénarios avec une mémoire limitée, les utilisateurs peuvent également supprimer des tâches inutiles pour réaliser l'effet des minets de modèle.Selon nos dernières recherches, les avantages de l'apprentissage multitâche résident dans la vitesse et la mémoire vidéo, mais la précision n'est souvent pas aussi bonne que le modèle à tâche unique. Ainsi, HANLP a prétraité de nombreux modèles à une seule tâche et a conçu des modes de pipeline élégants pour les assembler.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Pour plus de fonctionnalités, veuillez vous référer à la démo et à la documentation pour plus de modèles et d'utilisation.
Quelle que soit l'API, le langage de développement et le langage naturel, la sortie de Hanlp est unifiée en un Document compatible au format json qui est dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}En particulier, Python Resful et les API natifs soutiennent la visualisation basée sur les polices monospatiales, qui peuvent visualiser directement les structures linguistiques de la console:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Pour la signification de l'ensemble d'étiquettes, veuillez vous référer aux "spécifications d'étiquetage linguistique" et "Spécifications de format". Nous avons acheté, marqué ou utilisé le corpus le plus grand et le plus diversifié du monde pour l'apprentissage multi-language conjoint multi-tâches, de sorte que l'ensemble d'annotation du HANLP est également le plus étendu.
Écrire un modèle d'apprentissage en profondeur n'est pas du tout difficile, mais la difficulté est de reproduire un taux de précision plus élevé. Le code suivant montre comment passer 6 minutes sur le corpus PKU SIGHAN2005 pour former un modèle de segmentation de mots chinois qui va au-delà du monde académique.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Parmi eux, comme une graine de nombre aléatoire est spécifiée, le résultat doit être 96.73 . Contrairement à ces documents académiques à tort à tort ou à des projets commerciaux, HANLP garantit que tous les résultats peuvent être reproduits. Si vous avez des questions, nous dépannerons le problème comme le bug mortel le plus élevé.
Veuillez vous référer à Demo pour plus de scripts de formation.
| égouter | Corpus | modèle | tok | point de point | nervure | dep | escroquer | SRL | SDP | lem | fea | AMR | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| bien | Grossier | CTB | pku | 863 | UD | pku | MSRA | ontonotes | Semeval16 | DM | Pas | PSD | |||||||||
| mâle | UD2.7 Ontonotes5 | Petit | 98,62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70,63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| base | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| zh | ouvrir | Petit | 97.25 | - | 96.66 | - | - | - | - | - | 95,00 | 84.57 | 87,62 | 73.40 | 84.57 | - | - | - | - | - | - |
| base | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| Fermer | Petit | 96.70 | 95,93 | 96.87 | 97,56 | 95.05 | - | 96.22 | 95,74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| base | 97,52 | 96.44 | 96.99 | 97,59 | 95.29 | - | 96.48 | 95,72 | 77.77 | 85.29 | 88,57 | 76,52 | 73.76 | - | - | - | - | - | - | ||
| Ernie | 96.95 | 97.29 | 96.76 | 97,64 | 95.22 | - | 97.31 | 96.47 | 77,95 | 85,67 | 89.17 | 78,51 | 74.10 | - | - | - | - | - | - | ||
Les ratios de prétraitement et de division des données adoptés par HANLP ne sont pas nécessairement les mêmes que les méthodes populaires. Par exemple, HANLP adopte la version complète du Corpus de reconnaissance entités nommé MSRA au lieu de la version castrée utilisée par le public; HanLP utilise la norme de dépendances de Stanford avec une couverture de syntaxe plus large, plutôt que la norme Zhang et Clark (2008) adoptée par la communauté académique; HANLP propose une méthode de segmentation uniforme des CTB au lieu de la communauté académique inégale et manquant 51 documents d'or. HanLP ouvre la source d'un ensemble complet de scripts de prétraitement du corpus et de corpus correspondant, s'efforçant de promouvoir la transparence de la PNL chinoise.
En bref, HANLP fait uniquement ce que nous pensons être correct et avancé, pas nécessairement ce qui est populaire et faisant autorité.
Si vous utilisez HANLP dans votre recherche, veuillez le citer dans le format suivant:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}L'accord d'autorisation pour le code source HANLP est Apache Licence 2.0 , qui peut être utilisé à des fins commerciales gratuitement. Veuillez joindre le lien et l'accord d'autorisation de HANLP à la description du produit. HanLP est protégé par la loi sur le droit d'auteur et la violation sera poursuivie.
HanLP opère indépendamment de V1.7, avec Natural Semantics (Qingdao) Technology Co., Ltd. comme le corps principal du projet, menant le développement de versions suivantes et ayant le droit d'auteur de versions suivantes.
Les versions HANLP V1.3 ~ V1.65 sont développées par Dakuai Search et continuent d'être complètement open source. Dakuai Search a le droit d'auteur pertinent.
Hanlp a été soutenu par Shanghai Linyuan Company au début et a le droit d'auteur des versions 1.28 et précédentes. Les versions pertinentes ont également été publiées sur le site Web de la société Shanghai Linyuan.
L'autorisation des modèles d'apprentissage automatique n'est pas légalement déterminée, mais dans l'esprit de respect de l'autorisation originale du corpus open source, sinon spécifiquement indiqué, l'autorisation du modèle multilingue de HANLP continue d'utiliser CC BY-NC-SA 4.0, et l'autorisation du modèle chinois est à des fins de recherche et d'enseignement uniquement.
https://hanlp.hankcs.com/docs/references.html