
生産環境向けの多言語自然言語処理ツールキットは、最も最先端のNLPテクノロジーを普及させることを目的とした、PytorchおよびTensorflow 2.xデュアルエンジンに基づいています。 HANLPには、完全な機能、正確な精度、効率的なパフォーマンス、新しいコーパス、クリアアーキテクチャ、カスタマイズ可能な特性があります。
世界最大の多言語コーパスを備えたHANLP2.1は、伝統的な中国語、中国語、英語、日本語、日本語、ロシア語、フランス語、ドイツ語を含む130の言語で、10の共同タスクと複数の単一タスクをサポートしています。 HANLPは、1ダース以上のタスクで多数のモデルをプレインしており、コーパスとモデルを継続的に繰り返しています。
| 関数 | 安らかな | マルチタスク | 単一のタスク | モデル | ラベリング基準 |
|---|---|---|---|---|---|
| 分詞 | チュートリアル | チュートリアル | チュートリアル | トーク | 粗い、区画 |
| 音声注釈の一部 | チュートリアル | チュートリアル | チュートリアル | Pos | CTB、PKU、863 |
| 名前付きエンティティ認識 | チュートリアル | チュートリアル | チュートリアル | ええと | PKU、MSRA、ONTONOTES |
| 依存性構文分析 | チュートリアル | チュートリアル | チュートリアル | de | SD、UD、PMT |
| コンポーネント構文分析 | チュートリアル | チュートリアル | チュートリアル | 詐欺 | 中国のツリーバンク |
| セマンティック依存関係分析 | チュートリアル | チュートリアル | チュートリアル | SDP | CSDP |
| セマンティックロール注釈 | チュートリアル | チュートリアル | チュートリアル | SRL | 中国の提案銀行 |
| 抽象的な意味表現 | チュートリアル | まだありません | チュートリアル | amr | camr |
| 解散を指します | チュートリアル | まだありません | まだありません | まだありません | ontonotes |
| セマンティックテキストの類似性 | チュートリアル | まだありません | チュートリアル | sts | まだありません |
| テキストスタイルの変換 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| キーワードフレーズ抽出 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| 抽出された自動概要 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| 生成自動概要 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| テキスト構文補正 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| テキスト分類 | チュートリアル | まだありません | まだありません | まだありません | まだありません |
| 感情分析 | チュートリアル | まだありません | まだありません | まだありません | [-1,+1] |
| 言語検出 | チュートリアル | まだありません | チュートリアル | まだありません | ISO 639-1エンコーディング |
テーラードされたHANLPは、2つのAPIを提供します。安らかでネイティブで、2つのシナリオを対象としています。 APIと言語に関係なく、HANLPインターフェイスは意味的に一貫性があり、コードのオープンソースを主張しています。研究でHANLPを使用している場合は、EMNLPペーパーを引用してください。
アジャイル開発、モバイルアプリ、その他のシナリオに適したKBSのみ。シンプルで使いやすく、GPUがインストールする必要はなく、数秒でインストールされます。より多くのコーパス、より大きなモデル、より高い精度、強くお勧めします。サーバーGPUコンピューティングパワーは限られており、匿名のユーザークォータは小さいです。無料の公共福祉API Key authを申請することをお勧めします。
pip install hanlp_restfulクライアントを作成し、サーバーアドレスとシークレットキーに入力します。
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种インストールgo get -u github.com/hankcs/gohanlp@main 、クライアントを作成し、サーバーアドレスとシークレットキーに入力してください。
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 pom.xmlに依存関係を追加:
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >クライアントを作成し、サーバーアドレスとシークレットキーに入力します。
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种どの開発言語に関係なく、 parseインターフェイスを呼び出して記事に渡して、HANLPの正確な分析結果を取得します。
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )その他の機能については、ドキュメントとテストのケースを参照してください。
PytorchやTensorflowなどの深い学習技術に依存すると、プロのNLPエンジニア、研究者、地元の大規模なデータシナリオに適しています。 Python 3.6から3.10が必要であり、Windowsをサポートし、 *nixが推奨されます。 CPUで実行できます。GPU/TPUをお勧めします。 Pytorchバージョンをインストールします。
pip install hanlpHANLPによってリリースされたモデルは、マルチタスクとシングルタスクの2つのタイプに分かれています。マルチタスク速度は高速でビデオメモリを保存し、シングルタスクの精度は高く柔軟です。
HANLPのワークフローは、モデルをロードしてから、次のジョイントマルチタスクモデルなどの関数として呼び出すことです。
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])ネイティブAPIの入力ユニットは文であり、多言語節モデルまたはルールベースの句関数を事前セクションに使用する必要があります。 2つのAPIのセマンティックデザインは、Restfulとネイティブのセマンティックデザインが完全に一貫しており、ユーザーはシームレスに交換できます。シンプルなインターフェイスは、柔軟なパラメーターもサポートしています。一般的な手法は次のとおりです。
tasksスケジューリング、タスクが少なく、速度が速くなります。詳細については、チュートリアルを参照してください。メモリが限られているシナリオでは、ユーザーは不要なタスクを削除して、モデルのスリミングの効果を実現することもできます。最新の調査によると、マルチタスク学習の利点は速度とビデオメモリにありますが、精度はシングルタスクモデルほど良くないことがよくあります。したがって、HANLPは多くのシングルタスクモデルを前提とし、それらを組み立てるためにエレガントなパイプラインモードを設計しました。
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )その他の機能については、モデルと使用については、デモとドキュメントを参照してください。
どのAPI、開発言語、自然言語であっても、HANLPの出力はjson形式のdict性のあるDocumentに統一されています。
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}特に、Python RestfulとネイティブAPIは、コンソール内の言語構造を直接視覚化できるMonospaceフォントに基づく視覚化をサポートします。
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ ラベルセットの意味については、「言語ラベルの仕様」と「フォーマット仕様」を参照してください。私たちは、共同マルチ言語のマルチタスク学習のために世界最大かつ最も多様なコーパスを購入、マーク、または使用しているため、HANLPの注釈セットも最も広範囲です。
深い学習モデルを書くことはまったく難しくありませんが、難易度はより高い精度を再現することです。次のコードは、Sighan2005 PKUコーパスに6分間費やして、学問の世界を超えた中国語の単語セグメンテーションモデルを訓練する方法を示しています。
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )その中で、乱数シードが指定されているため、結果は96.73なければなりません。誤って宣伝された学術論文や商業プロジェクトとは異なり、HANLPはすべての結果を再現できることを保証します。ご質問がある場合は、最優先事項の致命的なバグとして問題をトラブルシューティングします。
より多くのトレーニングスクリプトについては、デモを参照してください。
| ラング | コーパス | モデル | トーク | Pos | ええと | de | 詐欺 | SRL | SDP | レム | fea | amr | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 大丈夫 | 粗い | CTB | PKU | 863 | ud | PKU | MSRA | ontonotes | semeval16 | DM | パス | PSD | |||||||||
| マル | ud2.7 ontonotes5 | 小さい | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| ベース | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| Zh | 開ける | 小さい | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| ベース | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| 近い | 小さい | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| ベース | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| アーニー | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
HANLPが採用したデータの前処理と分割比は、必ずしも一般的な方法と同じではありません。たとえば、HANLPは、一般に使用される去勢バージョンの代わりに、MSRAという名前のエンティティ認識コーパスのフルバージョンを採用しています。 HANLPは、アカデミックコミュニティが採用したZhang and Clark(2008)の標準ではなく、より広い構文カバレッジでStanford依存関係標準を使用しています。 HANLPは、不均一なアカデミックコミュニティではなく、CTBSの均一なセグメンテーションの方法を提案し、51のゴールド文書を欠いています。 HANLPは、中国のNLPの透明性を促進しようと努力しているコーパス前処理スクリプトと対応するコーパスの完全なセットのソースを開きます。
要するに、HANLPは、私たちが考えるものが正しいと進んでいると思うだけであり、必ずしも人気があり権威あるものではありません。
研究でHANLPを使用している場合は、次の形式で引用してください。
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}HANLPソースコードの承認契約はApacheライセンス2.0であり、商業目的で無料で使用できます。 HANLPのリンクと承認契約を製品の説明に添付してください。 HANLPは著作権法によって保護されており、侵害が追求されます。
HANLPはV1.7とは独立して運営されており、自然セマンティクス(Qingdao)Technology Co.、Ltd。がプロジェクトの本体として運営されており、後続のバージョンの開発をリードし、後続のバージョンの著作権を有しています。
HANLP V1.3〜V1.65バージョンはDakuai Searchによって開発されており、引き続き完全にオープンソースです。 Dakuai Searchには関連する著作権があります。
HANLPは、初期に上海Linyuan Companyによってサポートされ、1.28および以前のバージョンの著作権があります。関連バージョンは、上海リニュアンカンパニーのウェブサイトでもリリースされています。
機械学習モデルの承認は法的に決定されていませんが、オープンソースコーパスの元の承認を尊重する精神では、具体的に述べられていないとしても、HANLPの多言語モデルの認可はCC BY-NC-SA 4.0を使用し続けており、中国モデルの許可は研究と教育の目的のみです。
https://hanlp.hankcs.com/docs/references.html