HanLPダウンロードHanLPソースコードのダウンロード

HANLP：HAN言語処理

英語|日本語|ドキュメント|論文|フォーラム| Docker | ▶️オンラインで実行します

生産環境向けの多言語自然言語処理ツールキットは、最も最先端のNLPテクノロジーを普及させることを目的とした、PytorchおよびTensorflow 2.xデュアルエンジンに基づいています。 HANLPには、完全な機能、正確な精度、効率的なパフォーマンス、新しいコーパス、クリアアーキテクチャ、カスタマイズ可能な特性があります。

世界最大の多言語コーパスを備えたHANLP2.1は、伝統的な中国語、中国語、英語、日本語、日本語、ロシア語、フランス語、ドイツ語を含む130の言語で、10の共同タスクと複数の単一タスクをサポートしています。 HANLPは、1ダース以上のタスクで多数のモデルをプレインしており、コーパスとモデルを継続的に繰り返しています。

関数	安らかな	マルチタスク	単一のタスク	モデル	ラベリング基準
分詞	チュートリアル	チュートリアル	チュートリアル	トーク	粗い、区画
音声注釈の一部	チュートリアル	チュートリアル	チュートリアル	Pos	CTB、PKU、863
名前付きエンティティ認識	チュートリアル	チュートリアル	チュートリアル	ええと	PKU、MSRA、ONTONOTES
依存性構文分析	チュートリアル	チュートリアル	チュートリアル	de	SD、UD、PMT
コンポーネント構文分析	チュートリアル	チュートリアル	チュートリアル	詐欺	中国のツリーバンク
セマンティック依存関係分析	チュートリアル	チュートリアル	チュートリアル	SDP	CSDP
セマンティックロール注釈	チュートリアル	チュートリアル	チュートリアル	SRL	中国の提案銀行
抽象的な意味表現	チュートリアル	まだありません	チュートリアル	amr	camr
解散を指します	チュートリアル	まだありません	まだありません	まだありません	ontonotes
セマンティックテキストの類似性	チュートリアル	まだありません	チュートリアル	sts	まだありません
テキストスタイルの変換	チュートリアル	まだありません	まだありません	まだありません	まだありません
キーワードフレーズ抽出	チュートリアル	まだありません	まだありません	まだありません	まだありません
抽出された自動概要	チュートリアル	まだありません	まだありません	まだありません	まだありません
生成自動概要	チュートリアル	まだありません	まだありません	まだありません	まだありません
テキスト構文補正	チュートリアル	まだありません	まだありません	まだありません	まだありません
テキスト分類	チュートリアル	まだありません	まだありません	まだありません	まだありません
感情分析	チュートリアル	まだありません	まだありません	まだありません	`[-1,+1]`
言語検出	チュートリアル	まだありません	チュートリアル	まだありません	ISO 639-1エンコーディング

STEM抽出および文法文法特徴の抽出については、英語のチュートリアルを参照してください。単語ベクトルとクローズ充填については、対応するドキュメントを参照してください。
シンプルで伝統的な中国の変換、Pinyin、新しい単語の発見、テキストクラスタリングについては、1.xチュートリアルを参照してください。

テーラードされたHANLPは、2つのAPIを提供します。安らかでネイティブで、2つのシナリオを対象としています。 APIと言語に関係なく、HANLPインターフェイスは意味的に一貫性があり、コードのオープンソースを主張しています。研究でHANLPを使用している場合は、EMNLPペーパーを引用してください。

軽量のRESTFUL API

アジャイル開発、モバイルアプリ、その他のシナリオに適したKBSのみ。シンプルで使いやすく、GPUがインストールする必要はなく、数秒でインストールされます。より多くのコーパス、より大きなモデル、より高い精度、強くお勧めします。サーバーGPUコンピューティングパワーは限られており、匿名のユーザークォータは小さいです。無料の公共福祉API Key authを申請することをお勧めします。

Python

pip install hanlp_restful

クライアントを作成し、サーバーアドレスとシークレットキーに入力します。

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

ゴラン

インストールgo get -u github.com/hankcs/gohanlp@main 、クライアントを作成し、サーバーアドレスとシークレットキーに入力してください。

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Java

pom.xmlに依存関係を追加：

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

クライアントを作成し、サーバーアドレスとシークレットキーに入力します。

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

すぐに始めましょう

どの開発言語に関係なく、 parseインターフェイスを呼び出して記事に渡して、HANLPの正確な分析結果を取得します。

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

その他の機能については、ドキュメントとテストのケースを参照してください。

巨大なネイティブAPI

PytorchやTensorflowなどの深い学習技術に依存すると、プロのNLPエンジニア、研究者、地元の大規模なデータシナリオに適しています。 Python 3.6から3.10が必要であり、Windowsをサポートし、 *nixが推奨されます。 CPUで実行できます。GPU/TPUをお勧めします。 Pytorchバージョンをインストールします。

pip install hanlp

HANLPは、Linux、MacOS、WindowsでPython 3.6から3.10の単体テストに合格し、リリースするたびに、インストールの問題はありません。

HANLPによってリリースされたモデルは、マルチタスクとシングルタスクの2つのタイプに分かれています。マルチタスク速度は高速でビデオメモリを保存し、シングルタスクの精度は高く柔軟です。

マルチタスクモデル

HANLPのワークフローは、モデルをロードしてから、次のジョイントマルチタスクモデルなどの関数として呼び出すことです。

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

ネイティブAPIの入力ユニットは文であり、多言語節モデルまたはルールベースの句関数を事前セクションに使用する必要があります。 2つのAPIのセマンティックデザインは、Restfulとネイティブのセマンティックデザインが完全に一貫しており、ユーザーはシームレスに交換できます。シンプルなインターフェイスは、柔軟なパラメーターもサポートしています。一般的な手法は次のとおりです。

柔軟なtasksスケジューリング、タスクが少なく、速度が速くなります。詳細については、チュートリアルを参照してください。メモリが限られているシナリオでは、ユーザーは不要なタスクを削除して、モデルのスリミングの効果を実現することもできます。
効率的なTrie Treeカスタム辞書と3つのルールについては、必須、マージ、および修正するには、デモとドキュメントを参照してください。ルールシステムの効果は、後続の統計モデルにシームレスに適用されるため、新しい領域に迅速に適応します。

単一タスクモデル

最新の調査によると、マルチタスク学習の利点は速度とビデオメモリにありますが、精度はシングルタスクモデルほど良くないことがよくあります。したがって、HANLPは多くのシングルタスクモデルを前提とし、それらを組み立てるためにエレガントなパイプラインモードを設計しました。

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

その他の機能については、モデルと使用については、デモとドキュメントを参照してください。

出力形式

どのAPI、開発言語、自然言語であっても、HANLPの出力はjson形式のdict性のあるDocumentに統一されています。

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

特に、Python RestfulとネイティブAPIは、コンソール内の言語構造を直接視覚化できるMonospaceフォントに基づく視覚化をサポートします。

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

ラベルセットの意味については、「言語ラベルの仕様」と「フォーマット仕様」を参照してください。私たちは、共同マルチ言語のマルチタスク学習のために世界最大かつ最も多様なコーパスを購入、マーク、または使用しているため、HANLPの注釈セットも最も広範囲です。

独自のドメインモデルをトレーニングします

深い学習モデルを書くことはまったく難しくありませんが、難易度はより高い精度を再現することです。次のコードは、Sighan2005 PKUコーパスに6分間費やして、学問の世界を超えた中国語の単語セグメンテーションモデルを訓練する方法を示しています。

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

その中で、乱数シードが指定されているため、結果は96.73なければなりません。誤って宣伝された学術論文や商業プロジェクトとは異なり、HANLPはすべての結果を再現できることを保証します。ご質問がある場合は、最優先事項の致命的なバグとして問題をトラブルシューティングします。

より多くのトレーニングスクリプトについては、デモを参照してください。

パフォーマンス

ラング	コーパス	モデル	トーク		Pos				ええと			de	詐欺	SRL	SDP				レム	fea	amr
ラング	コーパス	モデル	大丈夫	粗い	CTB	PKU	863	ud	PKU	MSRA	ontonotes	de	詐欺	SRL	semeval16	DM	パス	PSD	レム	fea	amr
マル	ud2.7 ontonotes5	小さい	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
マル	ud2.7 ontonotes5	ベース	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
Zh	開ける	小さい	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	開ける	ベース	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	近い	小さい	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		ベース	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		アーニー	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

私たちの最新の調査によると、シングルタスク学習はマルチタスク学習よりも優れている傾向があります。速度を超える精度を気にする場合は、シングルタスクモデルを使用することをお勧めします。

HANLPが採用したデータの前処理と分割比は、必ずしも一般的な方法と同じではありません。たとえば、HANLPは、一般に使用される去勢バージョンの代わりに、MSRAという名前のエンティティ認識コーパスのフルバージョンを採用しています。 HANLPは、アカデミックコミュニティが採用したZhang and Clark（2008）の標準ではなく、より広い構文カバレッジでStanford依存関係標準を使用しています。 HANLPは、不均一なアカデミックコミュニティではなく、CTBSの均一なセグメンテーションの方法を提案し、51のゴールド文書を欠いています。 HANLPは、中国のNLPの透明性を促進しようと努力しているコーパス前処理スクリプトと対応するコーパスの完全なセットのソースを開きます。

要するに、HANLPは、私たちが考えるものが正しいと進んでいると思うだけであり、必ずしも人気があり権威あるものではありません。

引用

研究でHANLPを使用している場合は、次の形式で引用してください。

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

ライセンス

ソースコード

HANLPソースコードの承認契約はApacheライセンス2.0であり、商業目的で無料で使用できます。 HANLPのリンクと承認契約を製品の説明に添付してください。 HANLPは著作権法によって保護されており、侵害が追求されます。

Natural Semantics（Qingdao）Technology Co.、Ltd。

HANLPはV1.7とは独立して運営されており、自然セマンティクス（Qingdao）Technology Co.、Ltd。がプロジェクトの本体として運営されており、後続のバージョンの開発をリードし、後続のバージョンの著作権を有しています。

すぐに検索します

HANLP V1.3〜V1.65バージョンはDakuai Searchによって開発されており、引き続き完全にオープンソースです。 Dakuai Searchには関連する著作権があります。

上海リチュアンカンパニー

HANLPは、初期に上海Linyuan Companyによってサポートされ、1.28および以前のバージョンの著作権があります。関連バージョンは、上海リニュアンカンパニーのウェブサイトでもリリースされています。

事前に訓練されたモデル

機械学習モデルの承認は法的に決定されていませんが、オープンソースコーパスの元の承認を尊重する精神では、具体的に述べられていないとしても、HANLPの多言語モデルの認可はCC BY-NC-SA 4.0を使用し続けており、中国モデルの許可は研究と教育の目的のみです。

参照

https://hanlp.hankcs.com/docs/references.html

拡大する

HanLP

HANLP：HAN言語処理

英語|日本語|ドキュメント|論文|フォーラム| Docker | ▶️オンラインで実行します

軽量のRESTFUL API

Python

ゴラン

Java

すぐに始めましょう

巨大なネイティブAPI

マルチタスクモデル

単一タスクモデル

出力形式

独自のドメインモデルをトレーニングします

パフォーマンス

引用

ライセンス

ソースコード

Natural Semantics（Qingdao）Technology Co.、Ltd。

すぐに検索します

上海リチュアンカンパニー

事前に訓練されたモデル

参照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express