Unduh HanLP - Unduh Kode Sumber HanLP

Hanlp: Pemrosesan Bahasa Han

Bahasa Inggris | Jepang | Dokumen | Makalah | Forum | Docker | ▶ ️ Jalankan secara online

Perangkat pemrosesan bahasa alami multibahasa untuk lingkungan produksi didasarkan pada mesin ganda Pytorch dan TensorFlow 2.x, dengan tujuan mempopulerkan teknologi NLP yang paling mutakhir. HANLP memiliki karakteristik fungsi lengkap, akurasi yang akurat, kinerja yang efisien, corpus baru, arsitektur yang jelas, dan dapat disesuaikan.

Dengan korpus multibahasa terbesar di dunia, Hanlp2.1 mendukung 10 tugas bersama dan beberapa tugas tunggal dalam 130 bahasa, termasuk tradisional Cina, Cina, Inggris, Jepang, Jepang, Rusia, Prancis dan Jerman. Hanlp pra-kereta puluhan model pada lebih dari selusin tugas dan terus-menerus mengulangi corpus dan model:

Fungsi	Tenang	Multitasking	Tugas tunggal	Model	Standar Pelabelan
Partisip	Tutorial	Tutorial	Tutorial	Tok	Kasar, subdivisi
Bagian dari anotasi ucapan	Tutorial	Tutorial	Tutorial	pos	CTB, PKU, 863
Pengakuan entitas yang disebutkan	Tutorial	Tutorial	Tutorial	ner	PKU, MSRA, Ontonotes
Analisis Sintaks Ketergantungan	Tutorial	Tutorial	Tutorial	dep	SD, UD, PMT
Analisis Sintaks Komponen	Tutorial	Tutorial	Tutorial	menipu	Bank pohon Cina
Analisis ketergantungan semantik	Tutorial	Tutorial	Tutorial	SDP	CSDP
Anotasi peran semantik	Tutorial	Tutorial	Tutorial	srl	Bank Proposisi Cina
Ekspresi makna abstrak	Tutorial	Belum ada	Tutorial	amr	Camr
Mengacu pada pembubaran	Tutorial	Belum ada	Belum ada	Belum ada	Ontonotes
Kesamaan teks semantik	Tutorial	Belum ada	Tutorial	STS	Belum ada
Konversi Gaya Teks	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Ekstraksi frasa kata kunci	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Ringkasan otomatis yang diekstraksi	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Ringkasan Otomatis Generatif	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Koreksi Sintaks Teks	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Klasifikasi Teks	Tutorial	Belum ada	Belum ada	Belum ada	Belum ada
Analisis sentimen	Tutorial	Belum ada	Belum ada	Belum ada	`[-1,+1]`
Deteksi Bahasa	Tutorial	Belum ada	Tutorial	Belum ada	Pengkodean ISO 639-1

Untuk ekstraksi batang dan ekstraksi fitur tata bahasa tata bahasa, silakan merujuk ke tutorial bahasa Inggris; Untuk vektor kata dan pengisian cloze, silakan merujuk ke dokumen yang sesuai.
Untuk konversi Cina yang sederhana dan tradisional, pinyin, penemuan kata baru, dan pengelompokan teks, silakan merujuk ke tutorial 1.x.

Disesuaikan, Hanlp menyediakan dua API: Restful and Native , yang ditujukan untuk dua skenario: ringan dan masif. Terlepas dari API dan bahasa, antarmuka HanLP tetap konsisten secara semantik dan bersikeras pada open source dalam kode. Jika Anda telah menggunakan HANLP dalam penelitian Anda, silakan kutip kertas EMNLP kami.

API RESTful ringan

Hanya beberapa KB, cocok untuk pengembangan gesit, aplikasi seluler, dan skenario lainnya. Sederhana dan mudah digunakan, tidak perlu GPU untuk menginstal, dan dipasang dalam hitungan detik. Lebih banyak korpus, model yang lebih besar, akurasi yang lebih tinggi, sangat disarankan . Daya komputasi GPU server terbatas dan kuota pengguna anonim kecil. Disarankan untuk mengajukan permohonan auth API Kesejahteraan Publik gratis .

Python

pip install hanlp_restful

Buat klien dan isi alamat server dan kunci rahasia:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

Golang

Instal go get -u github.com/hankcs/gohanlp@main , Buat klien, isi alamat server dan kunci rahasia:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

Jawa

Tambahkan dependensi di pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

Buat klien dan isi alamat server dan kunci rahasia:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

Mulailah dengan cepat

Tidak peduli apa pun bahasa pengembangan, hubungi antarmuka parse dan lulus dalam sebuah artikel untuk mendapatkan hasil analisis HanLP yang akurat.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

Untuk fungsi lebih lanjut, silakan merujuk ke dokumentasi dan kasus uji.

API asli besar

Mengandalkan teknologi pembelajaran yang mendalam seperti Pytorch dan TensorFlow, ini cocok untuk insinyur NLP profesional , peneliti, dan skenario data besar -besaran lokal. Membutuhkan Python 3.6 hingga 3.10, mendukung windows, dan *nix direkomendasikan. Dapat dijalankan pada CPU, GPU/TPU direkomendasikan. Instal Versi Pytorch:

pip install hanlp

Hanlp telah lulus uji unit untuk Python 3.6 hingga 3.10 di Linux, MacOS dan Windows setiap kali dirilis, dan tidak ada masalah instalasi.

Model yang dirilis oleh HANLP dibagi menjadi dua jenis: multi-tugas dan tugas tunggal. Kecepatan multi-tugas cepat dan menyimpan memori video, dan akurasi tugas tunggal tinggi dan fleksibel.

Model multitasking

Alur kerja Hanlp adalah memuat model dan kemudian menyebutnya sebagai fungsi, seperti model multitasking bersama berikut:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

Unit input API asli adalah kalimat, dan perlu menggunakan model klausa multibahasa atau fungsi klausa berbasis aturan untuk pra-bagian. Desain semantik dari dua API Restful dan asli benar -benar konsisten, dan pengguna dapat bertukar dengan mulus. Antarmuka sederhana juga mendukung parameter yang fleksibel. Teknik umum meliputi:

Penjadwalan tasks yang fleksibel, semakin sedikit tugas, semakin cepat kecepatannya. Lihat tutorial untuk detailnya. Dalam skenario dengan memori yang terbatas, pengguna juga dapat menghapus tugas yang tidak perlu untuk mencapai efek slimming model.
Untuk Kamus Kustom Tree Tree yang efisien, serta tiga aturan: wajib, gabungan, dan koreksi, silakan merujuk pada demo dan dokumentasi. Efek dari sistem aturan akan diterapkan secara mulus pada model statistik berikutnya, sehingga dengan cepat beradaptasi dengan area baru.

Model tugas tunggal

Menurut penelitian terbaru kami, keunggulan pembelajaran multitask terletak pada kecepatan dan memori video, tetapi akurasinya sering tidak sebagus model tugas tunggal. Jadi, Hanlp pretrain banyak model tugas tunggal dan merancang mode pipa elegan untuk merakitnya.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

Untuk lebih banyak fitur, silakan merujuk ke demo dan dokumentasi untuk lebih banyak model dan penggunaan.

Format output

Tidak peduli apa API, bahasa pengembangan, dan bahasa alami, output Hanlp disatukan menjadi Document kompatibel format json yang dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

Secara khusus, Python Restful dan Native API mendukung visualisasi berdasarkan font monospace, yang dapat secara langsung memvisualisasikan struktur linguistik di konsol:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

Untuk arti dari set label, silakan merujuk ke "spesifikasi pelabelan linguistik" dan "spesifikasi format". Kami telah membeli, ditandai, atau menggunakan korpus terbesar dan paling beragam untuk pembelajaran multi-bahasa bersama, sehingga set anotasi Hanlp juga yang paling luas.

Latih model domain Anda sendiri

Menulis model pembelajaran yang mendalam tidak sulit sama sekali, tetapi kesulitannya adalah mereproduksi tingkat akurasi yang lebih tinggi. Kode berikut menunjukkan cara menghabiskan 6 menit di Sighan2005 PKU Corpus untuk melatih model segmentasi kata Cina yang melampaui dunia akademik.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

Di antara mereka, karena benih bilangan acak ditentukan, hasilnya harus 96.73 . Tidak seperti makalah akademik yang diiklankan secara salah atau proyek komersial, HanLP menjamin bahwa semua hasil dapat direproduksi. Jika Anda memiliki pertanyaan, kami akan memecahkan masalah sebagai bug fatal prioritas tertinggi.

Silakan merujuk ke demo untuk skrip pelatihan lainnya.

pertunjukan

Lang	Korpora	model	Tok		pos				ner			dep	menipu	srl	SDP				Lem	fea	amr
Lang	Korpora	model	Bagus	Kasar	CTB	PKU	863	ud	PKU	MSRA	Ontonotes	dep	menipu	srl	Semeval16	DM	Pas	Psd	Lem	fea	amr
MUL	UD2.7 Ontonotes5	Kecil	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
MUL	UD2.7 Ontonotes5	basis	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
ZH	membuka	Kecil	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	membuka	basis	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	Menutup	Kecil	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		basis	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		Ernie	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

Menurut penelitian terbaru kami, pembelajaran tugas tunggal cenderung mengungguli pembelajaran multi-tugas. Jika Anda peduli dengan akurasi lebih dari kecepatan, disarankan untuk menggunakan model tugas tunggal.

Rasio preprocessing dan pemisahan data yang diadopsi oleh HANLP tidak harus sama dengan metode populer. Misalnya, Hanlp mengadopsi versi lengkap dari MSRA bernama Entity Recognition Corpus alih -alih versi yang dikeluarkan yang digunakan oleh publik; Hanlp menggunakan standar dependensi Stanford dengan cakupan sintaks yang lebih luas, daripada standar Zhang dan Clark (2008) yang diadopsi oleh komunitas akademik; Hanlp mengusulkan metode segmentasi CTB yang seragam alih -alih komunitas akademik yang tidak rata dan kehilangan 51 dokumen emas. HanLP membuka sumber set lengkap skrip preprocessing corpus dan korpus yang sesuai, berusaha untuk mempromosikan transparansi NLP Cina.

Singkatnya, Hanlp hanya melakukan apa yang kita pikir benar dan canggih, tidak harus apa yang populer dan otoritatif.

Mengutip

Jika Anda menggunakan HANLP dalam riset Anda, silakan mengutipnya dalam format berikut:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

Lisensi

Kode Sumber

Perjanjian Otorisasi untuk Kode Sumber HANLP adalah Lisensi Apache 2.0 , yang dapat digunakan untuk tujuan komersial secara gratis. Harap lampirkan tautan dan perjanjian otorisasi Hanlp ke deskripsi produk. Hanlp dilindungi oleh hukum hak cipta dan pelanggaran akan dikejar.

Natural Semantik (Qingdao) Technology Co., Ltd.

Hanlp beroperasi secara independen dari V1.7, dengan Teknologi Semantik Alami (Qingdao) Co., Ltd. sebagai badan utama proyek, memimpin pengembangan versi selanjutnya dan memiliki hak cipta versi selanjutnya.

Cari dengan cepat

Versi Hanlp v1.3 ~ v1.65 dikembangkan oleh Dakuai Search dan terus menjadi sumber terbuka sepenuhnya. Pencarian Dakuai memiliki hak cipta yang relevan.

Perusahaan Linyuan Shanghai

Hanlp didukung oleh Shanghai Linyuan Company pada hari -hari awal dan memiliki hak cipta dari 1,28 dan versi sebelumnya. Versi yang relevan juga telah dirilis di situs web Shanghai Linyuan Company.

Model pra-terlatih

Otorisasi model pembelajaran mesin tidak ditentukan secara hukum, tetapi dalam semangat menghormati otorisasi asli corpus open source, jika tidak secara khusus dinyatakan, otorisasi model multibahasa Hanlp terus menggunakan CC oleh-NC-SA 4.0, dan otorisasi model Cina hanya untuk tujuan penelitian dan pengajaran.

Referensi

https://hanlp.hankcs.com/docs/references.html

Memperluas

HanLP

Hanlp: Pemrosesan Bahasa Han

Bahasa Inggris | Jepang | Dokumen | Makalah | Forum | Docker | ▶ ️ Jalankan secara online

API RESTful ringan

Python

Golang

Jawa

Mulailah dengan cepat

API asli besar

Model multitasking

Model tugas tunggal

Format output

Latih model domain Anda sendiri

pertunjukan

Mengutip

Lisensi

Kode Sumber

Natural Semantik (Qingdao) Technology Co., Ltd.

Cari dengan cepat

Perusahaan Linyuan Shanghai

Model pra-terlatih

Referensi

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express