
Perangkat pemrosesan bahasa alami multibahasa untuk lingkungan produksi didasarkan pada mesin ganda Pytorch dan TensorFlow 2.x, dengan tujuan mempopulerkan teknologi NLP yang paling mutakhir. HANLP memiliki karakteristik fungsi lengkap, akurasi yang akurat, kinerja yang efisien, corpus baru, arsitektur yang jelas, dan dapat disesuaikan.
Dengan korpus multibahasa terbesar di dunia, Hanlp2.1 mendukung 10 tugas bersama dan beberapa tugas tunggal dalam 130 bahasa, termasuk tradisional Cina, Cina, Inggris, Jepang, Jepang, Rusia, Prancis dan Jerman. Hanlp pra-kereta puluhan model pada lebih dari selusin tugas dan terus-menerus mengulangi corpus dan model:
| Fungsi | Tenang | Multitasking | Tugas tunggal | Model | Standar Pelabelan |
|---|---|---|---|---|---|
| Partisip | Tutorial | Tutorial | Tutorial | Tok | Kasar, subdivisi |
| Bagian dari anotasi ucapan | Tutorial | Tutorial | Tutorial | pos | CTB, PKU, 863 |
| Pengakuan entitas yang disebutkan | Tutorial | Tutorial | Tutorial | ner | PKU, MSRA, Ontonotes |
| Analisis Sintaks Ketergantungan | Tutorial | Tutorial | Tutorial | dep | SD, UD, PMT |
| Analisis Sintaks Komponen | Tutorial | Tutorial | Tutorial | menipu | Bank pohon Cina |
| Analisis ketergantungan semantik | Tutorial | Tutorial | Tutorial | SDP | CSDP |
| Anotasi peran semantik | Tutorial | Tutorial | Tutorial | srl | Bank Proposisi Cina |
| Ekspresi makna abstrak | Tutorial | Belum ada | Tutorial | amr | Camr |
| Mengacu pada pembubaran | Tutorial | Belum ada | Belum ada | Belum ada | Ontonotes |
| Kesamaan teks semantik | Tutorial | Belum ada | Tutorial | STS | Belum ada |
| Konversi Gaya Teks | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Ekstraksi frasa kata kunci | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Ringkasan otomatis yang diekstraksi | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Ringkasan Otomatis Generatif | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Koreksi Sintaks Teks | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Klasifikasi Teks | Tutorial | Belum ada | Belum ada | Belum ada | Belum ada |
| Analisis sentimen | Tutorial | Belum ada | Belum ada | Belum ada | [-1,+1] |
| Deteksi Bahasa | Tutorial | Belum ada | Tutorial | Belum ada | Pengkodean ISO 639-1 |
Disesuaikan, Hanlp menyediakan dua API: Restful and Native , yang ditujukan untuk dua skenario: ringan dan masif. Terlepas dari API dan bahasa, antarmuka HanLP tetap konsisten secara semantik dan bersikeras pada open source dalam kode. Jika Anda telah menggunakan HANLP dalam penelitian Anda, silakan kutip kertas EMNLP kami.
Hanya beberapa KB, cocok untuk pengembangan gesit, aplikasi seluler, dan skenario lainnya. Sederhana dan mudah digunakan, tidak perlu GPU untuk menginstal, dan dipasang dalam hitungan detik. Lebih banyak korpus, model yang lebih besar, akurasi yang lebih tinggi, sangat disarankan . Daya komputasi GPU server terbatas dan kuota pengguna anonim kecil. Disarankan untuk mengajukan permohonan auth API Kesejahteraan Publik gratis .
pip install hanlp_restfulBuat klien dan isi alamat server dan kunci rahasia:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 Instal go get -u github.com/hankcs/gohanlp@main , Buat klien, isi alamat server dan kunci rahasia:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 Tambahkan dependensi di pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >Buat klien dan isi alamat server dan kunci rahasia:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 Tidak peduli apa pun bahasa pengembangan, hubungi antarmuka parse dan lulus dalam sebuah artikel untuk mendapatkan hasil analisis HanLP yang akurat.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )Untuk fungsi lebih lanjut, silakan merujuk ke dokumentasi dan kasus uji.
Mengandalkan teknologi pembelajaran yang mendalam seperti Pytorch dan TensorFlow, ini cocok untuk insinyur NLP profesional , peneliti, dan skenario data besar -besaran lokal. Membutuhkan Python 3.6 hingga 3.10, mendukung windows, dan *nix direkomendasikan. Dapat dijalankan pada CPU, GPU/TPU direkomendasikan. Instal Versi Pytorch:
pip install hanlpModel yang dirilis oleh HANLP dibagi menjadi dua jenis: multi-tugas dan tugas tunggal. Kecepatan multi-tugas cepat dan menyimpan memori video, dan akurasi tugas tunggal tinggi dan fleksibel.
Alur kerja Hanlp adalah memuat model dan kemudian menyebutnya sebagai fungsi, seperti model multitasking bersama berikut:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])Unit input API asli adalah kalimat, dan perlu menggunakan model klausa multibahasa atau fungsi klausa berbasis aturan untuk pra-bagian. Desain semantik dari dua API Restful dan asli benar -benar konsisten, dan pengguna dapat bertukar dengan mulus. Antarmuka sederhana juga mendukung parameter yang fleksibel. Teknik umum meliputi:
tasks yang fleksibel, semakin sedikit tugas, semakin cepat kecepatannya. Lihat tutorial untuk detailnya. Dalam skenario dengan memori yang terbatas, pengguna juga dapat menghapus tugas yang tidak perlu untuk mencapai efek slimming model.Menurut penelitian terbaru kami, keunggulan pembelajaran multitask terletak pada kecepatan dan memori video, tetapi akurasinya sering tidak sebagus model tugas tunggal. Jadi, Hanlp pretrain banyak model tugas tunggal dan merancang mode pipa elegan untuk merakitnya.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )Untuk lebih banyak fitur, silakan merujuk ke demo dan dokumentasi untuk lebih banyak model dan penggunaan.
Tidak peduli apa API, bahasa pengembangan, dan bahasa alami, output Hanlp disatukan menjadi Document kompatibel format json yang dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}Secara khusus, Python Restful dan Native API mendukung visualisasi berdasarkan font monospace, yang dapat secara langsung memvisualisasikan struktur linguistik di konsol:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ Untuk arti dari set label, silakan merujuk ke "spesifikasi pelabelan linguistik" dan "spesifikasi format". Kami telah membeli, ditandai, atau menggunakan korpus terbesar dan paling beragam untuk pembelajaran multi-bahasa bersama, sehingga set anotasi Hanlp juga yang paling luas.
Menulis model pembelajaran yang mendalam tidak sulit sama sekali, tetapi kesulitannya adalah mereproduksi tingkat akurasi yang lebih tinggi. Kode berikut menunjukkan cara menghabiskan 6 menit di Sighan2005 PKU Corpus untuk melatih model segmentasi kata Cina yang melampaui dunia akademik.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) Di antara mereka, karena benih bilangan acak ditentukan, hasilnya harus 96.73 . Tidak seperti makalah akademik yang diiklankan secara salah atau proyek komersial, HanLP menjamin bahwa semua hasil dapat direproduksi. Jika Anda memiliki pertanyaan, kami akan memecahkan masalah sebagai bug fatal prioritas tertinggi.
Silakan merujuk ke demo untuk skrip pelatihan lainnya.
| Lang | Korpora | model | Tok | pos | ner | dep | menipu | srl | SDP | Lem | fea | amr | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Bagus | Kasar | CTB | PKU | 863 | ud | PKU | MSRA | Ontonotes | Semeval16 | DM | Pas | Psd | |||||||||
| MUL | UD2.7 Ontonotes5 | Kecil | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| basis | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| ZH | membuka | Kecil | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| basis | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| Menutup | Kecil | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| basis | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| Ernie | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
Rasio preprocessing dan pemisahan data yang diadopsi oleh HANLP tidak harus sama dengan metode populer. Misalnya, Hanlp mengadopsi versi lengkap dari MSRA bernama Entity Recognition Corpus alih -alih versi yang dikeluarkan yang digunakan oleh publik; Hanlp menggunakan standar dependensi Stanford dengan cakupan sintaks yang lebih luas, daripada standar Zhang dan Clark (2008) yang diadopsi oleh komunitas akademik; Hanlp mengusulkan metode segmentasi CTB yang seragam alih -alih komunitas akademik yang tidak rata dan kehilangan 51 dokumen emas. HanLP membuka sumber set lengkap skrip preprocessing corpus dan korpus yang sesuai, berusaha untuk mempromosikan transparansi NLP Cina.
Singkatnya, Hanlp hanya melakukan apa yang kita pikir benar dan canggih, tidak harus apa yang populer dan otoritatif.
Jika Anda menggunakan HANLP dalam riset Anda, silakan mengutipnya dalam format berikut:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}Perjanjian Otorisasi untuk Kode Sumber HANLP adalah Lisensi Apache 2.0 , yang dapat digunakan untuk tujuan komersial secara gratis. Harap lampirkan tautan dan perjanjian otorisasi Hanlp ke deskripsi produk. Hanlp dilindungi oleh hukum hak cipta dan pelanggaran akan dikejar.
Hanlp beroperasi secara independen dari V1.7, dengan Teknologi Semantik Alami (Qingdao) Co., Ltd. sebagai badan utama proyek, memimpin pengembangan versi selanjutnya dan memiliki hak cipta versi selanjutnya.
Versi Hanlp v1.3 ~ v1.65 dikembangkan oleh Dakuai Search dan terus menjadi sumber terbuka sepenuhnya. Pencarian Dakuai memiliki hak cipta yang relevan.
Hanlp didukung oleh Shanghai Linyuan Company pada hari -hari awal dan memiliki hak cipta dari 1,28 dan versi sebelumnya. Versi yang relevan juga telah dirilis di situs web Shanghai Linyuan Company.
Otorisasi model pembelajaran mesin tidak ditentukan secara hukum, tetapi dalam semangat menghormati otorisasi asli corpus open source, jika tidak secara khusus dinyatakan, otorisasi model multibahasa Hanlp terus menggunakan CC oleh-NC-SA 4.0, dan otorisasi model Cina hanya untuk tujuan penelitian dan pengajaran.
https://hanlp.hankcs.com/docs/references.html