
ชุดเครื่องมือประมวลผลภาษาธรรมชาติหลายภาษาสำหรับสภาพแวดล้อมการผลิตขึ้นอยู่กับเครื่องยนต์คู่ Pytorch และ Tensorflow 2.x โดยมีเป้าหมายในการสร้างความนิยมเทคโนโลยี NLP ที่ทันสมัยที่สุด HANLP มีลักษณะของฟังก์ชั่นที่สมบูรณ์ความถูกต้องแม่นยำประสิทธิภาพที่มีประสิทธิภาพคลังข้อมูลใหม่สถาปัตยกรรมที่ชัดเจนและปรับแต่งได้
ด้วยคลังข้อมูลหลายภาษาที่ใหญ่ที่สุดในโลก Hanlp2.1 สนับสนุนงานร่วม 10 งานและงานเดียวใน 130 ภาษารวมถึงจีนดั้งเดิมจีนอังกฤษญี่ปุ่นญี่ปุ่นรัสเซียฝรั่งเศสและเยอรมัน HANLP pre-trains หลายสิบรุ่นในงานมากกว่าหนึ่งโหลและกำลังวนซ้ำคลังข้อมูลและรุ่นอย่างต่อเนื่อง:
| การทำงาน | สงบ | การทำงานหลายอย่าง | งานเดี่ยว | แบบอย่าง | มาตรฐานการติดฉลาก |
|---|---|---|---|---|---|
| คำกริยา | การสอน | การสอน | การสอน | โทก | การแบ่งย่อย |
| ส่วนหนึ่งของคำอธิบายประกอบการพูด | การสอน | การสอน | การสอน | POS | CTB, PKU, 863 |
| การจดจำเอนทิตีชื่อ | การสอน | การสอน | การสอน | คนโง่ | PKU, MSRA, Ontonotes |
| การวิเคราะห์ไวยากรณ์การพึ่งพาอาศัยกัน | การสอน | การสอน | การสอน | ส่วนที่ | SD, UD, PMT |
| การวิเคราะห์ไวยากรณ์ส่วนประกอบ | การสอน | การสอน | การสอน | คอน | ธนาคารต้นไม้จีน |
| การวิเคราะห์การพึ่งพาความหมาย | การสอน | การสอน | การสอน | SDP | CSDP |
| คำอธิบายประกอบบทบาทความหมาย | การสอน | การสอน | การสอน | SRL | ธนาคารข้อเสนอจีน |
| การแสดงออกทางนามธรรมความหมาย | การสอน | ยังไม่มี | การสอน | AMR | Camr |
| หมายถึงการสลายตัว | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ontonotes |
| ความคล้ายคลึงกันของข้อความความหมาย | การสอน | ยังไม่มี | การสอน | STS | ยังไม่มี |
| การแปลงสไตล์ข้อความ | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| การสกัดวลีคำหลัก | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| สรุปโดยอัตโนมัติ | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| สรุปอัตโนมัติทั่วไป | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| การแก้ไขไวยากรณ์ข้อความ | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| การจำแนกข้อความ | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | ยังไม่มี |
| การวิเคราะห์ความเชื่อมั่น | การสอน | ยังไม่มี | ยังไม่มี | ยังไม่มี | [-1,+1] |
| การตรวจจับภาษา | การสอน | ยังไม่มี | การสอน | ยังไม่มี | การเข้ารหัส ISO 639-1 |
HANLP ได้รับการปรับแต่งให้มี API สองตัว: พักผ่อน และ พื้นเมือง ซึ่งมุ่งเป้าไปที่สองสถานการณ์: น้ำหนักเบาและใหญ่ โดยไม่คำนึงถึง API และภาษาอินเทอร์เฟซ HANLP ยังคงมีความสอดคล้องเชิงความหมายและยืนยันในโอเพ่นซอร์สในรหัส หากคุณใช้ HANLP ในการวิจัยของคุณโปรดอ้างอิงกระดาษ EMNLP ของเรา
มีเพียงไม่กี่ kbs ที่เหมาะสำหรับการพัฒนา Agile แอพมือถือและสถานการณ์อื่น ๆ ใช้งานง่ายและใช้งานง่ายไม่จำเป็นต้องติดตั้ง GPU และติดตั้งในไม่กี่วินาที คลังข้อมูลเพิ่มเติมรุ่นที่มีขนาดใหญ่กว่าความแม่นยำที่สูงขึ้น แนะนำเป็นอย่างยิ่ง พลังการคำนวณ GPU ของเซิร์ฟเวอร์มี จำกัด และโควต้าผู้ใช้ที่ไม่ระบุชื่อมีขนาดเล็ก ขอแนะนำให้สมัคร API API auth ของสวัสดิการสาธารณะฟรี
pip install hanlp_restfulสร้างไคลเอนต์และกรอกที่อยู่เซิร์ฟเวอร์และคีย์ลับ:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 ติดตั้ง go get -u github.com/hankcs/gohanlp@main สร้างไคลเอนต์กรอกข้อมูลในที่อยู่เซิร์ฟเวอร์และรหัสลับ:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 เพิ่มการพึ่งพาใน pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >สร้างไคลเอนต์และกรอกที่อยู่เซิร์ฟเวอร์และคีย์ลับ:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 ไม่ว่าจะเป็นภาษาการพัฒนาใดก็ตามให้เรียกอินเทอร์เฟซแยก parse และส่งผ่านในบทความเพื่อให้ได้ผลการวิเคราะห์ที่ถูกต้องของ HANLP
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )สำหรับฟังก์ชั่นเพิ่มเติมโปรดดูเอกสารและกรณีทดสอบ
อาศัยเทคโนโลยีการเรียนรู้อย่างลึกซึ้งเช่น Pytorch และ Tensorflow เหมาะสำหรับวิศวกร NLP มืออาชีพ นักวิจัยและสถานการณ์ข้อมูลขนาดใหญ่ในท้องถิ่น ต้องใช้ Python 3.6 ถึง 3.10 รองรับ Windows และ *แนะนำให้ใช้ *Nix แนะนำให้ทำงานบน CPU, GPU/TPU ติดตั้งเวอร์ชัน pytorch:
pip install hanlpโมเดลที่ปล่อยโดย HANLP แบ่งออกเป็นสองประเภท: Multi-Task และ Single-Task ความเร็วหลายงานทำงานเร็วและบันทึกหน่วยความจำวิดีโอและความแม่นยำในการทำงานเดี่ยวสูงและยืดหยุ่น
เวิร์กโฟลว์ของ Hanlp คือการโหลดโมเดลแล้วเรียกมันว่าเป็นฟังก์ชั่นเช่นโมเดลมัลติทาสกิ้งร่วมต่อไปนี้:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])หน่วยอินพุตของ API ดั้งเดิมเป็นประโยคและจำเป็นต้องใช้โมเดลประโยคหลายภาษาหรือฟังก์ชันประโยคตามกฎในการเตรียมการก่อน การออกแบบความหมายของ API ทั้งสอง RESTFUL และ NATION นั้นสอดคล้องกันอย่างสมบูรณ์และผู้ใช้สามารถแลกเปลี่ยนได้อย่างราบรื่น อินเทอร์เฟซที่เรียบง่ายยังรองรับพารามิเตอร์ที่ยืดหยุ่น เทคนิคทั่วไป ได้แก่ :
tasks ที่ยืดหยุ่นยิ่งงานน้อยลงความเร็วเร็วขึ้นเท่านั้น ดูรายละเอียดการสอน ในสถานการณ์ที่มีหน่วยความจำที่ จำกัด ผู้ใช้ยังสามารถลบงานที่ไม่จำเป็นเพื่อให้ได้ผลของการลดขนาดของโมเดลจากการวิจัยล่าสุดของเราข้อดีของการเรียนรู้มัลติทาสก์นั้นอยู่ในความเร็วและหน่วยความจำวิดีโอ แต่ความแม่นยำมักจะไม่ดีเท่าโมเดลงานเดียว ดังนั้น HANLP จึงได้ปรับรุ่นงานเดี่ยวหลายรุ่นและออกแบบโหมดไปป์ไลน์ที่สง่างามเพื่อประกอบพวกเขา
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )สำหรับคุณสมบัติเพิ่มเติมโปรดดูการสาธิตและเอกสารประกอบสำหรับรุ่นและการใช้งานเพิ่มเติม
ไม่ว่า API ภาษาการพัฒนาและภาษาธรรมชาติจะเป็นอย่างไรผลลัพธ์ของ HANLP จะรวมอยู่ใน Document ที่เข้ากันได้กับรูปแบบ json ที่เป็น dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}โดยเฉพาะอย่างยิ่ง Python Restful และ API พื้นเมืองสนับสนุนการสร้างภาพข้อมูลตามแบบอักษร monospace ซึ่งสามารถมองเห็นโครงสร้างภาษาศาสตร์โดยตรงในคอนโซล:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ สำหรับความหมายของชุดฉลากโปรดดูที่ "ข้อกำหนดการติดฉลากภาษาศาสตร์" และ "ข้อกำหนดรูปแบบ" เราได้ซื้อทำเครื่องหมายหรือใช้คลังข้อมูลที่ใหญ่ที่สุดและหลากหลายที่สุดในโลกสำหรับการเรียนรู้หลายภาษาหลายภาษาร่วมกันดังนั้นชุดคำอธิบายประกอบของ HANLP จึงครอบคลุมมากที่สุดเช่นกัน
การเขียนแบบจำลองการเรียนรู้อย่างลึกซึ้งนั้นไม่ยากเลย แต่ความยากลำบากคือการทำซ้ำอัตราความแม่นยำที่สูงขึ้น รหัสต่อไปนี้แสดงวิธีใช้เวลา 6 นาทีใน Corpus Sighan2005 PKU เพื่อฝึกอบรมรูปแบบการแบ่งส่วนคำภาษาจีนที่นอกเหนือไปจากโลกวิชาการ
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) ในหมู่พวกเขาเนื่องจากมีการระบุเมล็ดจำนวนสุ่มผลลัพธ์จะต้องเป็น 96.73 ซึ่งแตกต่างจากเอกสารทางวิชาการที่โฆษณาอย่างเท็จหรือโครงการเชิงพาณิชย์ HANLP รับประกันว่าผลลัพธ์ทั้งหมดสามารถทำซ้ำได้ หากคุณมีคำถามใด ๆ เราจะแก้ไขปัญหาเป็นข้อผิดพลาดที่สำคัญที่สุด
โปรดดูตัวอย่างสำหรับสคริปต์การฝึกอบรมเพิ่มเติม
| หรั่ง | บริษัท | แบบอย่าง | โทก | POS | คนโง่ | ส่วนที่ | คอน | SRL | SDP | เลม | การกิน | AMR | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ดี | หยาบ | CTB | PKU | 863 | UD | PKU | MSRA | ontonotes | Semeval16 | DM | ลูกปลา | ป.ล. | |||||||||
| มูล | UD2.7 ontonotes5 | เล็ก | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| ฐาน | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| zh | เปิด | เล็ก | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| ฐาน | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| ปิด | เล็ก | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| ฐาน | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| เออร์นี่ | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
การประมวลผลข้อมูลล่วงหน้าและอัตราส่วนการแยกที่ใช้โดย HANLP ไม่จำเป็นต้องเหมือนกับวิธีการที่เป็นที่นิยม ตัวอย่างเช่น HANLP ใช้เวอร์ชันเต็มของ MSRA ชื่อ Corpus Recognition Entity แทนที่จะเป็นรุ่นตอนที่ใช้โดยสาธารณะ HANLP ใช้มาตรฐานการพึ่งพาสแตนฟอร์ดกับการครอบคลุมไวยากรณ์ที่กว้างขึ้นมากกว่ามาตรฐานจางและคลาร์ก (2008) ที่ชุมชนวิชาการนำมาใช้ HANLP เสนอวิธีการแบ่งส่วนที่สม่ำเสมอของ CTBs แทนชุมชนวิชาการที่ไม่สม่ำเสมอและหายไป 51 เอกสารทองคำ HANLP เปิดแหล่งที่มาของชุดสคริปต์การประมวลผลล่วงหน้าของคลังข้อมูลและคลังข้อมูลที่สอดคล้องกันโดยมุ่งมั่นที่จะส่งเสริมความโปร่งใสของ NLP จีน
ในระยะสั้น HANLP ทำในสิ่งที่เราคิดว่าถูกต้องและก้าวหน้าไม่จำเป็นต้องเป็นที่นิยมและเป็นผู้มีอำนาจ
หากคุณใช้ HANLP ในการวิจัยของคุณโปรดอ้างอิงในรูปแบบต่อไปนี้:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}ข้อตกลงการอนุมัติสำหรับซอร์สโค้ด HANLP คือ Apache License 2.0 ซึ่งสามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์ได้ฟรี โปรดแนบข้อตกลงลิงก์และการอนุญาตของ Hanlp กับคำอธิบายผลิตภัณฑ์ HANLP ได้รับการคุ้มครองตามกฎหมายลิขสิทธิ์และการละเมิดจะดำเนินการ
HANLP ดำเนินงานอย่างอิสระจาก V1.7 ด้วย บริษัท เทคโนโลยีความหมายตามธรรมชาติ (ชิงดัม) จำกัด ในฐานะหน่วยงานหลักของโครงการนำการพัฒนารุ่นต่อ ๆ มาและมีลิขสิทธิ์ของเวอร์ชันที่ตามมา
HANLP v1.3 ~ v1.65 รุ่นได้รับการพัฒนาโดยการค้นหา Dakuai และยังคงเป็นโอเพนซอร์สอย่างสมบูรณ์ การค้นหา Dakuai มีลิขสิทธิ์ที่เกี่ยวข้อง
Hanlp ได้รับการสนับสนุนจาก บริษัท เซี่ยงไฮ้ Linyuan ในช่วงแรกและมีลิขสิทธิ์ของ 1.28 และรุ่นก่อนหน้า เวอร์ชันที่เกี่ยวข้องยังได้รับการเผยแพร่ในเว็บไซต์ บริษัท เซี่ยงไฮ้ Linyuan
การอนุญาตของแบบจำลองการเรียนรู้ของเครื่องไม่ได้ถูกกำหนดอย่างถูกต้องตามกฎหมาย แต่ในจิตวิญญาณของการเคารพการอนุญาตดั้งเดิมของคลังโอเพ่นซอร์สหากไม่ได้ระบุไว้โดยเฉพาะการอนุญาตแบบจำลองหลายภาษาของ HANLP ยังคงใช้ CC BY-NC-SA 4.0 และการอนุญาตแบบจำลองจีนสำหรับการวิจัยและการสอนเท่านั้น
https://hanlp.hankcs.com/docs/references.html