ดาวน์โหลด HanLP - ดาวน์โหลดซอร์สโค้ด HanLP

HANLP: การประมวลผลภาษาฮัน

ภาษาอังกฤษ | ญี่ปุ่น | เอกสาร | เอกสาร ฟอรัม นักเทียบท่า ดำเนินการออนไลน์

ชุดเครื่องมือประมวลผลภาษาธรรมชาติหลายภาษาสำหรับสภาพแวดล้อมการผลิตขึ้นอยู่กับเครื่องยนต์คู่ Pytorch และ Tensorflow 2.x โดยมีเป้าหมายในการสร้างความนิยมเทคโนโลยี NLP ที่ทันสมัยที่สุด HANLP มีลักษณะของฟังก์ชั่นที่สมบูรณ์ความถูกต้องแม่นยำประสิทธิภาพที่มีประสิทธิภาพคลังข้อมูลใหม่สถาปัตยกรรมที่ชัดเจนและปรับแต่งได้

ด้วยคลังข้อมูลหลายภาษาที่ใหญ่ที่สุดในโลก Hanlp2.1 สนับสนุนงานร่วม 10 งานและงานเดียวใน 130 ภาษารวมถึงจีนดั้งเดิมจีนอังกฤษญี่ปุ่นญี่ปุ่นรัสเซียฝรั่งเศสและเยอรมัน HANLP pre-trains หลายสิบรุ่นในงานมากกว่าหนึ่งโหลและกำลังวนซ้ำคลังข้อมูลและรุ่นอย่างต่อเนื่อง:

การทำงาน	สงบ	การทำงานหลายอย่าง	งานเดี่ยว	แบบอย่าง	มาตรฐานการติดฉลาก
คำกริยา	การสอน	การสอน	การสอน	โทก	การแบ่งย่อย
ส่วนหนึ่งของคำอธิบายประกอบการพูด	การสอน	การสอน	การสอน	POS	CTB, PKU, 863
การจดจำเอนทิตีชื่อ	การสอน	การสอน	การสอน	คนโง่	PKU, MSRA, Ontonotes
การวิเคราะห์ไวยากรณ์การพึ่งพาอาศัยกัน	การสอน	การสอน	การสอน	ส่วนที่	SD, UD, PMT
การวิเคราะห์ไวยากรณ์ส่วนประกอบ	การสอน	การสอน	การสอน	คอน	ธนาคารต้นไม้จีน
การวิเคราะห์การพึ่งพาความหมาย	การสอน	การสอน	การสอน	SDP	CSDP
คำอธิบายประกอบบทบาทความหมาย	การสอน	การสอน	การสอน	SRL	ธนาคารข้อเสนอจีน
การแสดงออกทางนามธรรมความหมาย	การสอน	ยังไม่มี	การสอน	AMR	Camr
หมายถึงการสลายตัว	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ontonotes
ความคล้ายคลึงกันของข้อความความหมาย	การสอน	ยังไม่มี	การสอน	STS	ยังไม่มี
การแปลงสไตล์ข้อความ	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
การสกัดวลีคำหลัก	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
สรุปโดยอัตโนมัติ	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
สรุปอัตโนมัติทั่วไป	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
การแก้ไขไวยากรณ์ข้อความ	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
การจำแนกข้อความ	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	ยังไม่มี
การวิเคราะห์ความเชื่อมั่น	การสอน	ยังไม่มี	ยังไม่มี	ยังไม่มี	`[-1,+1]`
การตรวจจับภาษา	การสอน	ยังไม่มี	การสอน	ยังไม่มี	การเข้ารหัส ISO 639-1

สำหรับการสกัดก้านและการแยกไวยากรณ์ไวยากรณ์โปรดดูการสอนภาษาอังกฤษ สำหรับเวกเตอร์ Word และการเติมปิดบังโปรดดูเอกสารที่เกี่ยวข้อง
สำหรับการแปลงภาษาจีนแบบง่ายและดั้งเดิมพินอินการค้นพบคำใหม่และการจัดกลุ่มข้อความโปรดดูบทช่วยสอน 1.x

HANLP ได้รับการปรับแต่งให้มี API สองตัว: พักผ่อน และ พื้นเมือง ซึ่งมุ่งเป้าไปที่สองสถานการณ์: น้ำหนักเบาและใหญ่ โดยไม่คำนึงถึง API และภาษาอินเทอร์เฟซ HANLP ยังคงมีความสอดคล้องเชิงความหมายและยืนยันในโอเพ่นซอร์สในรหัส หากคุณใช้ HANLP ในการวิจัยของคุณโปรดอ้างอิงกระดาษ EMNLP ของเรา

API พักผ่อนที่มีน้ำหนักเบา

มีเพียงไม่กี่ kbs ที่เหมาะสำหรับการพัฒนา Agile แอพมือถือและสถานการณ์อื่น ๆ ใช้งานง่ายและใช้งานง่ายไม่จำเป็นต้องติดตั้ง GPU และติดตั้งในไม่กี่วินาที คลังข้อมูลเพิ่มเติมรุ่นที่มีขนาดใหญ่กว่าความแม่นยำที่สูงขึ้น แนะนำเป็นอย่างยิ่ง พลังการคำนวณ GPU ของเซิร์ฟเวอร์มี จำกัด และโควต้าผู้ใช้ที่ไม่ระบุชื่อมีขนาดเล็ก ขอแนะนำให้สมัคร API API auth ของสวัสดิการสาธารณะฟรี

งูหลาม

pip install hanlp_restful

สร้างไคลเอนต์และกรอกที่อยู่เซิร์ฟเวอร์และคีย์ลับ:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

กอลัน

ติดตั้ง go get -u github.com/hankcs/gohanlp@main สร้างไคลเอนต์กรอกข้อมูลในที่อยู่เซิร์ฟเวอร์และรหัสลับ:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

ชวา

เพิ่มการพึ่งพาใน pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

สร้างไคลเอนต์และกรอกที่อยู่เซิร์ฟเวอร์และคีย์ลับ:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

เริ่มต้นอย่างรวดเร็ว

ไม่ว่าจะเป็นภาษาการพัฒนาใดก็ตามให้เรียกอินเทอร์เฟซแยก parse และส่งผ่านในบทความเพื่อให้ได้ผลการวิเคราะห์ที่ถูกต้องของ HANLP

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

สำหรับฟังก์ชั่นเพิ่มเติมโปรดดูเอกสารและกรณีทดสอบ

API พื้นเมืองขนาดใหญ่

อาศัยเทคโนโลยีการเรียนรู้อย่างลึกซึ้งเช่น Pytorch และ Tensorflow เหมาะสำหรับวิศวกร NLP มืออาชีพ นักวิจัยและสถานการณ์ข้อมูลขนาดใหญ่ในท้องถิ่น ต้องใช้ Python 3.6 ถึง 3.10 รองรับ Windows และ *แนะนำให้ใช้ *Nix แนะนำให้ทำงานบน CPU, GPU/TPU ติดตั้งเวอร์ชัน pytorch:

pip install hanlp

HANLP ผ่านการทดสอบหน่วยสำหรับ Python 3.6 ถึง 3.10 บน Linux, MacOS และ Windows ทุกครั้งที่มีการปล่อยออกมาและไม่มีปัญหาการติดตั้ง

โมเดลที่ปล่อยโดย HANLP แบ่งออกเป็นสองประเภท: Multi-Task และ Single-Task ความเร็วหลายงานทำงานเร็วและบันทึกหน่วยความจำวิดีโอและความแม่นยำในการทำงานเดี่ยวสูงและยืดหยุ่น

โมเดลมัลติทาสกิ้ง

เวิร์กโฟลว์ของ Hanlp คือการโหลดโมเดลแล้วเรียกมันว่าเป็นฟังก์ชั่นเช่นโมเดลมัลติทาสกิ้งร่วมต่อไปนี้:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

หน่วยอินพุตของ API ดั้งเดิมเป็นประโยคและจำเป็นต้องใช้โมเดลประโยคหลายภาษาหรือฟังก์ชันประโยคตามกฎในการเตรียมการก่อน การออกแบบความหมายของ API ทั้งสอง RESTFUL และ NATION นั้นสอดคล้องกันอย่างสมบูรณ์และผู้ใช้สามารถแลกเปลี่ยนได้อย่างราบรื่น อินเทอร์เฟซที่เรียบง่ายยังรองรับพารามิเตอร์ที่ยืดหยุ่น เทคนิคทั่วไป ได้แก่ :

การกำหนด tasks ที่ยืดหยุ่นยิ่งงานน้อยลงความเร็วเร็วขึ้นเท่านั้น ดูรายละเอียดการสอน ในสถานการณ์ที่มีหน่วยความจำที่ จำกัด ผู้ใช้ยังสามารถลบงานที่ไม่จำเป็นเพื่อให้ได้ผลของการลดขนาดของโมเดล
สำหรับพจนานุกรม Trie Tree ที่มีประสิทธิภาพรวมถึงกฎสามข้อ: บังคับรวมและการแก้ไขโปรดดูการสาธิตและเอกสารประกอบ ผลกระทบของระบบกฎจะถูกนำไปใช้กับแบบจำลองทางสถิติที่ตามมาอย่างราบรื่นซึ่งจะปรับให้เข้ากับพื้นที่ใหม่ได้อย่างรวดเร็ว

โมเดลงานเดียว

จากการวิจัยล่าสุดของเราข้อดีของการเรียนรู้มัลติทาสก์นั้นอยู่ในความเร็วและหน่วยความจำวิดีโอ แต่ความแม่นยำมักจะไม่ดีเท่าโมเดลงานเดียว ดังนั้น HANLP จึงได้ปรับรุ่นงานเดี่ยวหลายรุ่นและออกแบบโหมดไปป์ไลน์ที่สง่างามเพื่อประกอบพวกเขา

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

สำหรับคุณสมบัติเพิ่มเติมโปรดดูการสาธิตและเอกสารประกอบสำหรับรุ่นและการใช้งานเพิ่มเติม

รูปแบบเอาต์พุต

ไม่ว่า API ภาษาการพัฒนาและภาษาธรรมชาติจะเป็นอย่างไรผลลัพธ์ของ HANLP จะรวมอยู่ใน Document ที่เข้ากันได้กับรูปแบบ json ที่เป็น dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

โดยเฉพาะอย่างยิ่ง Python Restful และ API พื้นเมืองสนับสนุนการสร้างภาพข้อมูลตามแบบอักษร monospace ซึ่งสามารถมองเห็นโครงสร้างภาษาศาสตร์โดยตรงในคอนโซล:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

สำหรับความหมายของชุดฉลากโปรดดูที่ "ข้อกำหนดการติดฉลากภาษาศาสตร์" และ "ข้อกำหนดรูปแบบ" เราได้ซื้อทำเครื่องหมายหรือใช้คลังข้อมูลที่ใหญ่ที่สุดและหลากหลายที่สุดในโลกสำหรับการเรียนรู้หลายภาษาหลายภาษาร่วมกันดังนั้นชุดคำอธิบายประกอบของ HANLP จึงครอบคลุมมากที่สุดเช่นกัน

ฝึกอบรมโมเดลโดเมนของคุณเอง

การเขียนแบบจำลองการเรียนรู้อย่างลึกซึ้งนั้นไม่ยากเลย แต่ความยากลำบากคือการทำซ้ำอัตราความแม่นยำที่สูงขึ้น รหัสต่อไปนี้แสดงวิธีใช้เวลา 6 นาทีใน Corpus Sighan2005 PKU เพื่อฝึกอบรมรูปแบบการแบ่งส่วนคำภาษาจีนที่นอกเหนือไปจากโลกวิชาการ

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

ในหมู่พวกเขาเนื่องจากมีการระบุเมล็ดจำนวนสุ่มผลลัพธ์จะต้องเป็น 96.73 ซึ่งแตกต่างจากเอกสารทางวิชาการที่โฆษณาอย่างเท็จหรือโครงการเชิงพาณิชย์ HANLP รับประกันว่าผลลัพธ์ทั้งหมดสามารถทำซ้ำได้ หากคุณมีคำถามใด ๆ เราจะแก้ไขปัญหาเป็นข้อผิดพลาดที่สำคัญที่สุด

โปรดดูตัวอย่างสำหรับสคริปต์การฝึกอบรมเพิ่มเติม

ผลงาน

หรั่ง	บริษัท	แบบอย่าง	โทก		POS				คนโง่			ส่วนที่	คอน	SRL	SDP				เลม	การกิน	AMR
หรั่ง	บริษัท	แบบอย่าง	ดี	หยาบ	CTB	PKU	863	UD	PKU	MSRA	ontonotes	ส่วนที่	คอน	SRL	Semeval16	DM	ลูกปลา	ป.ล.	เลม	การกิน	AMR
มูล	UD2.7 ontonotes5	เล็ก	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
มูล	UD2.7 ontonotes5	ฐาน	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
zh	เปิด	เล็ก	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	เปิด	ฐาน	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	ปิด	เล็ก	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		ฐาน	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		เออร์นี่	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

จากการวิจัยล่าสุดของเราการเรียนรู้งานเดียวมีแนวโน้มที่จะดีกว่าการเรียนรู้หลายงาน หากคุณใส่ใจเกี่ยวกับความแม่นยำมากกว่าความเร็วขอแนะนำให้ใช้โมเดลงานเดียว

การประมวลผลข้อมูลล่วงหน้าและอัตราส่วนการแยกที่ใช้โดย HANLP ไม่จำเป็นต้องเหมือนกับวิธีการที่เป็นที่นิยม ตัวอย่างเช่น HANLP ใช้เวอร์ชันเต็มของ MSRA ชื่อ Corpus Recognition Entity แทนที่จะเป็นรุ่นตอนที่ใช้โดยสาธารณะ HANLP ใช้มาตรฐานการพึ่งพาสแตนฟอร์ดกับการครอบคลุมไวยากรณ์ที่กว้างขึ้นมากกว่ามาตรฐานจางและคลาร์ก (2008) ที่ชุมชนวิชาการนำมาใช้ HANLP เสนอวิธีการแบ่งส่วนที่สม่ำเสมอของ CTBs แทนชุมชนวิชาการที่ไม่สม่ำเสมอและหายไป 51 เอกสารทองคำ HANLP เปิดแหล่งที่มาของชุดสคริปต์การประมวลผลล่วงหน้าของคลังข้อมูลและคลังข้อมูลที่สอดคล้องกันโดยมุ่งมั่นที่จะส่งเสริมความโปร่งใสของ NLP จีน

ในระยะสั้น HANLP ทำในสิ่งที่เราคิดว่าถูกต้องและก้าวหน้าไม่จำเป็นต้องเป็นที่นิยมและเป็นผู้มีอำนาจ

อ้าง

หากคุณใช้ HANLP ในการวิจัยของคุณโปรดอ้างอิงในรูปแบบต่อไปนี้:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

ใบอนุญาต

รหัสต้นฉบับ

ข้อตกลงการอนุมัติสำหรับซอร์สโค้ด HANLP คือ Apache License 2.0 ซึ่งสามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์ได้ฟรี โปรดแนบข้อตกลงลิงก์และการอนุญาตของ Hanlp กับคำอธิบายผลิตภัณฑ์ HANLP ได้รับการคุ้มครองตามกฎหมายลิขสิทธิ์และการละเมิดจะดำเนินการ

Natural Semantics (Qingdao) Technology Co. , Ltd.

HANLP ดำเนินงานอย่างอิสระจาก V1.7 ด้วย บริษัท เทคโนโลยีความหมายตามธรรมชาติ (ชิงดัม) จำกัด ในฐานะหน่วยงานหลักของโครงการนำการพัฒนารุ่นต่อ ๆ มาและมีลิขสิทธิ์ของเวอร์ชันที่ตามมา

สืบค้น

HANLP v1.3 ~ v1.65 รุ่นได้รับการพัฒนาโดยการค้นหา Dakuai และยังคงเป็นโอเพนซอร์สอย่างสมบูรณ์ การค้นหา Dakuai มีลิขสิทธิ์ที่เกี่ยวข้อง

บริษัท เซี่ยงไฮ้ Linyuan

Hanlp ได้รับการสนับสนุนจาก บริษัท เซี่ยงไฮ้ Linyuan ในช่วงแรกและมีลิขสิทธิ์ของ 1.28 และรุ่นก่อนหน้า เวอร์ชันที่เกี่ยวข้องยังได้รับการเผยแพร่ในเว็บไซต์ บริษัท เซี่ยงไฮ้ Linyuan

รูปแบบที่ผ่านการฝึกอบรมมาก่อน

การอนุญาตของแบบจำลองการเรียนรู้ของเครื่องไม่ได้ถูกกำหนดอย่างถูกต้องตามกฎหมาย แต่ในจิตวิญญาณของการเคารพการอนุญาตดั้งเดิมของคลังโอเพ่นซอร์สหากไม่ได้ระบุไว้โดยเฉพาะการอนุญาตแบบจำลองหลายภาษาของ HANLP ยังคงใช้ CC BY-NC-SA 4.0 และการอนุญาตแบบจำลองจีนสำหรับการวิจัยและการสอนเท่านั้น

การอ้างอิง

https://hanlp.hankcs.com/docs/references.html

ขยาย

HanLP

HANLP: การประมวลผลภาษาฮัน

ภาษาอังกฤษ | ญี่ปุ่น | เอกสาร | เอกสาร ฟอรัม นักเทียบท่า ดำเนินการออนไลน์

API พักผ่อนที่มีน้ำหนักเบา

งูหลาม

กอลัน

ชวา

เริ่มต้นอย่างรวดเร็ว

API พื้นเมืองขนาดใหญ่

โมเดลมัลติทาสกิ้ง

โมเดลงานเดียว

รูปแบบเอาต์พุต

ฝึกอบรมโมเดลโดเมนของคุณเอง

ผลงาน

อ้าง

ใบอนุญาต

รหัสต้นฉบับ

Natural Semantics (Qingdao) Technology Co. , Ltd.

สืบค้น

บริษัท เซี่ยงไฮ้ Linyuan

รูปแบบที่ผ่านการฝึกอบรมมาก่อน

การอ้างอิง

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express