تنزيل HanLP - تنزيل رمز المصدر HanLP

Hanlp: معالجة اللغة Han

الإنجليزية | اليابانية | الوثائق | أوراق | المنتديات | Docker | ▶ تشغيل عبر الإنترنت

تعتمد مجموعة أدوات معالجة اللغة الطبيعية متعددة اللغات لبيئات الإنتاج على محركات Pytorch و TensorFlow 2.x المزدوجة ، بهدف تعميم تقنية NLP الأكثر حافة. لدى HANLP خصائص الوظائف الكاملة ، والدقة الدقيقة ، والأداء الفعال ، والجسم الجديد ، والهندسة المعمارية ، والقابلة للتخصيص.

مع أكبر مجموعة متعددة اللغات في العالم ، يدعم HANLP2.1 10 مهام مشتركة ومهام متعددة في 130 لغة ، بما في ذلك التقليدية الصينية والصينية والإنجليزية واليابانية والروسية والفرنسية والألمانية. يدرب Hanlp قبل العشرات من النماذج على أكثر من عشر مهام ويتكرر باستمرار من الجسد والنماذج:

وظيفة	مريح	تعدد المهام	مهمة واحدة	نموذج	معايير وضع العلامات
النعت	درس تعليمي	درس تعليمي	درس تعليمي	توك	الخشنة ، التقسيم الفرعي
جزء من شرح الكلام	درس تعليمي	درس تعليمي	درس تعليمي	نقاط البيع	CTB ، PKU ، 863
اسم التعرف على الكيان	درس تعليمي	درس تعليمي	درس تعليمي	نير	PKU ، MSRA ، Ontonotes
تحليل بناء جملة الاعتماد	درس تعليمي	درس تعليمي	درس تعليمي	dep	SD ، UD ، PMT
تحليل بناء الجملة المكون	درس تعليمي	درس تعليمي	درس تعليمي	يخدع	بنك الشجرة الصيني
تحليل التبعية الدلالية	درس تعليمي	درس تعليمي	درس تعليمي	SDP	CSDP
شرح الدور الدلالي	درس تعليمي	درس تعليمي	درس تعليمي	SRL	بنك الاقتراح الصيني
تعبير المعنى التجريدي	درس تعليمي	لا شيء بعد	درس تعليمي	عمر	كامير
يشير إلى الحل	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	ontonotes
تشابه النص الدلالي	درس تعليمي	لا شيء بعد	درس تعليمي	STS	لا شيء بعد
تحويل نمط النص	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
استخراج عبارة الكلمات الرئيسية	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
ملخص أوتوماتيكي مستخرج	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
ملخص التلقائي التوليدي	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
تصحيح بناء الجملة	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
تصنيف النص	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	لا شيء بعد
تحليل المشاعر	درس تعليمي	لا شيء بعد	لا شيء بعد	لا شيء بعد	`[-1,+1]`
اكتشاف اللغة	درس تعليمي	لا شيء بعد	درس تعليمي	لا شيء بعد	ISO 639-1 الترميز

لاستخراج الجذعية واستخراج الميزة النحوية ، يرجى الرجوع إلى البرنامج التعليمي الإنجليزي ؛ بالنسبة إلى ناقلات Word وملء cloze ، يرجى الرجوع إلى المستندات المقابلة.
من أجل التحويل الصيني البسيط والتقليدي ، Pinyin ، اكتشاف الكلمات الجديد ، وتجميع النص ، يرجى الرجوع إلى البرنامج التعليمي 1.x.

يوفر HANLP مصمم خصيصًا واجهات برمجة التطبيقات: RESTful و Mative ، والتي تهدف إلى سيناريوهين: الوزن الخفيف والضخم. بغض النظر عن واجهة برمجة التطبيقات واللغة ، تظل واجهة HANLP متسقة بشكل دلالي وتصر على المصدر المفتوح في الكود. إذا كنت قد استخدمت HANLP في بحثك ، فيرجى الاستشهاد بورقة EMNLP الخاصة بنا.

API خفيفة الوزن

بضعة كيلو بايت فقط ، مناسبة للتطوير الرشيق وتطبيق الهاتف المحمول والسيناريوهات الأخرى. بسيطة وسهلة الاستخدام ، لا حاجة لتثبيت GPU ، ويتم تثبيتها في ثوان. المزيد من الجسم ، نماذج أكبر ، دقة أعلى ، موصى بها بشدة . طاقة حوسبة GPU Server محدودة وحصة المستخدم المجهول صغيرة. يوصى بطلب للحصول على auth مفتاح API للرعاية العامة المجانية .

بيثون

pip install hanlp_restful

قم بإنشاء عميل وملء عنوان الخادم والمفتاح السري:

 from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名，zh中文，mul多语种

جولانج

تثبيت go get -u github.com/hankcs/gohanlp@main ، قم بإنشاء عميل ، وملء عنوان الخادم والمفتاح السري:

 HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名，zh中文，mul多语种

جافا

أضف تبعيات في pom.xml :

< dependency >
    < groupId >com.hankcs.hanlp.restful</ groupId >
    < artifactId >hanlp-restful</ artifactId >
    < version >0.0.12</ version >
</ dependency >

قم بإنشاء عميل وملء عنوان الخادم والمفتاح السري:

 HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名，zh中文，mul多语种

ابدأ بسرعة

بغض النظر عن لغة التطوير ، اتصل بواجهة parse وتمرير في مقال للحصول على نتائج التحليل الدقيقة لـ HANLP.

 HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )

لمزيد من الوظائف ، يرجى الرجوع إلى حالات الوثائق والاختبار.

واجهة برمجة التطبيقات الأصلية الضخمة

بالاعتماد على تقنيات التعلم العميق مثل Pytorch و TensorFlow ، فهو مناسب لمهندسي NLP المحترفين والباحثين وسيناريوهات البيانات الضخمة المحلية. يتطلب Python 3.6 إلى 3.10 ، ويدعم Windows ، و *nix يوصى به. يمكن تشغيله على وحدة المعالجة المركزية ، يوصى GPU/TPU. تثبيت نسخة Pytorch:

pip install hanlp

اجتاز HANLP اختبارات الوحدة لـ Python 3.6 إلى 3.10 على Linux و MacOs و Windows في كل مرة يتم فيها إصدارها ، ولا توجد مشكلة في التثبيت.

تنقسم النماذج الصادرة عن HANLP إلى نوعين: المهام المتعددة والمهام الفردية. السرعة متعددة المهام سريعة وتوفر ذاكرة الفيديو ، ودقة المهام الواحدة عالية ومرنة.

نموذج تعدد المهام

سير عمل HANLP هو تحميل النموذج ثم تسميته كدالة ، مثل نموذج تعدد المهام المشترك التالي:

 import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])

وحدة الإدخال في واجهة برمجة التطبيقات الأصلية هي جملة ، ومن الضروري استخدام نموذج شرط متعدد اللغات أو وظيفة شرط قائمة على القواعد إلى القسم المسبق. التصميمات الدلالية ل APIs Rectfl و Native متسقة تمامًا ، ويمكن للمستخدمين التبادل بسلاسة. الواجهة البسيطة تدعم أيضًا معلمات مرنة. تشمل التقنيات الشائعة:

جدولة tasks المرنة ، كلما أقل من المهام ، أسرع السرعة. انظر البرنامج التعليمي للحصول على التفاصيل. في السيناريوهات ذات الذاكرة المحدودة ، يمكن للمستخدمين أيضًا حذف مهام غير ضرورية لتحقيق تأثير التخسيس النموذجية.
لقاموس Trie Tree المخصصة الفعالة ، بالإضافة إلى ثلاث قواعد: إلزامية ودمج وتصحيح ، يرجى الرجوع إلى التوضيح والوثائق. سيتم تطبيق تأثيرات نظام القواعد بسلاسة على النماذج الإحصائية اللاحقة ، وبالتالي تكيف بسرعة مع مناطق جديدة.

نموذج مهمة واحدة

وفقًا لآخر أبحاثنا ، تكمن مزايا التعلم متعدد المهام في السرعة وذاكرة الفيديو ، ولكن الدقة غالبًا ما تكون جيدة مثل نموذج المهمة الواحدة. لذلك ، قام Hanlp بتأسيس العديد من نماذج المهام الواحدة وأنماط خطوط أنابيب أنيقة مصممة لتجميعها.

 import hanlp
HanLP = hanlp . pipeline () 
    . append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' ) 
    . append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' ) 
    . append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' ) 
    . append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
    . append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )

لمزيد من الميزات ، يرجى الرجوع إلى العرض التوضيحي والوثائق لمزيد من النماذج والاستخدام.

تنسيق الإخراج

بغض النظر عن واجهة برمجة التطبيقات ، ولغة التطوير واللغة الطبيعية ، يتم توحيد ناتج Hanlp في وثيقة متوافقة مع تنسيق json Document dict :

{
  "tok/fine" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
  ],
  "tok/coarse" : [
    [ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
    [ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
  ],
  "pos/ctb" : [
    [ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
    [ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
  ],
  "pos/pku" : [
    [ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
    [ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "pos/863" : [
    [ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
    [ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
  ],
  "ner/pku" : [
    [],
    [[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
  ],
  "ner/msra" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
    [[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
  ],
  "ner/ontonotes" : [
    [[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
    [[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
  ],
  "srl" : [
    [[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
    [[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
  ],
  "dep" : [
    [[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
    [[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
  ],
  "sdp" : [
    [[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
    [[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
  ],
  "con" : [
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
    [ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
  ]
}

على وجه الخصوص ، تصور Python Restful and Native Apis استنادًا إلى خطوط Monospace ، والتي يمكن أن تتخيل المباني اللغوية مباشرة في وحدة التحكم:

 HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()

Dep Tree    	Token    	Relati	PoS	Tok      	NER Type        	Tok      	SRL PA1     	Tok      	SRL PA2     	Tok      	PoS    3       4       5       6       7       8       9 
────────────	─────────	──────	───	─────────	────────────────	─────────	────────────	─────────	────────────	─────────	─────────────────────────────────────────────────────────
 ┌─────────►	2021年    	tmod  	NT 	2021年    	───► DATE        	2021年    	───► ARGM - TMP	2021年    	            	2021年    	NT ───────────────────────────────────────────► NP ───┐   
 │┌────────►	HanLPv2 . 1	nsubj 	NR 	HanLPv2 . 1	───► ORGANIZATION	HanLPv2 .1	───► ARG0    	HanLPv2 .1	            	HanLPv2 .1	NR ───────────────────────────────────────────► NP ────┤   
 ││┌─►┌─────	为        	prep  	P  	为        	                	为        	◄─┐         	为        	            	为        	P ───────────┐                                       │   
 │││  │  ┌─►	生产       	nn    	NN 	生产       	                	生产       	  ├► ARG2    	生产       	            	生产       	NN ──┐       ├────────────────────────► PP ───┐       │   
 │││  └─►└──	环境       	pobj  	NN 	环境       	                	环境       	◄─┘         	环境       	            	环境       	NN ──┴► NP ───┘                               │       │   
┌┼┴┴────────	带来       	root  	VV 	带来       	                	带来       	╟──► PRED    	带来       	            	带来       	VV ──────────────────────────────────┐       │       │   
││       ┌─►	次        	amod  	JJ 	次        	                	次        	◄─┐         	次        	            	次        	JJ ───► ADJP ──┐                       │       ├► VP ────┤   
││  ┌───►└──	世代       	nn    	NN 	世代       	                	世代       	  │         	世代       	            	世代       	NN ───► NP ───┴► NP ───┐               │       │       │   
││  │    ┌─►	最        	advmod	AD 	最        	                	最        	  │         	最        	───► ARGM - ADV	最        	AD ───────────► ADVP ──┼► ADJP ──┐       ├► VP ───┘       ├► IP
││  │┌──►├──	先进       	rcmod 	JJ 	先进       	                	先进       	  │         	先进       	╟──► PRED    	先进       	JJ ───────────► VP ───┘       │       │               │   
││  ││   └─►	的        	assm  	DEG	的        	                	的        	  ├► ARG1    	的        	            	的        	DEG ──────────────────────────┤       │               │   
││  ││   ┌─►	多        	nummod	CD 	多        	                	多        	  │         	多        	            	多        	CD ───► QP ───┐               ├► NP ───┘               │   
││  ││┌─►└──	语种       	nn    	NN 	语种       	                	语种       	  │         	语种       	            	语种       	NN ───► NP ───┴────────► NP ────┤                       │   
││  │││  ┌─►	NLP      	nn    	NR 	NLP      	                	NLP      	  │         	NLP      	            	NLP      	NR ──┐                       │                       │   
│└─►└┴┴──┴──	技术       	dobj  	NN 	技术       	                	技术       	◄─┘         	技术       	───► ARG0    	技术       	NN ──┴────────────────► NP ───┘                       │   
└──────────►	。        	punct 	PU 	。        	                	。        	            	。        	            	。        	PU ──────────────────────────────────────────────────┘   

Dep Tree    	Tok	Relat	Po	Tok	NER Type        	Tok	SRL PA1 	Tok	SRL PA2 	Tok	Po    3       4       5       6 
────────────	───	─────	──	───	────────────────	───	────────	───	────────	───	────────────────────────────────
         ┌─►	阿婆主	nsubj	NN	阿婆主	                	阿婆主	───► ARG0	阿婆主	───► ARG0	阿婆主	NN ───────────────────► NP ───┐   
┌┬────┬──┴──	来到 	root 	VV	来到 	                	来到 	╟──► PRED	来到 	        	来到 	VV ──────────┐               │   
││    │  ┌─►	北京 	nn   	NR	北京 	───► LOCATION    	北京 	◄─┐     	北京 	        	北京 	NR ──┐       ├► VP ───┐       │   
││    └─►└──	立方庭	dobj 	NR	立方庭	───► LOCATION    	立方庭	◄─┴► ARG1	立方庭	        	立方庭	NR ──┴► NP ───┘       │       │   
│└─►┌───────	参观 	conj 	VV	参观 	                	参观 	        	参观 	╟──► PRED	参观 	VV ──────────┐       ├► VP ────┤   
│   │  ┌───►	自然 	nn   	NN	自然 	◄─┐             	自然 	        	自然 	◄─┐     	自然 	NN ──┐       │       │       ├► IP
│   │  │┌──►	语义 	nn   	NN	语义 	  │             	语义 	        	语义 	  │     	语义 	NN  │       ├► VP ───┘       │   
│   │  ││┌─►	科技 	nn   	NN	科技 	  ├► ORGANIZATION	科技 	        	科技 	  ├► ARG1	科技 	NN  ├► NP ───┘               │   
│   └─►└┴┴──	公司 	dobj 	NN	公司 	◄─┘             	公司 	        	公司 	◄─┘     	公司 	NN ──┘                       │   
└──────────►	。  	punct	PU	。  	                	。  	        	。  	        	。  	PU ──────────────────────────┘

لمعنى مجموعة التسمية ، يرجى الرجوع إلى "مواصفات العلامات اللغوية" و "مواصفات التنسيق". لقد اشترينا أو وضع علامة أو استخدمت أكبر مجموعة وأكثرها تنوعًا في التعلم المشترك متعدد اللغات ، وبالتالي فإن مجموعة شرح Hanlp هي أيضًا الأكثر شمولاً.

تدريب نموذج المجال الخاص بك

إن كتابة نموذج التعلم العميق ليس من الصعب على الإطلاق ، ولكن الصعوبة تتمثل في استنساخ معدل دقة أعلى. يوضح الرمز التالي كيفية قضاء 6 دقائق على Sighan2005 PKU Corpus لتدريب نموذج تجزئة الكلمات الصيني يتجاوز العالم الأكاديمي.

 tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
    SIGHAN2005_PKU_TRAIN_ALL ,
    SIGHAN2005_PKU_TEST ,  # Conventionally, no devset is used. See Tian et al. (2020).
    save_dir ,
    'bert-base-chinese' ,
    max_seq_len = 300 ,
    char_level = True ,
    hard_constraint = True ,
    sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
    epochs = 3 ,
    adam_epsilon = 1e-6 ,
    warmup_steps = 0.1 ,
    weight_decay = 0.01 ,
    word_dropout = 0.1 ,
    seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir )

من بينها ، نظرًا لأن بذور العدد العشوائي محدد ، يجب أن تكون النتيجة 96.73 . على عكس تلك الأوراق الأكاديمية المعلنة زوراً أو المشاريع التجارية ، تضمن HANLP إعادة إنتاج جميع النتائج. إذا كان لديك أي أسئلة ، فسنقوم بإصلاح المشكلة باعتبارها الأخطاء القاتلة ذات الأولوية القصوى.

يرجى الرجوع إلى العرض التوضيحي لمزيد من البرامج النصية التدريبية.

أداء

لانغ	كوربورا	نموذج	توك		نقاط البيع				نير			dep	يخدع	SRL	SDP				ليم	FEA	عمر
لانغ	كوربورا	نموذج	بخير	خشن	CTB	PKU	863	UD	PKU	MSRA	ontonotes	dep	يخدع	SRL	Semeval16	DM	PAS	PSD	ليم	FEA	عمر
مول	ud2.7 Ontonotes5	صغير	98.62	-	-	-	-	93.23	-	-	74.42	79.10	76.85	70.63	-	91.19	93.67	85.34	87.71	84.51	-
مول	ud2.7 Ontonotes5	قاعدة	98.97	-	-	-	-	90.32	-	-	80.32	78.74	71.23	73.63	-	92.60	96.04	81.19	85.08	82.13	-
ZH	يفتح	صغير	97.25	-	96.66	-	-	-	-	-	95.00	84.57	87.62	73.40	84.57	-	-	-	-	-	-
	يفتح	قاعدة	97.50	-	97.07	-	-	-	-	-	96.04	87.11	89.84	77.78	87.11	-	-	-	-	-	-
	يغلق	صغير	96.70	95.93	96.87	97.56	95.05	-	96.22	95.74	76.79	84.44	88.13	75.81	74.28	-	-	-	-	-	-
		قاعدة	97.52	96.44	96.99	97.59	95.29	-	96.48	95.72	77.77	85.29	88.57	76.52	73.76	-	-	-	-	-	-
		إرني	96.95	97.29	96.76	97.64	95.22	-	97.31	96.47	77.95	85.67	89.17	78.51	74.10	-	-	-	-	-	-

وفقًا لأحدث بحثنا ، يميل تعلم المهام الفردية إلى التفوق على التعلم متعدد المهام. إذا كنت تهتم بالدقة على السرعة ، فمن المستحسن استخدام نموذج المهمة الواحدة.

إن نسب المعالجة المسبقة للبيانات وتقسيمها المعتمدة من قبل HANLP ليست بالضرورة هي نفس الأساليب الشائعة. على سبيل المثال ، يعتمد HANLP النسخة الكاملة من مجموعة التعرف على الكيان المسمى MSRA بدلاً من النسخة المخصصة التي يستخدمها الجمهور ؛ يستخدم HANLP معيار تبعيات Stanford مع تغطية بناء جملة أوسع ، بدلاً من معيار Zhang و Clark (2008) الذي اعتمده المجتمع الأكاديمي ؛ يقترح HANLP طريقة للتجزئة الموحدة لـ CTBs بدلاً من المجتمع الأكاديمي غير المتكافئ وفقد 51 وثيقة ذهبية. يفتح HANLP مصدر مجموعة كاملة من البرامج النصية للمعالجة المسبقة للجسم والجسم المقابل ، ويسعى جاهدين لتعزيز شفافية NLP الصينية.

باختصار ، لا يفعل Hanlp فقط ما نعتقد أنه صحيح ومتقدم ، وليس بالضرورة ما هو شعبي وموثوق.

يقتبس

إذا كنت تستخدم HANLP في بحثك ، فيرجى اقتباسها بالتنسيق التالي:

 @inproceedings { he-choi-2021-stem ,
    title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
    author = " He, Han and Choi, Jinho D. " ,
    booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
    month = nov,
    year = " 2021 " ,
    address = " Online and Punta Cana, Dominican Republic " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2021.emnlp-main.451 " ,
    pages = " 5555--5577 " ,
    abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}

رخصة

رمز المصدر

اتفاقية إذن رمز مصدر HANLP هي APACHE RICENT 2.0 ، والتي يمكن استخدامها لأغراض تجارية مجانًا. يرجى إرفاق اتفاقية ارتباط HANLP وترخيصها بوصف المنتج. HANLP محمية بموجب قانون حقوق الطبع والنشر وسيتم متابعة الانتهاك.

الدلالات الطبيعية (Qingdao) Technology Co. ، Ltd.

تعمل HANLP بشكل مستقل عن V1.7 ، مع شركة دلالات الطبيعية (Qingdao) Technology Co. ، Ltd. باعتبارها الهيئة الرئيسية للمشروع ، والتي تقود تطوير الإصدارات اللاحقة ولديها حقوق الطبع والنشر للإصدارات اللاحقة.

ابحث بسرعة

تم تطوير إصدارات Hanlp V1.3 ~ V1.65 بواسطة Dakuai Search وتستمر في أن تكون مفتوحة المصدر تمامًا. بحث Dakuai لديه حقوق الطبع والنشر ذات الصلة.

شركة شنغهاي لينيوان

تم دعم Hanlp من قبل شركة Shanghai Linyuan في الأيام الأولى ولديها حقوق الطبع والنشر من 1.28 والإصدارات السابقة. تم إصدار الإصدارات ذات الصلة أيضًا على موقع شركة Shanghai Linyuan.

نموذج تدريب مسبقًا

لا يتم تحديد ترخيص نماذج التعلم الآلي بشكل قانوني ، ولكن بروح احترام الترخيص الأصلي لـ Open Source Corpus ، إن لم يكن مذكورًا على وجه التحديد ، يستمر ترخيص النموذج متعدد اللغات في HANLP في استخدام CC BY-SA 4.0 ، وترخيص النموذج الصيني هو لأغراض البحث والتدريس فقط.

مراجع

https://hanlp.hankcs.com/docs/references.html

يوسع

HanLP

Hanlp: معالجة اللغة Han

الإنجليزية | اليابانية | الوثائق | أوراق | المنتديات | Docker | ▶ تشغيل عبر الإنترنت

API خفيفة الوزن

بيثون

جولانج

جافا

ابدأ بسرعة

واجهة برمجة التطبيقات الأصلية الضخمة

نموذج تعدد المهام

نموذج مهمة واحدة

تنسيق الإخراج

تدريب نموذج المجال الخاص بك

أداء

يقتبس

رخصة

رمز المصدر

الدلالات الطبيعية (Qingdao) Technology Co. ، Ltd.

ابحث بسرعة

شركة شنغهاي لينيوان

نموذج تدريب مسبقًا

مراجع

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express