
تعتمد مجموعة أدوات معالجة اللغة الطبيعية متعددة اللغات لبيئات الإنتاج على محركات Pytorch و TensorFlow 2.x المزدوجة ، بهدف تعميم تقنية NLP الأكثر حافة. لدى HANLP خصائص الوظائف الكاملة ، والدقة الدقيقة ، والأداء الفعال ، والجسم الجديد ، والهندسة المعمارية ، والقابلة للتخصيص.
مع أكبر مجموعة متعددة اللغات في العالم ، يدعم HANLP2.1 10 مهام مشتركة ومهام متعددة في 130 لغة ، بما في ذلك التقليدية الصينية والصينية والإنجليزية واليابانية والروسية والفرنسية والألمانية. يدرب Hanlp قبل العشرات من النماذج على أكثر من عشر مهام ويتكرر باستمرار من الجسد والنماذج:
| وظيفة | مريح | تعدد المهام | مهمة واحدة | نموذج | معايير وضع العلامات |
|---|---|---|---|---|---|
| النعت | درس تعليمي | درس تعليمي | درس تعليمي | توك | الخشنة ، التقسيم الفرعي |
| جزء من شرح الكلام | درس تعليمي | درس تعليمي | درس تعليمي | نقاط البيع | CTB ، PKU ، 863 |
| اسم التعرف على الكيان | درس تعليمي | درس تعليمي | درس تعليمي | نير | PKU ، MSRA ، Ontonotes |
| تحليل بناء جملة الاعتماد | درس تعليمي | درس تعليمي | درس تعليمي | dep | SD ، UD ، PMT |
| تحليل بناء الجملة المكون | درس تعليمي | درس تعليمي | درس تعليمي | يخدع | بنك الشجرة الصيني |
| تحليل التبعية الدلالية | درس تعليمي | درس تعليمي | درس تعليمي | SDP | CSDP |
| شرح الدور الدلالي | درس تعليمي | درس تعليمي | درس تعليمي | SRL | بنك الاقتراح الصيني |
| تعبير المعنى التجريدي | درس تعليمي | لا شيء بعد | درس تعليمي | عمر | كامير |
| يشير إلى الحل | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | ontonotes |
| تشابه النص الدلالي | درس تعليمي | لا شيء بعد | درس تعليمي | STS | لا شيء بعد |
| تحويل نمط النص | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| استخراج عبارة الكلمات الرئيسية | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| ملخص أوتوماتيكي مستخرج | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| ملخص التلقائي التوليدي | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| تصحيح بناء الجملة | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| تصنيف النص | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | لا شيء بعد |
| تحليل المشاعر | درس تعليمي | لا شيء بعد | لا شيء بعد | لا شيء بعد | [-1,+1] |
| اكتشاف اللغة | درس تعليمي | لا شيء بعد | درس تعليمي | لا شيء بعد | ISO 639-1 الترميز |
يوفر HANLP مصمم خصيصًا واجهات برمجة التطبيقات: RESTful و Mative ، والتي تهدف إلى سيناريوهين: الوزن الخفيف والضخم. بغض النظر عن واجهة برمجة التطبيقات واللغة ، تظل واجهة HANLP متسقة بشكل دلالي وتصر على المصدر المفتوح في الكود. إذا كنت قد استخدمت HANLP في بحثك ، فيرجى الاستشهاد بورقة EMNLP الخاصة بنا.
بضعة كيلو بايت فقط ، مناسبة للتطوير الرشيق وتطبيق الهاتف المحمول والسيناريوهات الأخرى. بسيطة وسهلة الاستخدام ، لا حاجة لتثبيت GPU ، ويتم تثبيتها في ثوان. المزيد من الجسم ، نماذج أكبر ، دقة أعلى ، موصى بها بشدة . طاقة حوسبة GPU Server محدودة وحصة المستخدم المجهول صغيرة. يوصى بطلب للحصول على auth مفتاح API للرعاية العامة المجانية .
pip install hanlp_restfulقم بإنشاء عميل وملء عنوان الخادم والمفتاح السري:
from hanlp_restful import HanLPClient
HanLP = HanLPClient ( 'https://www.hanlp.com/api' , auth = None , language = 'zh' ) # auth不填则匿名,zh中文,mul多语种 تثبيت go get -u github.com/hankcs/gohanlp@main ، قم بإنشاء عميل ، وملء عنوان الخادم والمفتاح السري:
HanLP := hanlp . HanLPClient ( hanlp . WithAuth ( "" ), hanlp . WithLanguage ( "zh" )) // auth不填则匿名,zh中文,mul多语种 أضف تبعيات في pom.xml :
< dependency >
< groupId >com.hankcs.hanlp.restful</ groupId >
< artifactId >hanlp-restful</ artifactId >
< version >0.0.12</ version >
</ dependency >قم بإنشاء عميل وملء عنوان الخادم والمفتاح السري:
HanLPClient HanLP = new HanLPClient ( "https://www.hanlp.com/api" , null , "zh" ); // auth不填则匿名,zh中文,mul多语种 بغض النظر عن لغة التطوير ، اتصل بواجهة parse وتمرير في مقال للحصول على نتائج التحليل الدقيقة لـ HANLP.
HanLP . parse ( "2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。" )لمزيد من الوظائف ، يرجى الرجوع إلى حالات الوثائق والاختبار.
بالاعتماد على تقنيات التعلم العميق مثل Pytorch و TensorFlow ، فهو مناسب لمهندسي NLP المحترفين والباحثين وسيناريوهات البيانات الضخمة المحلية. يتطلب Python 3.6 إلى 3.10 ، ويدعم Windows ، و *nix يوصى به. يمكن تشغيله على وحدة المعالجة المركزية ، يوصى GPU/TPU. تثبيت نسخة Pytorch:
pip install hanlpتنقسم النماذج الصادرة عن HANLP إلى نوعين: المهام المتعددة والمهام الفردية. السرعة متعددة المهام سريعة وتوفر ذاكرة الفيديو ، ودقة المهام الواحدة عالية ومرنة.
سير عمل HANLP هو تحميل النموذج ثم تسميته كدالة ، مثل نموذج تعدد المهام المشترك التالي:
import hanlp
HanLP = hanlp . load ( hanlp . pretrained . mtl . CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH ) # 世界最大中文语料库
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ])وحدة الإدخال في واجهة برمجة التطبيقات الأصلية هي جملة ، ومن الضروري استخدام نموذج شرط متعدد اللغات أو وظيفة شرط قائمة على القواعد إلى القسم المسبق. التصميمات الدلالية ل APIs Rectfl و Native متسقة تمامًا ، ويمكن للمستخدمين التبادل بسلاسة. الواجهة البسيطة تدعم أيضًا معلمات مرنة. تشمل التقنيات الشائعة:
tasks المرنة ، كلما أقل من المهام ، أسرع السرعة. انظر البرنامج التعليمي للحصول على التفاصيل. في السيناريوهات ذات الذاكرة المحدودة ، يمكن للمستخدمين أيضًا حذف مهام غير ضرورية لتحقيق تأثير التخسيس النموذجية.وفقًا لآخر أبحاثنا ، تكمن مزايا التعلم متعدد المهام في السرعة وذاكرة الفيديو ، ولكن الدقة غالبًا ما تكون جيدة مثل نموذج المهمة الواحدة. لذلك ، قام Hanlp بتأسيس العديد من نماذج المهام الواحدة وأنماط خطوط أنابيب أنيقة مصممة لتجميعها.
import hanlp
HanLP = hanlp . pipeline ()
. append ( hanlp . utils . rules . split_sentence , output_key = 'sentences' )
. append ( hanlp . load ( 'FINE_ELECTRA_SMALL_ZH' ), output_key = 'tok' )
. append ( hanlp . load ( 'CTB9_POS_ELECTRA_SMALL' ), output_key = 'pos' )
. append ( hanlp . load ( 'MSRA_NER_ELECTRA_SMALL_ZH' ), output_key = 'ner' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_DEP_ELECTRA_SMALL' , conll = 0 ), output_key = 'dep' , input_key = 'tok' )
. append ( hanlp . load ( 'CTB9_CON_ELECTRA_SMALL' ), output_key = 'con' , input_key = 'tok' )
HanLP ( '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。' )لمزيد من الميزات ، يرجى الرجوع إلى العرض التوضيحي والوثائق لمزيد من النماذج والاستخدام.
بغض النظر عن واجهة برمجة التطبيقات ، ولغة التطوير واللغة الطبيعية ، يتم توحيد ناتج Hanlp في وثيقة متوافقة مع تنسيق json Document dict :
{
"tok/fine" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次" , "世代" , "最" , "先进" , "的" , "多" , "语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京" , "立方庭" , "参观" , "自然" , "语义" , "科技" , "公司" , " 。 " ]
],
"tok/coarse" : [
[ " 2021年" , " HanLPv2.1 " , "为" , "生产" , "环境" , "带来" , "次世代" , "最" , "先进" , "的" , "多语种" , " NLP " , "技术" , " 。 " ],
[ "阿婆主" , "来到" , "北京立方庭" , "参观" , "自然语义科技公司" , " 。 " ]
],
"pos/ctb" : [
[ " NT " , " NR " , " P " , " NN " , " NN " , " VV " , " JJ " , " NN " , " AD " , " JJ " , " DEG " , " CD " , " NN " , " NR " , " NN " , " PU " ],
[ " NN " , " VV " , " NR " , " NR " , " VV " , " NN " , " NN " , " NN " , " NN " , " PU " ]
],
"pos/pku" : [
[ " t " , " nx " , " p " , " vn " , " n " , " v " , " b " , " n " , " d " , " a " , " u " , " a " , " n " , " nx " , " n " , " w " ],
[ " n " , " v " , " ns " , " ns " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"pos/863" : [
[ " nt " , " w " , " p " , " v " , " n " , " v " , " a " , " nt " , " d " , " a " , " u " , " a " , " n " , " ws " , " n " , " w " ],
[ " n " , " v " , " ns " , " n " , " v " , " n " , " n " , " n " , " n " , " w " ]
],
"ner/pku" : [
[],
[[ "北京立方庭" , " ns " , 2 , 4 ], [ "自然语义科技公司" , " nt " , 5 , 9 ]]
],
"ner/msra" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORGANIZATION " , 1 , 2 ]],
[[ "北京" , " LOCATION " , 2 , 3 ], [ "立方庭" , " LOCATION " , 3 , 4 ], [ "自然语义科技公司" , " ORGANIZATION " , 5 , 9 ]]
],
"ner/ontonotes" : [
[[ " 2021年" , " DATE " , 0 , 1 ], [ " HanLPv2.1 " , " ORG " , 1 , 2 ]],
[[ "北京立方庭" , " FAC " , 2 , 4 ], [ "自然语义科技公司" , " ORG " , 5 , 9 ]]
],
"srl" : [
[[[ " 2021年" , " ARGM-TMP " , 0 , 1 ], [ " HanLPv2.1 " , " ARG0 " , 1 , 2 ], [ "为生产环境" , " ARG2 " , 2 , 5 ], [ "带来" , " PRED " , 5 , 6 ], [ "次世代最先进的多语种NLP技术" , " ARG1 " , 6 , 15 ]], [[ "最" , " ARGM-ADV " , 8 , 9 ], [ "先进" , " PRED " , 9 , 10 ], [ "技术" , " ARG0 " , 14 , 15 ]]],
[[[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "来到" , " PRED " , 1 , 2 ], [ "北京立方庭" , " ARG1 " , 2 , 4 ]], [[ "阿婆主" , " ARG0 " , 0 , 1 ], [ "参观" , " PRED " , 4 , 5 ], [ "自然语义科技公司" , " ARG1 " , 5 , 9 ]]]
],
"dep" : [
[[ 6 , " tmod " ], [ 6 , " nsubj " ], [ 6 , " prep " ], [ 5 , " nn " ], [ 3 , " pobj " ], [ 0 , " root " ], [ 8 , " amod " ], [ 15 , " nn " ], [ 10 , " advmod " ], [ 15 , " rcmod " ], [ 10 , " assm " ], [ 13 , " nummod " ], [ 15 , " nn " ], [ 15 , " nn " ], [ 6 , " dobj " ], [ 6 , " punct " ]],
[[ 2 , " nsubj " ], [ 0 , " root " ], [ 4 , " nn " ], [ 2 , " dobj " ], [ 2 , " conj " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 9 , " nn " ], [ 5 , " dobj " ], [ 2 , " punct " ]]
],
"sdp" : [
[[[ 6 , " Time " ]], [[ 6 , " Exp " ]], [[ 5 , " mPrep " ]], [[ 5 , " Desc " ]], [[ 6 , " Datv " ]], [[ 13 , " dDesc " ]], [[ 0 , " Root " ], [ 8 , " Desc " ], [ 13 , " Desc " ]], [[ 15 , " Time " ]], [[ 10 , " mDegr " ]], [[ 15 , " Desc " ]], [[ 10 , " mAux " ]], [[ 8 , " Quan " ], [ 13 , " Quan " ]], [[ 15 , " Desc " ]], [[ 15 , " Nmod " ]], [[ 6 , " Pat " ]], [[ 6 , " mPunc " ]]],
[[[ 2 , " Agt " ], [ 5 , " Agt " ]], [[ 0 , " Root " ]], [[ 4 , " Loc " ]], [[ 2 , " Lfin " ]], [[ 2 , " ePurp " ]], [[ 8 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 9 , " Nmod " ]], [[ 5 , " Datv " ]], [[ 5 , " mPunc " ]]]
],
"con" : [
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NT " , [ " 2021年" ]]]], [ " NP " , [[ " NR " , [ " HanLPv2.1 " ]]]], [ " VP " , [[ " PP " , [[ " P " , [ "为" ]], [ " NP " , [[ " NN " , [ "生产" ]], [ " NN " , [ "环境" ]]]]]], [ " VP " , [[ " VV " , [ "带来" ]], [ " NP " , [[ " ADJP " , [[ " NP " , [[ " ADJP " , [[ " JJ " , [ "次" ]]]], [ " NP " , [[ " NN " , [ "世代" ]]]]]], [ " ADVP " , [[ " AD " , [ "最" ]]]], [ " VP " , [[ " JJ " , [ "先进" ]]]]]], [ " DEG " , [ "的" ]], [ " NP " , [[ " QP " , [[ " CD " , [ "多" ]]]], [ " NP " , [[ " NN " , [ "语种" ]]]]]], [ " NP " , [[ " NR " , [ " NLP " ]], [ " NN " , [ "技术" ]]]]]]]]]], [ " PU " , [ " 。 " ]]]]]],
[ " TOP " , [[ " IP " , [[ " NP " , [[ " NN " , [ "阿婆主" ]]]], [ " VP " , [[ " VP " , [[ " VV " , [ "来到" ]], [ " NP " , [[ " NR " , [ "北京" ]], [ " NR " , [ "立方庭" ]]]]]], [ " VP " , [[ " VV " , [ "参观" ]], [ " NP " , [[ " NN " , [ "自然" ]], [ " NN " , [ "语义" ]], [ " NN " , [ "科技" ]], [ " NN " , [ "公司" ]]]]]]]], [ " PU " , [ " 。 " ]]]]]]
]
}على وجه الخصوص ، تصور Python Restful and Native Apis استنادًا إلى خطوط Monospace ، والتي يمكن أن تتخيل المباني اللغوية مباشرة في وحدة التحكم:
HanLP ([ '2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。' , '阿婆主来到北京立方庭参观自然语义科技公司。' ]). pretty_print ()
Dep Tree Token Relati PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok PoS 3 4 5 6 7 8 9
──────────── ───────── ────── ─── ───────── ──────────────── ───────── ──────────── ───────── ──────────── ───────── ─────────────────────────────────────────────────────────
┌─────────► 2021年 tmod NT 2021年 ───► DATE 2021年 ───► ARGM - TMP 2021年 2021年 NT ───────────────────────────────────────────► NP ───┐
│┌────────► HanLPv2 . 1 nsubj NR HanLPv2 . 1 ───► ORGANIZATION HanLPv2 .1 ───► ARG0 HanLPv2 .1 HanLPv2 .1 NR ───────────────────────────────────────────► NP ────┤
││┌─►┌───── 为 prep P 为 为 ◄─┐ 为 为 P ───────────┐ │
│││ │ ┌─► 生产 nn NN 生产 生产 ├► ARG2 生产 生产 NN ──┐ ├────────────────────────► PP ───┐ │
│││ └─►└── 环境 pobj NN 环境 环境 ◄─┘ 环境 环境 NN ──┴► NP ───┘ │ │
┌┼┴┴──────── 带来 root VV 带来 带来 ╟──► PRED 带来 带来 VV ──────────────────────────────────┐ │ │
││ ┌─► 次 amod JJ 次 次 ◄─┐ 次 次 JJ ───► ADJP ──┐ │ ├► VP ────┤
││ ┌───►└── 世代 nn NN 世代 世代 │ 世代 世代 NN ───► NP ───┴► NP ───┐ │ │ │
││ │ ┌─► 最 advmod AD 最 最 │ 最 ───► ARGM - ADV 最 AD ───────────► ADVP ──┼► ADJP ──┐ ├► VP ───┘ ├► IP
││ │┌──►├── 先进 rcmod JJ 先进 先进 │ 先进 ╟──► PRED 先进 JJ ───────────► VP ───┘ │ │ │
││ ││ └─► 的 assm DEG 的 的 ├► ARG1 的 的 DEG ──────────────────────────┤ │ │
││ ││ ┌─► 多 nummod CD 多 多 │ 多 多 CD ───► QP ───┐ ├► NP ───┘ │
││ ││┌─►└── 语种 nn NN 语种 语种 │ 语种 语种 NN ───► NP ───┴────────► NP ────┤ │
││ │││ ┌─► NLP nn NR NLP NLP │ NLP NLP NR ──┐ │ │
│└─►└┴┴──┴── 技术 dobj NN 技术 技术 ◄─┘ 技术 ───► ARG0 技术 NN ──┴────────────────► NP ───┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────────────────────────────┘
Dep Tree Tok Relat Po Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok Po 3 4 5 6
──────────── ─── ───── ── ─── ──────────────── ─── ──────── ─── ──────── ─── ────────────────────────────────
┌─► 阿婆主 nsubj NN 阿婆主 阿婆主 ───► ARG0 阿婆主 ───► ARG0 阿婆主 NN ───────────────────► NP ───┐
┌┬────┬──┴── 来到 root VV 来到 来到 ╟──► PRED 来到 来到 VV ──────────┐ │
││ │ ┌─► 北京 nn NR 北京 ───► LOCATION 北京 ◄─┐ 北京 北京 NR ──┐ ├► VP ───┐ │
││ └─►└── 立方庭 dobj NR 立方庭 ───► LOCATION 立方庭 ◄─┴► ARG1 立方庭 立方庭 NR ──┴► NP ───┘ │ │
│└─►┌─────── 参观 conj VV 参观 参观 参观 ╟──► PRED 参观 VV ──────────┐ ├► VP ────┤
│ │ ┌───► 自然 nn NN 自然 ◄─┐ 自然 自然 ◄─┐ 自然 NN ──┐ │ │ ├► IP
│ │ │┌──► 语义 nn NN 语义 │ 语义 语义 │ 语义 NN │ ├► VP ───┘ │
│ │ ││┌─► 科技 nn NN 科技 ├► ORGANIZATION 科技 科技 ├► ARG1 科技 NN ├► NP ───┘ │
│ └─►└┴┴── 公司 dobj NN 公司 ◄─┘ 公司 公司 ◄─┘ 公司 NN ──┘ │
└──────────► 。 punct PU 。 。 。 。 PU ──────────────────────────┘ لمعنى مجموعة التسمية ، يرجى الرجوع إلى "مواصفات العلامات اللغوية" و "مواصفات التنسيق". لقد اشترينا أو وضع علامة أو استخدمت أكبر مجموعة وأكثرها تنوعًا في التعلم المشترك متعدد اللغات ، وبالتالي فإن مجموعة شرح Hanlp هي أيضًا الأكثر شمولاً.
إن كتابة نموذج التعلم العميق ليس من الصعب على الإطلاق ، ولكن الصعوبة تتمثل في استنساخ معدل دقة أعلى. يوضح الرمز التالي كيفية قضاء 6 دقائق على Sighan2005 PKU Corpus لتدريب نموذج تجزئة الكلمات الصيني يتجاوز العالم الأكاديمي.
tokenizer = TransformerTaggingTokenizer ()
save_dir = 'data/model/cws/sighan2005_pku_bert_base_96.73'
tokenizer . fit (
SIGHAN2005_PKU_TRAIN_ALL ,
SIGHAN2005_PKU_TEST , # Conventionally, no devset is used. See Tian et al. (2020).
save_dir ,
'bert-base-chinese' ,
max_seq_len = 300 ,
char_level = True ,
hard_constraint = True ,
sampler_builder = SortingSamplerBuilder ( batch_size = 32 ),
epochs = 3 ,
adam_epsilon = 1e-6 ,
warmup_steps = 0.1 ,
weight_decay = 0.01 ,
word_dropout = 0.1 ,
seed = 1660853059 ,
)
tokenizer . evaluate ( SIGHAN2005_PKU_TEST , save_dir ) من بينها ، نظرًا لأن بذور العدد العشوائي محدد ، يجب أن تكون النتيجة 96.73 . على عكس تلك الأوراق الأكاديمية المعلنة زوراً أو المشاريع التجارية ، تضمن HANLP إعادة إنتاج جميع النتائج. إذا كان لديك أي أسئلة ، فسنقوم بإصلاح المشكلة باعتبارها الأخطاء القاتلة ذات الأولوية القصوى.
يرجى الرجوع إلى العرض التوضيحي لمزيد من البرامج النصية التدريبية.
| لانغ | كوربورا | نموذج | توك | نقاط البيع | نير | dep | يخدع | SRL | SDP | ليم | FEA | عمر | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| بخير | خشن | CTB | PKU | 863 | UD | PKU | MSRA | ontonotes | Semeval16 | DM | PAS | PSD | |||||||||
| مول | ud2.7 Ontonotes5 | صغير | 98.62 | - | - | - | - | 93.23 | - | - | 74.42 | 79.10 | 76.85 | 70.63 | - | 91.19 | 93.67 | 85.34 | 87.71 | 84.51 | - |
| قاعدة | 98.97 | - | - | - | - | 90.32 | - | - | 80.32 | 78.74 | 71.23 | 73.63 | - | 92.60 | 96.04 | 81.19 | 85.08 | 82.13 | - | ||
| ZH | يفتح | صغير | 97.25 | - | 96.66 | - | - | - | - | - | 95.00 | 84.57 | 87.62 | 73.40 | 84.57 | - | - | - | - | - | - |
| قاعدة | 97.50 | - | 97.07 | - | - | - | - | - | 96.04 | 87.11 | 89.84 | 77.78 | 87.11 | - | - | - | - | - | - | ||
| يغلق | صغير | 96.70 | 95.93 | 96.87 | 97.56 | 95.05 | - | 96.22 | 95.74 | 76.79 | 84.44 | 88.13 | 75.81 | 74.28 | - | - | - | - | - | - | |
| قاعدة | 97.52 | 96.44 | 96.99 | 97.59 | 95.29 | - | 96.48 | 95.72 | 77.77 | 85.29 | 88.57 | 76.52 | 73.76 | - | - | - | - | - | - | ||
| إرني | 96.95 | 97.29 | 96.76 | 97.64 | 95.22 | - | 97.31 | 96.47 | 77.95 | 85.67 | 89.17 | 78.51 | 74.10 | - | - | - | - | - | - | ||
إن نسب المعالجة المسبقة للبيانات وتقسيمها المعتمدة من قبل HANLP ليست بالضرورة هي نفس الأساليب الشائعة. على سبيل المثال ، يعتمد HANLP النسخة الكاملة من مجموعة التعرف على الكيان المسمى MSRA بدلاً من النسخة المخصصة التي يستخدمها الجمهور ؛ يستخدم HANLP معيار تبعيات Stanford مع تغطية بناء جملة أوسع ، بدلاً من معيار Zhang و Clark (2008) الذي اعتمده المجتمع الأكاديمي ؛ يقترح HANLP طريقة للتجزئة الموحدة لـ CTBs بدلاً من المجتمع الأكاديمي غير المتكافئ وفقد 51 وثيقة ذهبية. يفتح HANLP مصدر مجموعة كاملة من البرامج النصية للمعالجة المسبقة للجسم والجسم المقابل ، ويسعى جاهدين لتعزيز شفافية NLP الصينية.
باختصار ، لا يفعل Hanlp فقط ما نعتقد أنه صحيح ومتقدم ، وليس بالضرورة ما هو شعبي وموثوق.
إذا كنت تستخدم HANLP في بحثك ، فيرجى اقتباسها بالتنسيق التالي:
@inproceedings { he-choi-2021-stem ,
title = " The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders " ,
author = " He, Han and Choi, Jinho D. " ,
booktitle = " Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing " ,
month = nov,
year = " 2021 " ,
address = " Online and Punta Cana, Dominican Republic " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.emnlp-main.451 " ,
pages = " 5555--5577 " ,
abstract = "Multi-task learning with transformer encoders (MTL) has emerged as a powerful technique to improve performance on closely-related tasks for both accuracy and efficiency while a question still remains whether or not it would perform as well on tasks that are distinct in nature. We first present MTL results on five NLP tasks, POS, NER, DEP, CON, and SRL, and depict its deficiency over single-task learning. We then conduct an extensive pruning analysis to show that a certain set of attention heads get claimed by most tasks during MTL, who interfere with one another to fine-tune those heads for their own objectives. Based on this finding, we propose the Stem Cell Hypothesis to reveal the existence of attention heads naturally talented for many tasks that cannot be jointly trained to create adequate embeddings for all of those tasks. Finally, we design novel parameter-free probes to justify our hypothesis and demonstrate how attention heads are transformed across the five tasks during MTL through label analysis.",
}اتفاقية إذن رمز مصدر HANLP هي APACHE RICENT 2.0 ، والتي يمكن استخدامها لأغراض تجارية مجانًا. يرجى إرفاق اتفاقية ارتباط HANLP وترخيصها بوصف المنتج. HANLP محمية بموجب قانون حقوق الطبع والنشر وسيتم متابعة الانتهاك.
تعمل HANLP بشكل مستقل عن V1.7 ، مع شركة دلالات الطبيعية (Qingdao) Technology Co. ، Ltd. باعتبارها الهيئة الرئيسية للمشروع ، والتي تقود تطوير الإصدارات اللاحقة ولديها حقوق الطبع والنشر للإصدارات اللاحقة.
تم تطوير إصدارات Hanlp V1.3 ~ V1.65 بواسطة Dakuai Search وتستمر في أن تكون مفتوحة المصدر تمامًا. بحث Dakuai لديه حقوق الطبع والنشر ذات الصلة.
تم دعم Hanlp من قبل شركة Shanghai Linyuan في الأيام الأولى ولديها حقوق الطبع والنشر من 1.28 والإصدارات السابقة. تم إصدار الإصدارات ذات الصلة أيضًا على موقع شركة Shanghai Linyuan.
لا يتم تحديد ترخيص نماذج التعلم الآلي بشكل قانوني ، ولكن بروح احترام الترخيص الأصلي لـ Open Source Corpus ، إن لم يكن مذكورًا على وجه التحديد ، يستمر ترخيص النموذج متعدد اللغات في HANLP في استخدام CC BY-SA 4.0 ، وترخيص النموذج الصيني هو لأغراض البحث والتدريس فقط.
https://hanlp.hankcs.com/docs/references.html