
XMNLP: مجموعة أدوات معالجة اللغة الطبيعية المفتوحة المصدر خارج الصندوق خارج الصندوق
XMNLP: مجموعة أدوات معالجة اللغة الطبيعية الصينية خارج الصندوق
تثبيت أحدث إصدار من XMNLP
pip install -U xmnlp
يمكن للمستخدمين المحليين إضافة فهرس url
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlpبعد تثبيت الحزمة ، تحتاج أيضًا إلى تنزيل أوزان النموذج لاستخدامها بشكل طبيعي.
يرجى تنزيل الإصدار المقابل من نموذج XMNLP. إذا لم تكن واضحًا حول إصدار XMNLP ، فيمكنك تنفيذ python -c 'import xmnlp; print(xmnlp.__version__)' لعرض الإصدار
| اسم النموذج | نسخة قابلة للتطبيق | تنزيل عنوان |
|---|---|---|
| XMNLP-Onnx-Models-V5.zip | v0.5.0 ، v0.5.1 ، v0.5.2 ، v0.5.3 | Feishu [ighi] | Baidu NetDisk [L9id] |
| XMNLP-Onnx-Models-V4.zip | v0.4.0 | Feishu [DKLA] | Baidu NetDisk [J1Qi] |
| XMNLP-Onnx-Models-V3.zip | v0.3.2 ، v0.3.3 | Feishu [O4BA] | Baidu NetDisk [9g7e] |
بعد تنزيل النموذج ، تحتاج إلى تعيين مسار النموذج XMNLP لتشغيله بشكل طبيعي. يتم توفير طريقتين للتكوين
الطريقة 1: تكوين متغيرات البيئة (موصى بها)
بعد إلغاء ضغط النموذج الذي تم تنزيله ، يمكنك تعيين متغير البيئة لتحديد عنوان النموذج. أخذ نظام Linux كمثال ، فإن الإعدادات هي كما يلي
export XMNLP_MODEL=/path/to/xmnlp-modelsالطريقة 2: الإعداد من خلال الوظائف
اضبط عنوان النموذج قبل الاتصال بـ XMNLP ، على النحو التالي
import xmnlp
xmnlp . set_model ( '/path/to/xmnlp-models' )
* ما سبق /path/to/ هو فقط للعنصر النائب. يرجى استبداله بعنوان الدليل الحقيقي للنموذج عند التكوين.
تجزئة الكلمات الصينية (افتراضي) ، استنادًا إلى الحد الأقصى العكسي للمطابقة ، يتم استخدام Roberta + CRF للتعرف على الكلمات الجديدة.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]
لا يتضمن تجزئة الكلمات المستندة إلى الحد الأقصى للعكس التعرف على الكلمات الجديدة ، وهو أسرع.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]
بناءً على نموذج Roberta + CRF ، تكون السرعة أبطأ. حاليًا ، تدعم الواجهة العميقة الصينية المبسطة ، وليس الصينية التقليدية.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]
جزء من شرح الكلام.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]
استنادًا إلى أقصى قدر من المطابقة العكسية ، لا يشمل التعرف على الكلمات الجديدة ، وهو أسرع.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]
بناءً على نموذج Roberta + CRF ، تكون السرعة أبطأ. حاليًا ، تدعم الواجهة العميقة الصينية المبسطة ، وليس الصينية التقليدية.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]دعم القاموس المعرفة من قبل المستخدم ، تنسيق القاموس هو
词1 词性1
词2 词性2
متوافق أيضًا مع تنسيق القاموس لـ Jieba Typle
词1 词频1 词性1
词2 词频2 词性2
ملاحظة: الفاصل في السطر أعلاه هو الفضاء
مثال على الاستخدام:
from xmnlp . lexical . tokenization import Tokenization
# 定义 tokenizer
# detect_new_word 定义是否识别新词,默认 True, 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )
# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )
التعرف على الجسم المسماة ، أنواع الكيان التي تدعم التعرف هي:
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]
استخراج الكلمات الرئيسية من النص ، استنادًا إلى خوارزمية TextTrank.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
...: 在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的
...: 语言。
...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]
استخراج جمل المفاتيح من النص ، استنادًا إلى خوارزمية TextTrank.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
...: 在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的
...: 语言。
...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]
يعتمد الاعتراف العاطفي على تدريب Corpus على مراجعة التجارة الإلكترونية ، وهو مناسب للتعرف العاطفي في سيناريوهات التجارة الإلكترونية.
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = "这本书真不错,下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )
نص إلى بينين
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]
استخراج النص الجذور
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]
تصحيح خطأ النص
المعلمة:
تعود النتيجة:
مثال:
> >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}وظيفة تهيئة الجملة
فيما يلي وظائف الأعضاء الثلاثة في SentenceVector
مثال على الاستخدام
import numpy as np
from xmnlp . sv import SentenceVector
query = '我想买手机'
docs = [
'我想买苹果手机' ,
'我喜欢吃苹果'
]
sv = SentenceVector ( genre = '通用' )
for doc in docs :
print ( 'doc:' , doc )
print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )الإخراج
doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)
لم يعد الإصدار الجديد يوفر واجهة المعالجة المتوازية المقابلة ، ويتطلب استخدام xmnlp.utils.parallel_handler لتحديد واجهة المعالجة المتوازية.
الواجهة كما يلي:
xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]مثال على الاستخدام:
from functools import partial
import xmnlp
from xmnlp . utils import parallel_handler
seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))
نتطلع إلى المزيد من مساهمات الأصدقاء لإنشاء أداة NLP صينية بسيطة وسهلة الاستخدام
@ misc {
xmnlp ,
title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
author = { Xianming Li },
year = { 2018 },
publisher = { GitHub },
howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}
أنا ملتزم بالبحث والتنفيذ في NLP ، وتشمل توجيهاتي: استخراج المعلومات ، التصنيف العاطفي ، إلخ.
لتلبية احتياجات تنفيذ NLP الأخرى ، يرجى الاتصال بـ [email protected] (هذه خدمة مدفوعة ، ويمكن الإبلاغ عن الأخطاء المتعلقة بـ XMNLP مباشرة)
ابحث في الحساب الرسمي xmnlp-ai لمتابعة ، حدد "مجموعة الاتصال" في القائمة للانضمام إلى المجموعة.
البيانات المستخدمة في هذا المشروع هي بشكل أساسي:
Apache 2.0
معظم النماذج مبنية على langml