تحميل xmnlp - تحميل رمز المصدر xmnlp

XMNLP: مجموعة أدوات معالجة اللغة الطبيعية المفتوحة المصدر خارج الصندوق خارج الصندوق

XMNLP: مجموعة أدوات معالجة اللغة الطبيعية الصينية خارج الصندوق

نظرة عامة على الميزة

التحليل المعجمي الصيني (Roberta + CRF Finetune)
- النعت
- جزء من شرح الكلام
- اسم التعرف على الجسم
- يدعم القواميس المخصصة
التحقق الإملائي الصيني (كاشف + مصحح الإملائي)
ملخص النص واستخراج الكلمات الرئيسية (Textrank)
تحليل المشاعر (روبرتا فينيتون)
رسالة نصية إلى Pinyin (تري)
الأحرف الصينية المتطرفون (HashMap)
تمثيل الجملة وحساب التشابه

مخطط

1. التثبيت
- تنزيل النموذج
- نموذج التكوين
2. استخدم المستند
- النعت الافتراضي: SEG
  - النعت السريع: fast_seg
  - النعت العمق: deep_seg
- جزء من شرح الكلام: علامة
  - جزء سريع من شرح الكلام: fast_tag
  - تعليق توضيحي في جزء من الكلام: DEEP_TAG
- الكلمة الجزئية وجزئيات من القاموس المخصص لتوضيح الكلمات
- اسم التعرف على الجسم: ner
- استخراج الكلمات الرئيسية: الكلمة الرئيسية
- استخراج بيان المفتاح: keyphrase
- الاعتراف العاطفي: المشاعر
- استخراج Pinyin: Pinyin
- استخراج جذري: جذري
- تصحيح خطأ النص: المدقق
- تمثيل الجملة وحساب التشابه: Sentence_Vector
- معالجة موازية
3. المزيد
- المساهمين
- الاستشهادات الأكاديمية
- بحاجة إلى تخصيص
- مجموعة الاتصال
الامتناع
رخصة

1. التثبيت

تثبيت أحدث إصدار من XMNLP

pip install -U xmnlp

يمكن للمستخدمين المحليين إضافة فهرس url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

بعد تثبيت الحزمة ، تحتاج أيضًا إلى تنزيل أوزان النموذج لاستخدامها بشكل طبيعي.

تنزيل النموذج

يرجى تنزيل الإصدار المقابل من نموذج XMNLP. إذا لم تكن واضحًا حول إصدار XMNLP ، فيمكنك تنفيذ python -c 'import xmnlp; print(xmnlp.__version__)' لعرض الإصدار

اسم النموذج	نسخة قابلة للتطبيق	تنزيل عنوان
XMNLP-Onnx-Models-V5.zip	v0.5.0 ، v0.5.1 ، v0.5.2 ، v0.5.3	Feishu [ighi] \| Baidu NetDisk [L9id]
XMNLP-Onnx-Models-V4.zip	v0.4.0	Feishu [DKLA] \| Baidu NetDisk [J1Qi]
XMNLP-Onnx-Models-V3.zip	v0.3.2 ، v0.3.3	Feishu [O4BA] \| Baidu NetDisk [9g7e]

نموذج التكوين

بعد تنزيل النموذج ، تحتاج إلى تعيين مسار النموذج XMNLP لتشغيله بشكل طبيعي. يتم توفير طريقتين للتكوين

الطريقة 1: تكوين متغيرات البيئة (موصى بها)

بعد إلغاء ضغط النموذج الذي تم تنزيله ، يمكنك تعيين متغير البيئة لتحديد عنوان النموذج. أخذ نظام Linux كمثال ، فإن الإعدادات هي كما يلي

 export XMNLP_MODEL=/path/to/xmnlp-models

الطريقة 2: الإعداد من خلال الوظائف

اضبط عنوان النموذج قبل الاتصال بـ XMNLP ، على النحو التالي

 import xmnlp

xmnlp . set_model ( '/path/to/xmnlp-models' )

* ما سبق /path/to/ هو فقط للعنصر النائب. يرجى استبداله بعنوان الدليل الحقيقي للنموذج عند التكوين.

2. استخدم المستند

xmnlp.seg (النص: STR) -> قائمة [STR]

تجزئة الكلمات الصينية (افتراضي) ، استنادًا إلى الحد الأقصى العكسي للمطابقة ، يتم استخدام Roberta + CRF للتعرف على الكلمات الجديدة.

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة ، النتائج بعد تجزئة الكلمات

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.fast_seg (النص: str) -> قائمة [str]

لا يتضمن تجزئة الكلمات المستندة إلى الحد الأقصى للعكس التعرف على الكلمات الجديدة ، وهو أسرع.

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة ، النتائج بعد تجزئة الكلمات

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即' , '用' , '的' , '轻量级' , '中文' , '自然语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.deep_seg (النص: str) -> قائمة [str]

بناءً على نموذج Roberta + CRF ، تكون السرعة أبطأ. حاليًا ، تدعم الواجهة العميقة الصينية المبسطة ، وليس الصينية التقليدية.

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة ، النتائج بعد تجزئة الكلمات

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_seg ( text ))
[ 'xmnlp' , '是' , '一款' , '开箱' , '即用' , '的' , '轻' , '量级' , '中文' , '自然' , '语言' , '处理' , '工具' , '?' , '。' ]

xmnlp.tag (النص: str) -> قائمة [tuple (str ، str)]

جزء من شرح الكلام.

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة الكلمات وجزء من الكلام

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.fast_tag (نص: str) -> قائمة [tuple (str ، str)]

استنادًا إلى أقصى قدر من المطابقة العكسية ، لا يشمل التعرف على الكلمات الجديدة ، وهو أسرع.

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة الكلمات وجزء من الكلام

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . fast_tag ( text ))
[( 'xmnlp' , 'eng' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'n' ), ( '即' , 'v' ), ( '用' , 'p' ), ( '的' , 'uj' ), ( '轻量级' , 'b' ), ( '中文' , 'nz' ), ( '自然语言' , 'l' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'x' ), ( '。' , 'x' )]

xmnlp.deep_tag (نص: str) -> قائمة [tuple (str ، str)]

النص: أدخل النص

تعود النتيجة:

قائمة الكلمات وجزء من الكلام

مثال:

 > >> import xmnlp
> >> text = """xmnlp 是一款开箱即用的轻量级中文自然语言处理工具?。"""
> >> print ( xmnlp . deep_tag ( text ))
[( 'xmnlp' , 'x' ), ( '是' , 'v' ), ( '一款' , 'm' ), ( '开箱' , 'v' ), ( '即用' , 'v' ), ( '的' , 'u' ), ( '轻' , 'nz' ), ( '量级' , 'b' ), ( '中文' , 'nz' ), ( '自然' , 'n' ), ( '语言' , 'n' ), ( '处理' , 'v' ), ( '工具' , 'n' ), ( '?' , 'w' ), ( '。' , 'w' )]

الكلمة الجزئية وجزئيات من القاموس المخصص لتوضيح الكلمات

دعم القاموس المعرفة من قبل المستخدم ، تنسيق القاموس هو

词1 词性1
词2 词性2

متوافق أيضًا مع تنسيق القاموس لـ Jieba Typle

词1 词频1 词性1
词2 词频2 词性2

ملاحظة: الفاصل في السطر أعلاه هو الفضاء

مثال على الاستخدام:

 from xmnlp . lexical . tokenization import Tokenization

# 定义 tokenizer
# detect_new_word 定义是否识别新词，默认 True， 设为 False 时速度会更快
tokenizer = Tokenization ( user_dict_path , detect_new_word = True )

# 分词
tokenizer . seg ( texts )
# 词性标注
tokenizer . tag ( texts )

xmnlp.ner (النص: str) -> قائمة [tuple (str ، str ، int ، int)]

التعرف على الجسم المسماة ، أنواع الكيان التي تدعم التعرف هي:

الوقت: الوقت
الموقع: الموقع
الشخص: شخصيات
الوظيفة: مهنة
المنظمة: منظمة

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة الكيانات وأنواع الكيانات ومواقف بدء الكيانات ومراكز نهاية الكيان

مثال:

 > >> import xmnlp
> >> text = "现任美国总统是拜登。"
> >> print ( xmnlp . ner ( text ))
[( '美国' , 'LOCATION' , 2 , 4 ), ( '总统' , 'JOB' , 4 , 6 ), ( '拜登' , 'PERSON' , 7 , 9 )]

xmnlp.keyword (النص: str ، k: int = 10 ، stopword: bool = true ، allowpos: اختياري [قائمة [str]] = لا شيء) -> القائمة [tuple [str ، float]]

استخراج الكلمات الرئيسية من النص ، استنادًا إلى خوارزمية TextTrank.

المعلمة:

النص: إدخال نص
ك: إرجاع عدد الكلمات الرئيسية
كلمة التوقف: ما إذا كنت ستزيل كلمة التوقف
ALTERPOS: تكوين جودة الكلمات المسموح بها

تعود النتيجة:

قائمة الكلمات الرئيسية والأوزان

مثال:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyword ( text ))
[( '自然语言' , 2.3000579596585897 ), ( '语言' , 1.4734141257937314 ), ( '计算机' , 1.3747500999598312 ), ( '转化' , 1.2687686226652466 ), ( '系统' , 1.1171384775870152 ), ( '领域' , 1.0970728069617324 ), ( '人类' , 1.0192131829490039 ), ( '生成' , 1.0075197087342542 ), ( '认知' , 0.9327188339671753 ), ( '指' , 0.9218423928455112 )]

xmnlp.keyphrase (النص: str ، k: int = 10 ، stopword: bool = false) -> list [str]

استخراج جمل المفاتيح من النص ، استنادًا إلى خوارزمية TextTrank.

المعلمة:

النص: إدخال نص
ك: إرجاع عدد الكلمات الرئيسية
كلمة التوقف: ما إذا كنت ستزيل كلمة التوقف

تعود النتيجة:

قائمة الكلمات الرئيسية والأوزان

مثال:

 > >> import xmnlp
> >> text = """自然语言处理: 是人工智能和语言学领域的分支学科。
    ...: 在这此领域中探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的
    ...: 语言。
    ...: 自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化
    ...: 为计算机程序更易于处理的形式。"""
> >> print ( xmnlp . keyphrase ( text , k = 2 ))
[ '自然语言理解系统把自然语言转化为计算机程序更易于处理的形式' , '自然语言生成系统把计算机数据转化为自然语言' ]

xmnlp.sentiment (النص: str) -> tuple [تعويم ، تعويم]

يعتمد الاعتراف العاطفي على تدريب Corpus على مراجعة التجارة الإلكترونية ، وهو مناسب للتعرف العاطفي في سيناريوهات التجارة الإلكترونية.

المعلمة:

النص: أدخل النص

تعود النتيجة:

Tuple ، التنسيق: [احتمال المشاعر السلبية ، احتمال العاطفة الإيجابية]

مثال:

 > >> import xmnlp
> >> text = "这本书真不错，下次还要买"
> >> print ( xmnlp . sentiment ( text ))
( 0.02727833203971386 , 0.9727216958999634 )

xmnlp.pinyin (النص: STR) -> قائمة [STR]

نص إلى بينين

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة Pinyin

مثال:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . pinyin ( text ))
[ 'Zi' , 'ran' , 'yu' , 'yan' , 'chu' , 'li' ]

xmnlp.radiical (النص: STR) -> قائمة [STR]

استخراج النص الجذور

المعلمة:

النص: أدخل النص

تعود النتيجة:

قائمة المتطرفين

مثال:

 > >> import xmnlp
> >> text = "自然语言处理"
> >> print ( xmnlp . radical ( text ))
[ '自' , '灬' , '讠' , '言' , '夂' , '王' ]

xmnlp.checker (النص: str ، اقترح: bool = true ، k: int = 5 ، max_k: int = 200) -> الاتحاد [قائمة [tuple [int ، str]] ، dict [tuple [int ، str] ، قائمة [tuple [str ، float]]]]:

تصحيح خطأ النص

المعلمة:

النص: أدخل النص
اقترح: ما إذا كان لإرجاع الكلمة المقترحة
ك: إرجاع عدد الكلمات المقترحة
Max_K: الحد الأقصى لعدد عمليات البحث Pinyin (يوصى بالحفاظ على القيمة الافتراضية)

تعود النتيجة:

عندما يكون الإشارة خاطئة ، فإنه يعيد قائمة (كلمة خاطئ ، كلمة خاطئة) ؛ عندما يكون اقتراحًا صحيحًا ، فإنه يعيد القاموس ، ومفتاح القاموس هو قائمة (Wrate Word Corrcs ، Wrate Word) ، والقيم هي الكلمات المقترحة وقائمة الوزن.

مثال:

 > >> import xmnlp
> >> text = "不能适应体育专业选拔人材的要求"
> >> print ( xmnlp . checker ( text ))
{( 11 , '材' ): [( '才' , 1.58528071641922 ), ( '材' , 1.0009655653266236 ), ( '裁' , 1.0000178480604518 ), ( '员' , 0.35814568400382996 ), ( '士' , 0.011077565141022205 )]}

xmnlp.sv.sentencevector (model_dir: اختياري [str] = لا شيء ، النوع: str = 'عام' ، max_length: int = 512)

وظيفة تهيئة الجملة

Model_dir: يتم تحميل العنوان حفظ النموذج ، ويتم تحميل وزن النموذج الذي توفره XMNLP افتراضيًا
النوع: نوع المحتوى ، يدعم حاليًا ثلاثة أنواع: ["عام" ، "مالي" ، "دولي"]
max_length: الحد الأقصى لطول نص الإدخال ، الافتراضي 512

فيما يلي وظائف الأعضاء الثلاثة في SentenceVector

xmnlp.sv.sentencevector.transform (Self ، Text: Str) -> np.ndarray

Xmnlp.Sv.SentenceVector.Similarity (Self ، X: Union [Str ، NP.Ndarray] ، Y: Union [Str ، NP.Ndarray]) -> Float

XMNLP.SV.SentenceVector.most_similar (الذات ، الاستعلام: STR ، المستندات: قائمة [STR] ، K: int = 1 ، ** kwargs) -> قائمة [tuple [str ، float]]

الاستعلام: محتوى الاستعلام
مستندات: قائمة المستندات
ك: إرجاع نص مشابه
Kwargs: معلمات Kdtree ، انظر Sklearn.neighbors.kdtree

مثال على الاستخدام

 import numpy as np
from xmnlp . sv import SentenceVector


query = '我想买手机'
docs = [
    '我想买苹果手机' ,
    '我喜欢吃苹果'
]

sv = SentenceVector ( genre = '通用' )
for doc in docs :
    print ( 'doc:' , doc )
    print ( 'similarity:' , sv . similarity ( query , doc ))
print ( 'most similar doc:' , sv . most_similar ( query , docs ))
print ( 'query representation shape:' , sv . transform ( query ). shape )

الإخراج

 doc: 我想买苹果手机
similarity: 0.68668646
doc: 我喜欢吃苹果
similarity: 0.3020076
most similar doc: [('我想买苹果手机', 16.255546509314417)]
query representation shape: (312,)

معالجة موازية

لم يعد الإصدار الجديد يوفر واجهة المعالجة المتوازية المقابلة ، ويتطلب استخدام xmnlp.utils.parallel_handler لتحديد واجهة المعالجة المتوازية.

الواجهة كما يلي:

 xmnlp . utils . parallel_handler ( callback : Callable , texts : List [ str ], n_jobs : int = 2 , ** kwargs ) - > Generator [ List [ Any ], None , None ]

مثال على الاستخدام:

 from functools import partial

import xmnlp
from xmnlp . utils import parallel_handler


seg_parallel = partial ( parallel_handler , xmnlp . seg )
print ( seg_parallel ( texts ))

3. المزيد

حول المساهمين

نتطلع إلى المزيد من مساهمات الأصدقاء لإنشاء أداة NLP صينية بسيطة وسهلة الاستخدام

اقتباس أكاديمي

@ misc {
  xmnlp ,
  title = { XMNLP : A Lightweight Chinese Natural Language Processing Toolkit },
  author = { Xianming Li },
  year = { 2018 },
  publisher = { GitHub },
  howpublished = { url { https : // github . com / SeanLee97 / xmnlp }},
}

بحاجة إلى تخصيص

أنا ملتزم بالبحث والتنفيذ في NLP ، وتشمل توجيهاتي: استخراج المعلومات ، التصنيف العاطفي ، إلخ.

لتلبية احتياجات تنفيذ NLP الأخرى ، يرجى الاتصال بـ [email protected] (هذه خدمة مدفوعة ، ويمكن الإبلاغ عن الأخطاء المتعلقة بـ XMNLP مباشرة)

مجموعة الاتصال

ابحث في الحساب الرسمي xmnlp-ai لمتابعة ، حدد "مجموعة الاتصال" في القائمة للانضمام إلى المجموعة.

مرجع

البيانات المستخدمة في هذا المشروع هي بشكل أساسي:

تحليل معجمي ، تصحيح خطأ النص: اقتباس الناس اليومي للأشخاص
الاعتراف العاطفي: Chinesenlpcorpus

رخصة

Apache 2.0

معظم النماذج مبنية على langml

يوسع