JioNLP
1.0.0

pip install jionlpJionlp هي مجموعة أدوات لمطوري NLP ، حيث توفر وظائف المعالجة والتحليل المهمة NLP ، مع عتبة الاستخدام الدقيقة والفعالة وغير الصفر. يرجى إسقاط هذه الصفحة ، والتحقق من معلومات الوظيفة المحددة ، واضغط على Ctrl+F للبحث. يمكن لـ Jionlp Online Edition تجربة بعض الميزات بسرعة. اتبع الحساب الرسمي لـ WeChat الذي يحمل نفس الاسم ، Jionlp ، واحصل على أحدث معلومات من الذكاء الاصطناعي وموارد البيانات.
norm_score.json و max_score.json من بيانات الاختبار باستخدام كلمة المرور jmbo .*.json . $ git clone https://github.com/dongrixinyu/JioNLP
$ cd JioNLP/test/
$ python test_mellm.py
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
>>> llm_test = jio.llm_test_dataset_loader(field='math')
>>> print(llm_test[5])
$ git clone https://github.com/dongrixinyu/JioNLP
$ cd ./JioNLP
$ pip install .
$ pip install jionlp
>>> import jionlp as jio
>>> print(jio.__version__) # 查看 jionlp 的版本
>>> dir(jio)
>>> print(jio.extract_parentheses.__doc__)
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| ابحث عن المساعدة | يساعد | إذا كنت لا تعرف وظائف JionLP ، فيمكنك كتابة عدة كلمات رئيسية وفقًا لمطالبات سطر الأوامر بالبحث | |
| تحليل رقم لوحة الترخيص | parse_motor_vehicle_licence_plate | بالنظر إلى رقم لوحة الترخيص ، قم بتحليله | |
| وقت التحليل الدلالي | parse_time | بالنظر إلى نص زمني ، قم بتحليل دلالات الوقت (الطوابع الزمنية ، المدة) ، إلخ. | |
| استخراج العبارة الرئيسية | extract_keyphrase | بالنظر إلى نص ، استخلص عباراته الرئيسية المقابلة | |
| ملخص النص المستخرج | extract_summary | بالنظر إلى نص ، استخرج قاموسه المقابل | |
| وقف تصفية الكلمات | remove_stopwords | بالنظر إلى قائمة الكلمات بعد مشاركة النص ، قم بإزالة كلمات الإيقاف منه | |
| جملة | split_sentence | ترقيم النص | |
| قرار العنوان | parse_location | بالنظر إلى سلسلة تحتوي على عنوان محلي ، وتحديد المعلومات مثل المقاطعة والمدينة والمقاطعة والبلدة والشارع والقرية ، إلخ. | |
| مكان رقم الهاتف ، تحليل المشغل | phone_location cell_phone_location landline_phone_location | بالنظر إلى رقم الهاتف (رقم الهاتف المحمول ، ورقم الخط الأرضي) ، حدد المقاطعة والمدينة والمشغل. | |
| التعرف على اسم مكان الأخبار | التعرف على _location | بالنظر إلى نص إخباري ، حدد المقاطعات المنزلية والمدن والمقاطعات والدول الأجنبية والمدن وغيرها من المعلومات. | |
| تواريخ التقويم الغريغوري | Lunar2Solar Solar2Lunar | بالنظر إلى تاريخ تقويم معين ، قم بتحويله إلى تقويم إقليمي | |
| تحليل رقم بطاقة الهوية | parse_id_card | بالنظر إلى رقم الهوية ، حدد المقاطعة المقابلة والمدينة والمقاطعة وتاريخ الميلاد ، الجنس ورمز التحقق والمعلومات الأخرى | |
| المصطلح الصلبة | Idiom_solitaire | المصطلح هو نفس الحرف الأخير من المصطلح السابق والحرف الأول من المصطلح التالي (النطق) | |
| تصفية البيانات الإباحية | - | - | |
| تصفية البيانات الرجعية | - | - | |
| الصينيين التقليديين إلى الصينيين | TRA2SIM | الصينية التقليدية إلى الصينية المبسطة ، ودعم وضعين من الحرفيا والحد الأقصى المطابقة | |
| تبسيط اللغة الصينية إلى الصينية التقليدية | Sim2tra | مبسطة من الصينية إلى الصينية التقليدية ، ودعم وضعين من الحرفيا والمطابقة القصوى | |
| الشخصيات الصينية إلى بينين | بينين | اكتشف بينيين الصيني المقابل للنص الصيني ، وإرجاع الأحرف الأولى والنهائيات والنغمة | |
| الأحرف الصينية للجذور والشخصيات | char_radiical | اكتشف معلومات بنية الأحرف الصينية المقابلة للنص الصيني ، بما في ذلك الجذور ("هو" لمبة) ، بنية الخط ("هو" الهيكل الأيسر واليمين) ، رمز الزاوية الأربعة ("هو" 31120) ، تفكيك الشخصية الصينية ("هو" ماء) ، رمز Wubi ("River" ISKG) | |
| رقم المبلغ للشخصيات الصينية | money_num2char | بالنظر إلى مبلغ رقمي ، ارجع نتيجة رسملة الشخصية الصينية | |
| اكتشاف كلمة جديد | new_word_discovery | بالنظر إلى ملف نصي كوربوس ، فإن الاحتمال الكبير لكونه كلمة |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| الرد على الترجمة | ترجمة خلفية | بالنظر إلى نص ، استخدم واجهة الترجمة الآلية للمنصات السحابية للمصنعين الرئيسيين. تنفيذ تحسين البيانات | |
| نقل الأحرف الصينية تقريبا | swap_char_position | تبادل بشكل عشوائي مواقف الأحرف المماثلة لتحقيق تحسين البيانات | |
| استبدال هوموفون | homophone_substitution | استبدال مفردات النطق نفسه لتحقيق تحسين البيانات | |
| إضافة شخصية عشوائية وحذفها | Random_add_delete | أضف أو حذف حرفًا بشكل عشوائي في النص ، والذي ليس له أي تأثير على الدلالات | |
| استبدال كيان NER | استبدال | وفقًا لقاموس الكيان ، لن يؤثر الاستبدال العشوائي لكيان في النص على الدلالات ، كما أنه يستخدم على نطاق واسع في التعليق التوضيحي وتصنيف النص |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| نص نظيف | clean_text | قم بإزالة أحرف الاستثناء ، والأحرف الزائدة ، وعلامات HTML ، ومعلومات قوسين في النص ، عنوان URL ، البريد الإلكتروني ، رقم الهاتف ، التحويل الأبجدي الكامل للعرض إلى نصف عرض | |
| استخراج البريد الإلكتروني | extract_email | استخراج البريد الإلكتروني في النص ، وإرجاع الموقع واسم المجال | |
| تحليل مبلغ العملة | extract_money | تحليل سلسلة العملة | |
| استخراج إشارات WeChat | extract_wechat_id | ارسم معرف WeChat والعودة إلى الموقع | |
| ارسم رقم هاتف | extract_phone_number | استخراج رقم الهاتف (بما في ذلك رقم الهاتف المحمول ورقم الخط الأرضي ) ، وإرجاع اسم المجال ونوعه وموقعه | |
| استخراج معرف بطاقة الهوية الصيني | extract_id_card | استخراج معرف الهوية والتعاون مع jio.parse_id_card لإرجاع المعلومات التفصيلية لبطاقة الهوية ( المقاطعة ، المدينة ، تاريخ الميلاد ، الجنس ، رمز التحقق ) | |
| ارسم رقم QQ | extract_qq | رسم أرقام QQ ، مقسمة إلى قواعد صارمة وقواعد فضفاضة | |
| استخراج عنوان URL | extract_url | استخراج الارتباط التشعبي URL | |
| استخراج عنوان IP | extract_ip_address | استخراج عنوان IP | |
| استخراج المحتويات بين قوسين | extract_parenteses | استخراج محتوى الأقواس ، بما في ذلك {} "[] [] () () <>" | |
| رسم رقم لوحة الترخيص | extract_motor_vehicle_licence_plate | استخراج معلومات رقم لوحة ترخيص البر الرئيسي | |
| حذف البريد الإلكتروني | remove_email | حذف رسالة البريد الإلكتروني في النص | |
| حذف عنوان URL | remove_url | حذف معلومات URL في النص | |
| حذف رقم الهاتف | remove_phone_number | حذف رقم الهاتف في النص | |
| حذف عنوان IP | remove_ip_address | حذف عنوان IP في النص | |
| حذف رقم المعرف | remove_id_card | حذف معلومات بطاقة الهوية في النص | |
| حذف QQ | remove_qq | احذف رقم QQ في النص | |
| حذف علامات HTML | remove_html_tag | حذف علامات HTML المتبقية في النص | |
| احذف المحتوى بين قوسين | remove_parenteses | احذف محتوى الأقواس ، بما في ذلك {} "[] [] () () <>" | |
| حذف أحرف الاستثناء | remove_exception_char | حذف أحرف الاستثناء في النص ، والاحتفاظ بالأحرف الصينية بشكل أساسي وعلامات الترقيم الشائعة الاستخدام. رموز حساب الوحدة ، alphanumerics ، إلخ. | |
| حذف شخصيات زائدة | remove_redundund_char | حذف أحرف مكررة زائدة في النص | |
| البريد الإلكتروني الطبيعي | استبدال _email | رسالة البريد الإلكتروني في النص الطبيعي هي <mail> | |
| عنوان URL الطبيعي | استبدال _url | معلومات عنوان URL في النص الطبيعي هي <Url> | |
| رقم الهاتف الطبيعي | استبدال _phone_number | رقم الهاتف في النص الطبيعي هو <Tel> | |
| عنوان IP الطبيعي | استبدال _ip_address | عنوان IP في النص الطبيعي هو <P> | |
| رقم معرف تطبيع | استبدال _id_card | معلومات بطاقة الهوية في النص الطبيعي هي <Hid> | |
| QQ تطبيع | استبدال _qq | رقم QQ في النص الطبيعي هو <QQ> | |
| تحديد ما إذا كان النص يحتوي على أحرف صينية | check_any_chinese_char | تحقق مما إذا كان النص يحتوي على أحرف صينية. إذا تم تضمين واحد على الأقل ، فسوف يعود صحيح. | |
| تحديد ما إذا كان النص كل الأحرف الصينية | check_all_chinese_char | تحقق مما إذا كانت جميع الأحرف الصينية موجودة في النص. إذا كان كل شيء ، ارجع صحيح | |
| تحديد ما إذا كان النص يحتوي على أرقام عربية | check_any_arabic_num | تحقق مما إذا كان النص يحتوي على الأرقام العربية. إذا تم تضمين واحد على الأقل ، فإنه يعود صحيحًا | |
| تحديد ما إذا كانت جميع النصوص هي الأرقام العربية | check_all_arabic_num | تحقق مما إذا كانت جميع الأرقام العربية في النص هي. إذا كان كل شيء ، ارجع صحيح |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| اقرأ الملفات حسب السطر | read_file_by_iter | من السهل قراءة الملفات سطرًا في شكل مكرر ، وحفظ الذاكرة. يدعم عدد الصفوف المحددة ، تخطي الصفوف الفارغة | |
| اقرأ الملفات حسب السطر | read_file_by_line | اقرأ الملفات حسب السطر ، ودعم عدد الخطوط المحددة ، وتخطي الخطوط الفارغة | |
| اكتب عناصر في القائمة للملف حسب السطر | write_file_by_line | اكتب عناصر في القائمة للملف حسب السطر | |
| أداة التوقيت | الوقت | احسب الوقت الذي يقضيه في قطاع رمز معين | |
| أدوات التسجيل | set_logger | اضبط نموذج إخراج سجل مجموعة الأدوات |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| مجموعة بيانات تقييم نموذج اللغة LLM الكبيرة | jio.llm_test_dataset_loader | مجموعة بيانات تقييم LLM | |
| BPE على مستوى البايت | jio.bpe.byte_level_bpe | خوارزمية على مستوى البايت | |
| توقف عن القاموس | jio.stopwords_loader () | قاموس كلمة توقف شامل لـ Baidu ، Jieba ، Iflytek ، إلخ. | |
| قاموس المصطلح | صينية _idiom_loader | تحميل القاموس المصطلح | |
| قاموس التعابير | xiehouyu_loader | تحميل القاموس المصطلح | |
| القاموس الصيني للأسماء | China_location_loader | قم بتحميل قاموس المستوى الثلاثة لمقاطعة الصين والبلدية والمقاطعة | |
| القاموس الصيني لتعديل الانقسام | China_location_change_loader | سجلات التحميل لإعادة تسمية وإعادة تسمية مستوى المقاطعة وفوق تقسيم المناطق في الصين منذ عام 2018 | |
| قاموس الأسماء العالمي | world_location_loader | تحميل القارة العالمية ، البلد ، قاموس المدينة | |
| قاموس شينخوا | invaling_char_dictionary_loader | تحميل قاموس Xinhua | |
| قاموس شينخوا | صينية _word_dictionary_loader | تحميل قاموس Xinhua |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| استخراج كيان مبلغ العملة | extract_money | استخراج مبلغ العملة من النص | |
| استخراج كيان الوقت | extract_time | استخراج كيانات الوقت من النص | |
| بناء على القاموس ner | معجم | الكيان المتطابق القصوى إلى الأمام استنادًا إلى قاموس الكيان المحدد | |
| كيان للعلامة | entity2tag | تحويل كيان تنسيق JSON إلى تسلسل علامة معالجته بواسطة النموذج | |
| علامة على الكيان | tag2entity | قم بتحويل تسلسل العلامة الذي تتم معالجته بواسطة النموذج إلى كيان تنسيق JSON | |
| رمز رمز الكلمة تحويل الرمز | char2word | تحويل رمز مستوى الحرف إلى رمز مستوى المفردات | |
| كلمة رمزية تحويل كلمة كلمة | Word2Char | تحويل رمز مستوى المفردات إلى رمز مستوى الشخصية | |
| مقارنة بين اختلافات الكيان بين الملصقات والتنبؤات النموذجية | entity_compare | قارن بشكل مختلف مع نتائج الكيان التي تنبأ بها النموذج للشرح اليدوي. | |
| تسارع التنبؤ بنموذج NER | Tokensplitsentence TokenBreakLongSentence Tokenbatchbucket | طرق للتنبؤ بالتسارع الموازي لنماذج NER | |
| تقسيم مجموعة البيانات | Analyze_dataset | يتم تقسيم مجموعة التعليقات التوضيحية NER إلى مجموعة التدريب ، ومجموعة التحقق ، ومجموعة الاختبار ، ويتم تقديم إحصائيات توزيع نوع الكيان لكل مجموعة فرعية. | |
| مجموعة الكيانات | collect_dataset_entities | جمع الكيانات في المجموعة المشروحة لتشكيل قاموس |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| فئة التحليل الساذج بايزي المفردات | Analyze_freq_words | بالنسبة إلى مجموعة تصنيف النص المشروحة ، وأداء تحليل تردد الكلمات الساذجة ، وإعادة المفردات الاحتمالية العالية للشرط لنصوص مختلفة | |
| تقسيم مجموعة البيانات | Analyze_dataset | يتم تقسيم مجموعة التعليقات التوضيحية لتصنيف النص إلى مجموعة التدريب ومجموعة التحقق ومجموعة الاختبار. وإعطاء إحصائيات توزيع التصنيف لكل مجموعة فرعية |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| تحليل المشاعر القائم على القاموس | المعجم | استنادًا إلى القاموس العاطفي الذي تم إنشاؤه بشكل مصطنع ، يتم حساب القيمة العاطفية للنص ، بدءًا من 0 إلى 1 |
| وظيفة | وظيفة | يصف | تصنيف النجوم |
|---|---|---|---|
| كلمة إلى علامة | cws.word2tag | تحويل تسلسل تجزئة كلمة تنسيق JSON إلى تسلسل العلامة المعالجة من النماذج | |
| علامة على الكلمة | CWS.TAG2WORD | قم بتحويل تسلسل العلامة الذي تمت معالجته بواسطة النموذج إلى تجزئة الكلمات تنسيق JSON | |
| إحصائيات F1 قيمة | CWS.F1 | مقارنة بين قيمة F1 لتسمية علامة Word Golling على ملصق التنبؤ النموذج | |
| Word النعت بيانات تصحيح البيانات القياسي | cws.cwsdcwithStandardwords | تصحيح وإصلاح بيانات التعليق التوضيحي لـ Word-Participle باستخدام القاموس القياسي |
Chengyu Cui ، Jionlp ، (2020) ، Github Restository ، https://github.com/dongrixinyu/jionlp

