DocumentFeatureSelection تنزيل - DocumentFeatureSelection Source Code Download

DocumentFeatureSelection

بيانات الموقع

1.5: Merge pull request #37 from Kensuke-Mitsuzawa

تنزيل

DocumentFeatureSelection

ما هذا؟

هذا هو مجموعة من رموز اختيار الميزات من البيانات النصية. (حول اختيار الميزة ، انظر هنا أو هنا)

يعد اختيار الميزات مهمًا حقًا عند استخدام مقاييس التعلم الآلي على بيانات اللغة الطبيعية. تحتوي بيانات اللغة الطبيعية عادة على الكثير من معلومات الضوضاء ، وبالتالي تكون مقاييس التعلم الآلي ضعيفة إذا لم تقم بمعالجة أي اختيار للميزات. (هناك بعض الاستثناءات من الخوارزميات مثل شجرة القرار أو الغابات العشوائية . لديهم مقياس اختيار الميزات داخل الخوارزمية نفسها)

يعد اختيار الميزة مفيدًا أيضًا عند ملاحظة بيانات النص الخاصة بك. مع اختيار الميزات ، يمكنك التعرف على الميزات التي تسهم حقًا في ملصقات محددة.

يرجى زيارة صفحة المشروع على جيثب.

إذا وجدت أي أخطاء وقمت بالإبلاغ عنها لمشكلة github ، فأنا سعيد.

يتم الترحيب بأي من أدوات السحب.

الأساليب الداعمة

توفر لك هذه الحزمة بعض مقاييس اختيار الميزات. حاليًا ، تدعم هذه الحزمة طرق اختيار الميزات التالية

TF-IDF
معلومات متبادلة نقطة (PMI)
قوة الارتباط (SOA)
فصل ثنائي الطبيعية (BNS)

مساهمة هذه الحزمة

واجهة سهلة للمعالجة المسبقة
واجهة سهلة للوصول إلى طرق اختيار الميزات
حساب السرعة السريعة بفضل المصفوفة المتفرقة والمعالجة المتعددة

نظرة عامة على الأساليب

TF-IDF

هذه الطريقة ، في الواقع ، تستدعي فقط TfidfTransformer من scikit-learn.

انظر وثيقة Scikit-Learn حول المعلومات التفصيلية.

PMI

يتم حساب PMI من خلال الارتباط بين الميزة (أي الرمز المميز) والفئة (IE Label). بشكل ملموس ، فإنه يجعل الطاولة المتقاطعة (أو تسمى جدول الطوارئ ) ويحسب احتمال المفصل والاحتمال الهامشي عليه.

لمعرفة المزيد ، انظر المرجع

في Python World ، توفر NLTK وغيرها من الحزم مديري المشتريات. تحقق منها واختر بناءً على تفضيلاتك واستخدامك.

الخدمية

يتم تحسين SOA طريقة اختيار الميزات من PMI. PMI ضعيف عندما يكون للميزة تردد منخفض الكلمة. تعتمد SOA على حوسبة PMI ، ومع ذلك ، فهي ممكنة على ميزات التردد المنخفضة هذه. علاوة على ذلك ، يمكنك الحصول على الارتباط بين الميزات والفئات.

في هذه الحزمة ، تتمثل صيغة SOA من الورق التالي ،

Saif Mohammad and Svetlana Kiritchenko, "Using Hashtags to Capture Fine Emotion Categories from Tweets", Computational Intelligence, 01/2014; 31(2).

 SOA(w, e) = log_2frac{freq(w, e) * freq(neg{e})}{freq(e) * freq(w, neg{e})}

أين

Freq (W ، e) هو عدد المرات التي تحدث فيها W في وحدة (الجملة أو المستند) مع الملصق E
Freq (w ، ¬e) هو عدد المرات التي تحدث فيها في الوحدات التي لا تحتوي على الملصق e
Freq (E) هو عدد الوحدات التي تحتوي على الملصق E
Freq (¬e) هو عدد الوحدات التي لا تحتوي على الملصق E

BNS

BNS هي طريقة اختيار ميزة لبيانات الفئة الثنائية. هناك العديد من الطرق المتاحة لبيانات الفئة الثنائية ، مثل كسب المعلومات (IG) ، و CHI-Squared (CHI) ، ونسبة الأرجحية (الأرجحية) .

المشكلة هي عند تنفيذ اختيار الميزة على البيانات المنحرفة. هذه الطرق ضعيفة بالنسبة لمثل هذه البيانات المنحرفة ، ومع ذلك ، فإن BNS ممكنة فقط للبيانات المنحرفة. توضح الورقة التالية كيف أن BNS ممكنة للبيانات المنحرفة.

Lei Tang and Huan Liu, "Bias Analysis in Text Classification for Highly Skewed Data", 2005

أو

George Forman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification",Journal of Machine Learning Research 3 (2003) 1289-1305

متطلبات

بيثون 3.x (تم فحصه تحت بيثون 3.5)

إنشاء

ثَبَّتَ

python setup.py install

ملحوظة

قد ترى رسالة خطأ أثناء تشغيل هذا الأمر ، مثل

 We failed to install numpy automatically. Try installing numpy manually or Try anaconda distribution.

وذلك لأن setup.py يحاول Instal Numpy و Scipy مع pip ، ومع ذلك فشلت. نحن بحاجة إلى Numpy و Scipy قبل تثبيت scikit-learn .

في هذه الحالة ، تأخذ الاختيار التالي

تقوم بتثبيت numpy و scipy يدويًا
يمكنك استخدام توزيع anaconda Python. يرجى زيارة موقعهم.

مثال

 input_dict = {
    "label_a" : [
        [ "I" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "bb" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "I" , "aa" , "hero" , "some" , "ok" , "aa" ]
    ],
    "label_b" : [
        [ "bb" , "bb" , "bb" ],
        [ "bb" , "bb" , "bb" ],
        [ "hero" , "ok" , "bb" ],
        [ "hero" , "cc" , "bb" ],
    ],
    "label_c" : [
        [ "cc" , "cc" , "cc" ],
        [ "cc" , "cc" , "bb" ],
        [ "xx" , "xx" , "cc" ],
        [ "aa" , "xx" , "cc" ],
    ]
}

from DocumentFeatureSelection import interface
interface . run_feature_selection ( input_dict , method = 'pmi' , use_cython = True ). convert_score_matrix2score_record ()

ثم تحصل على النتيجة

[{ 'score' : 0.14976146817207336 , 'label' : 'label_c' , 'feature' : 'bb' , 'frequency' : 1.0 }, ...]

انظر البرامج النصية في examples/

للمطورين

يمكنك إعداد بيئة ديف مع Docker-Cormse.

يقوم هذا الأمر بتشغيل اختبار مع حاوية Docker.

$ cd tests/
$ docker-compose build
$ docker-compose up

يوسع

معلومات إضافية

الإصدار 1.5: Merge pull request #37 from Kensuke-Mitsuzawa
النوع بيانات الموقع
وقت التحديث 2025-07-06
الحجم 230.84KB
من Github

تطبيقات ذات صلة

Twitter Sentiment Analysis on Flask App

2025-07-07
data science app road accident analysis

2025-07-06
static web apps cli

2025-06-27
awesome hacking lists

2025-07-03
ssti payloads

2025-06-27
aurelia

2025-01-06

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

بيانات الموقع

1.0.0
data science app road accident analysis

بيانات الموقع

1.0.0
static web apps cli

بيانات الموقع

v2.0.2
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل