DocumentFeatureSelection Загрузка - DocumentFeatureSelection исходный код скачать

DocumentFeatureSelection

Данные веб-сайта

1.5: Merge pull request #37 from Kensuke-Mitsuzawa

Скачать

DocumentFeatureSelection

что это?

Это набор кодов выбора функций из текстовых данных. (О выборе функций, см. Здесь или здесь)

Выбор функций действительно важен, когда вы используете метрики машинного обучения на данных естественного языка. Данные о естественном языке обычно содержат много шумовой информации, поэтому метрики машинного обучения слабы, если вы не обрабатываете какую -либо выбор функций. (Есть некоторые исключения из алгоритмов, таких как дерево решений или случайный лес . Они имеют метрику выбора признаков внутри самого алгоритма)

Выбор функций также полезен, когда вы соблюдаете ваши текстовые данные. При выборе функций вы можете узнать, какие функции действительно способствуют конкретным этикеткам.

Пожалуйста, посетите страницу проекта на GitHub.

Если вы найдете какие -либо ошибки и сообщаете об этом в проблему GitHub, я рад.

Любые запросы притяжения приветствуются.

Методы поддержки

Этот пакет предоставляет вам некоторые показатели выбора функций. В настоящее время этот пакет поддерживает следующие методы выбора функций

TF-IDF
Точечная взаимная информация (PMI)
Сила ассоциации (SOA)
Био-нормальное разделение (BNS)

Вклад этого пакета

Легкий интерфейс для предварительной обработки
Легкий интерфейс для доступа к методам выбора функций
Быстрые скоростные вычисления благодаря редкой матрице и многопроцессы

Обзор методов

TF-IDF

Этот метод, на самом деле, просто называет TfidfTransformer из Scikit-Learn.

См. Документ Scikit-Learn о подробной информации.

PMI

PMI рассчитывается по корреляции между функцией (токеном IE) и категорией (т.е. меткой). Конкретно, он делает перекрестный стол (или называемый таблицей непредвиденных обстоятельств ) и вычисляет вероятность сустава и предельную вероятность.

Чтобы узнать больше, см. Ссылку

В Python World NLTK и другой пакет также предоставляют PMI. Проверьте их и выберите на основе ваших предпочтений и использования.

SOA

SOA-это улучшенный метод выбора признаков от PMI. PMI слаб, когда функция имеет низкую частоту слова. SOA основан на вычислениях PMI, однако, это возможно на таких низкочастотных функциях. Кроме того, вы можете получить антикорреляцию между функциями и категориями.

В этом пакете формула SOA от следующей бумаги,

Saif Mohammad and Svetlana Kiritchenko, "Using Hashtags to Capture Fine Emotion Categories from Tweets", Computational Intelligence, 01/2014; 31(2).

 SOA(w, e) = log_2frac{freq(w, e) * freq(neg{e})}{freq(e) * freq(w, neg{e})}

Где

freq (w, e) - это количество раз w встречается в единице (предложение или документ) с меткой E
freq (w, ye) - это количество раз w встречается в единицах, которые не имеют метки e
freq (e) - это количество единиц, имеющих этикетку E
freq (â) - это количество единиц, не имеющих метки E

Bns

BNS является методом выбора функций для данных двоичного класса. Существует несколько методов, доступных для данных двоичного класса, таких как усиление информации (IG) , хи-квадрат (CHI) , отношение шансов (шансы) .

Проблема в том, когда вы выполняете выбор функций на искаженных данных. Эти методы являются слабыми для таких искаженных данных, однако BNS возможен только для искаженных данных. В следующей статье показано, как BNS возможен для искаженных данных.

Lei Tang and Huan Liu, "Bias Analysis in Text Classification for Highly Skewed Data", 2005

или

George Forman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification",Journal of Machine Learning Research 3 (2003) 1289-1305

Требование

Python 3.x (проверенный под Python 3.5)

Настройка

установить

python setup.py install

Примечание

Вы можете увидеть сообщение об ошибке во время выполнения этой команды, например, как

 We failed to install numpy automatically. Try installing numpy manually or Try anaconda distribution.

Это связано с тем, что setup.py пытается установить Numpy и Scipy с pip , однако это не удается. Нам нужны Numpy и Scipy, прежде чем мы установим scikit-learn .

В этом случае вы принимаете следующий выбор

Вы устанавливаете numpy и scipy вручную
Вы используете распределение anaconda Python. Пожалуйста, посетите их сайт.

Пример

 input_dict = {
    "label_a" : [
        [ "I" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "bb" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "I" , "aa" , "hero" , "some" , "ok" , "aa" ]
    ],
    "label_b" : [
        [ "bb" , "bb" , "bb" ],
        [ "bb" , "bb" , "bb" ],
        [ "hero" , "ok" , "bb" ],
        [ "hero" , "cc" , "bb" ],
    ],
    "label_c" : [
        [ "cc" , "cc" , "cc" ],
        [ "cc" , "cc" , "bb" ],
        [ "xx" , "xx" , "cc" ],
        [ "aa" , "xx" , "cc" ],
    ]
}

from DocumentFeatureSelection import interface
interface . run_feature_selection ( input_dict , method = 'pmi' , use_cython = True ). convert_score_matrix2score_record ()

Затем вы получите результат

[{ 'score' : 0.14976146817207336 , 'label' : 'label_c' , 'feature' : 'bb' , 'frequency' : 1.0 }, ...]

См. Сценарии в examples/

Для разработчиков

Вы можете настроить Dev Environment с помощью Docker-Compose.

Эта команда запускает тест с контейнером Docker.

$ cd tests/
$ docker-compose build
$ docker-compose up

Расширять

Дополнительная информация

Версия 1.5: Merge pull request #37 from Kensuke-Mitsuzawa
Тип Данные веб-сайта
Время обновления 2025-07-06
размер 230.84KB
От Github

Связанные приложения

Twitter Sentiment Analysis on Flask App

2025-07-07
data science app road accident analysis

2025-07-06
static web apps cli

2025-06-27
awesome hacking lists

2025-07-03
ssti payloads

2025-06-27
aurelia

2025-01-06

DocumentFeatureSelection