DocumentFeatureSelection -Download - DocumentFeatureSelection Quellcode Download

DocumentFeatureSelection

Website-Daten

1.5: Merge pull request #37 from Kensuke-Mitsuzawa

Herunterladen

DokumentfeatureSelection

Was ist das?

Dies ist eine Reihe von Feature -Auswahlcodes aus Textdaten. (Über Feature -Auswahl siehe hier oder hier)

Die Feature -Auswahl ist sehr wichtig, wenn Sie maschinelle Lernmetriken für natürliche Sprachdaten verwenden. Die Daten der natürlichen Sprache enthalten normalerweise viele Rauschinformationen, daher sind maschinelle Lernmetriken schwach, wenn Sie keine Feature -Auswahl verarbeiten. (Es gibt einige Ausnahmen von Algorithmen wie Entscheidungsbaum oder zufälliger Wald . Sie haben eine Merkmalsmetrik im Inneren des Algorithmus selbst)

Die Feature -Auswahl ist auch nützlich, wenn Sie Ihre Textdaten beobachten. Mit der Feature -Auswahl erfahren Sie, welche Funktionen wirklich zu bestimmten Etiketten beitragen.

Bitte besuchen Sie die Projektseite auf GitHub.

Wenn Sie Fehler finden und es an GitHub -Problem melden, bin ich froh.

Alle Pull-Requests sind begrüßt.

Unterstützende Methoden

Dieses Paket bietet Ihnen einige Metriken für Funktionsauswahl. Derzeit unterstützt dieses Paket die folgenden Methoden zur Auswahl der Funktionen aus der Feature

Tf-idf
Punkte gegenseitige Informationen (PMI)
Stärke der Assoziation (SOA)
Bi-normale Trennung (BNS)

Beitrag dieses Pakets

Einfache Schnittstelle für die Vorverarbeitung
Einfache Schnittstelle zum Zugriff auf Feature -Auswahlmethoden
Berechnung der schnellen Geschwindigkeit dank der spärlichen Matrix und der Multi-Processing

Überblick über Methoden

Tf-idf

Diese Methode nennt nur TfidfTransformer des Scikit-Learn.

Siehe Scikit-Learn-Dokument über detaillierte Informationen.

PMI

PMI wird durch Korrelation zwischen Merkmal (dh Token) und Kategorie (dh Label) berechnet. Konkret macht es Cross-Tisch (oder als Notfalltabelle bezeichnet) und berechnet die gemeinsame Wahrscheinlichkeit und Grenzwahrscheinlichkeit.

Um mehr zu erfahren, siehe Referenz

In Python World bieten NLTK und ein anderes Paket auch PMI. Überprüfen Sie sie und wählen Sie basierend auf Ihrer Präferenz und Verwendung.

Soa

SOA ist eine verbesserte Merkmalsauswahlmethode von PMI. PMI ist schwach, wenn die Feature eine geringe Wortfrequenz aufweist. SOA basiert auf PMI -Computing, ist jedoch bei solchen niedrigen Frequenzmerkmalen möglich. Darüber hinaus können Sie Anti-Korrelation zwischen Funktionen und Kategorien erhalten.

In diesem Paket stammt die SOA -Formel aus dem folgenden Papier.

Saif Mohammad and Svetlana Kiritchenko, "Using Hashtags to Capture Fine Emotion Categories from Tweets", Computational Intelligence, 01/2014; 31(2).

 SOA(w, e) = log_2frac{freq(w, e) * freq(neg{e})}{freq(e) * freq(w, neg{e})}

Wo

Freq (w, e) ist die Anzahl der Male , die in einer Einheit (Satz oder Dokument) mit Etikett e auftritt
Freq (W, ¬) ist die Häufigkeit, die W in Einheiten auftritt, die das Etikett e nicht haben
Freq (e) ist die Anzahl der Einheiten mit dem Etikett e
Freq (¬) ist die Anzahl der Einheiten, die nicht das Etikett e haben

BNS

BNS ist eine Merkmalsauswahlmethode für Binärklassendaten. Für binäre Klassendaten sind mehrere Methoden verfügbar, wie z. B. Informationsgewinn (IG) , Chi-Quadrat (CHI) , Odds Ratio (Chancen) .

Das Problem ist, wenn Sie Ihre Feature -Auswahl auf verzerrten Daten ausführen. Diese Methoden sind für solche verzerrten Daten schwach. BNS ist jedoch nur für verzerrte Daten möglich. Das folgende Papier zeigt, wie BNS für verzerrte Daten möglich ist.

Lei Tang and Huan Liu, "Bias Analysis in Text Classification for Highly Skewed Data", 2005

oder

George Forman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification",Journal of Machine Learning Research 3 (2003) 1289-1305

Erfordernis

Python 3.x (unter Python 3.5 überprüft)

Einrichten

installieren

python setup.py install

Notiz

Sie sehen möglicherweise die Fehlermeldung beim Ausführen dieses Befehls, wie z. B.

 We failed to install numpy automatically. Try installing numpy manually or Try anaconda distribution.

Dies liegt daran, dass setup.py versucht, Numpy und Scipy mit pip zu installieren, es scheitert jedoch. Wir brauchen Numpy und Scipy, bevor wir scikit-learn installieren.

In diesem Fall treffen Sie die folgende Wahl

Sie installieren numpy und scipy manuell
Sie verwenden anaconda Python Distribution. Bitte besuchen Sie ihre Website.

Beispiel

 input_dict = {
    "label_a" : [
        [ "I" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "bb" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "I" , "aa" , "hero" , "some" , "ok" , "aa" ]
    ],
    "label_b" : [
        [ "bb" , "bb" , "bb" ],
        [ "bb" , "bb" , "bb" ],
        [ "hero" , "ok" , "bb" ],
        [ "hero" , "cc" , "bb" ],
    ],
    "label_c" : [
        [ "cc" , "cc" , "cc" ],
        [ "cc" , "cc" , "bb" ],
        [ "xx" , "xx" , "cc" ],
        [ "aa" , "xx" , "cc" ],
    ]
}

from DocumentFeatureSelection import interface
interface . run_feature_selection ( input_dict , method = 'pmi' , use_cython = True ). convert_score_matrix2score_record ()

Dann erhalten Sie das Ergebnis

[{ 'score' : 0.14976146817207336 , 'label' : 'label_c' , 'feature' : 'bb' , 'frequency' : 1.0 }, ...]

Siehe Skripte in examples/

Für Entwickler

Sie können die Entwicklungsumgebung mit Docker-Compose einrichten.

In diesem Befehl wird der Test mit dem Docker -Container ausgeführt.

$ cd tests/
$ docker-compose build
$ docker-compose up

Expandieren

Zusätzliche Informationen

Version 1.5: Merge pull request #37 from Kensuke-Mitsuzawa
Typ Website-Daten
Aktualisierungszeit 2025-07-06
Größe 230.84KB
Kommt von Github

Ähnliche Anwendungen

Twitter Sentiment Analysis on Flask App

2025-07-07
data science app road accident analysis

2025-07-06
static web apps cli

2025-06-27
awesome hacking lists

2025-07-03
ssti payloads

2025-06-27
aurelia

2025-01-06

DocumentFeatureSelection

DokumentfeatureSelection

Was ist das?

Unterstützende Methoden

Beitrag dieses Pakets

Überblick über Methoden

Tf-idf

PMI

Soa

BNS

Erfordernis

Einrichten

installieren

Notiz

Beispiel

Für Entwickler

Twitter Sentiment Analysis on Flask App

data science app road accident analysis

static web apps cli

awesome hacking lists

ssti payloads

aurelia

chat.petals.dev

GPT Prompt Templates

GPTyped

Twitter Sentiment Analysis on Flask App

data science app road accident analysis

static web apps cli

Google Dorks

shepherd

mongo express