Descargar DocumentFeatureSelection - Descargar el código fuente de DocumentFeatureSelection

DocumentFeatureSelection

Datos del sitio web

1.5: Merge pull request #37 from Kensuke-Mitsuzawa

Descargar

DocumentFeatureSelection

¿Qué es esto?

Este es un conjunto de códigos de selección de características de los datos de texto. (Sobre la selección de características, ver aquí o aquí)

La selección de características es realmente importante cuando usa métricas de aprendizaje automático en datos del lenguaje natural. Los datos del lenguaje natural generalmente contienen mucha información de ruido, por lo que las métricas de aprendizaje automático son débiles si no procesa ninguna selección de características. (Hay algunas excepciones de algoritmos como el árbol de decisión o el bosque aleatorio . Tienen una métrica de selección de características dentro del algoritmo en sí)

La selección de características también es útil cuando observa sus datos de texto. Con la selección de características, puede saber qué características realmente contribuyen a etiquetas específicas.

Visite la página del proyecto en GitHub.

Si encuentra algún error y lo informa al problema de GitHub, me alegro.

Cualquier solicitud de extracción es bienvenida.

Métodos de apoyo

Este paquete le proporciona algunas métricas de selección de características. Actualmente, este paquete admite los siguientes métodos de selección de características

TF-IDF
Información mutua de puntos (PMI)
Fuerza de asociación (SOA)
Separación bi-normal (BNS)

Contribución de este paquete

Interfaz fácil para el preprocesamiento
Interfaz fácil para acceder a métodos de selección de características
Computación de velocidad rápida gracias a la matriz dispersa y al procesamiento múltiple

Descripción general de los métodos

TF-IDF

Este método, de hecho, solo llama TfidfTransformer de Scikit-Learn.

Consulte el documento Scikit-Learn sobre información detallada.

PMI

PMI se calcula por correlación entre característica (es decir, token) y categoría (es decir, etiqueta). Concretamente, fabrica una tabla cruzada (o llamada tabla de contingencia ) y calcula la probabilidad articular y la probabilidad marginal.

Para saber más, ver referencia

En Python World, NLTK y otro paquete también proporcionan PMI. Visítelos y elija en función de su preferencia y uso.

SOA

SOA es un método de selección de características mejorado de PMI. PMI es débil cuando la característica tiene una frecuencia de palabras baja. SOA se basa en la computación PMI, sin embargo, es factible en características de baja frecuencia. Además, puede obtener anticorrelación entre características y categorías.

En este paquete, la fórmula de SOA es del siguiente papel,

Saif Mohammad and Svetlana Kiritchenko, "Using Hashtags to Capture Fine Emotion Categories from Tweets", Computational Intelligence, 01/2014; 31(2).

 SOA(w, e) = log_2frac{freq(w, e) * freq(neg{e})}{freq(e) * freq(w, neg{e})}

Dónde

La frecuencia (w, e) es el número de veces que ocurre en una unidad (oración o documento) con la etiqueta e
La frecuencia (w, ¬E) es el número de veces que ocurre en unidades que no tienen la etiqueta e
la frecuencia (e) es el número de unidades que tienen la etiqueta e
Freq (¬E) es el número de unidades que no tienen la etiqueta E

Bns

BNS es un método de selección de características para datos de clase binaria. Existe varios métodos disponibles para datos de clase binaria, como ganancia de información (IG) , chi-cuadrado (chi) , odds ratio (probabilidades) .

El problema es cuando ejecuta su selección de características en datos sesgados. Estos métodos son débiles para tales datos sesgados, sin embargo, BNS es factible solo para los datos sesgados. El siguiente artículo muestra cómo BNS es factible para los datos sesgados.

Lei Tang and Huan Liu, "Bias Analysis in Text Classification for Highly Skewed Data", 2005

o

George Forman, "An Extensive Empirical Study of Feature Selection Metrics for Text Classification",Journal of Machine Learning Research 3 (2003) 1289-1305

Requisito

Python 3.x (marcado en Python 3.5)

Configuración

instalar

python setup.py install

Nota

Es posible que vea un mensaje de error durante la ejecución de este comando, como

 We failed to install numpy automatically. Try installing numpy manually or Try anaconda distribution.

Esto se debe a que setup.py intenta instalar Numpy y Scipy con pip , sin embargo, falla. Necesitamos Numpy y Scipy antes de instalar scikit-learn .

En este caso, tomas la opción de después

Instalas numpy y scipy manualmente
Usas la distribución de anaconda Python. Visite su sitio.

Ejemplo

 input_dict = {
    "label_a" : [
        [ "I" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "bb" , "aa" , "aa" , "aa" , "aa" , "aa" ],
        [ "I" , "aa" , "hero" , "some" , "ok" , "aa" ]
    ],
    "label_b" : [
        [ "bb" , "bb" , "bb" ],
        [ "bb" , "bb" , "bb" ],
        [ "hero" , "ok" , "bb" ],
        [ "hero" , "cc" , "bb" ],
    ],
    "label_c" : [
        [ "cc" , "cc" , "cc" ],
        [ "cc" , "cc" , "bb" ],
        [ "xx" , "xx" , "cc" ],
        [ "aa" , "xx" , "cc" ],
    ]
}

from DocumentFeatureSelection import interface
interface . run_feature_selection ( input_dict , method = 'pmi' , use_cython = True ). convert_score_matrix2score_record ()

Entonces, obtienes el resultado

[{ 'score' : 0.14976146817207336 , 'label' : 'label_c' , 'feature' : 'bb' , 'frequency' : 1.0 }, ...]

Ver scripts en examples/

Para desarrolladores

Podrías configurar el entorno de desarrollo con Docker-Compose.

Este comando ejecuta prueba con el contenedor Docker.

$ cd tests/
$ docker-compose build
$ docker-compose up

Expandir

Información adicional

Versión 1.5: Merge pull request #37 from Kensuke-Mitsuzawa
Tipo Datos del sitio web
Fecha de actualización 2025-07-06
tamaño 230.84KB
Proviene de Github

Aplicaciones relacionadas

Twitter Sentiment Analysis on Flask App

2025-07-07
data science app road accident analysis

2025-07-06
static web apps cli

2025-06-27
awesome hacking lists

2025-07-03
ssti payloads

2025-06-27
aurelia

2025-01-06

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

Datos del sitio web

1.0.0
data science app road accident analysis

Datos del sitio web

1.0.0
static web apps cli

Datos del sitio web

v2.0.2
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo