import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectEliminar todos los dígitos:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : objectEliminar dígitos reemplaza solo bloques de dígitos. Los dígitos en la cadena "Hello123" no se eliminarán. Si queremos eliminar todos los dígitos, debe establecer solo_blocks en falso.
Elimine todo tipo de soportes y su contenido.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectEliminar los diacríticos.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : objectEliminar la puntuación.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectEliminar espacios blancos adicionales.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectA veces también queremos deshacernos de las palabras de parada.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object Textero está compuesto por cuatro módulos: Preprocessing.py, Nlp.py, Represent.py y Visualization.py.
Alcance: Prepare datos de texto para un análisis posterior.
Documentación completa: preprocesamiento
Alcance: Proporcione herramientas clásicas de procesamiento de lenguaje natural como named_entity y noun_phrases .
Documentación completa: NLP
Alcance: asigne datos de texto en vectores y realice una reducción de dimensionalidad.
Algoritmos de representación compatibles:
count )tfidf )Algoritmos de agrupación compatibles:
kmeans )dbscan )meanshift )Algoritmos de reducción de dimensionalidad compatible:
pca )tsne )nmf )Documentación completa: representación
Alcance: resume los hechos principales con respecto a los datos de texto y visualice. Este módulo es obstinado. Es útil para cualquier persona que necesite una solución rápida para visualizar en la pantalla de los datos de texto, por ejemplo, durante un análisis de datos exploratorios de texto (EDA).
Funciones compatibles:
scatterplot )top_words )Documentación completa: visualización
A veces solo queremos hacer las cosas, ¿verdad? Textero ayuda con eso. Ayuda a facilitar las cosas y darle al desarrollador más tiempo para concentrarse en sus requisitos personalizados. Creemos que la limpieza del texto debería tomar un minuto. Lo mismo para encontrar la parte más importante de un texto y lo mismo para representarlo.
De una manera muy pragmática, Textero tiene solo un objetivo: hacer que el desarrollador se haga tiempo libre. Trabajar con datos de texto puede ser un dolor y, en la mayoría de los casos, una tubería predeterminada puede ser bastante buena para comenzar. Siempre hay tiempo para volver y mejorar el trabajo anterior.
"Textero ha sido desarrollado por un miembro de la comunidad de PNL para toda la comunidad de PNL"
Textero es para todos los desarrolladores de PNL de nosotros, y puede continuar existiendo con la preciosa contribución de la comunidad.
¡Su nivel de especialización de Python y NLP no importa, cualquiera puede ayudar y cualquiera es más que bienvenido para contribuir!
¿Eres un experto en PNL?
¿Eres bueno creando sitios web?
El sitio web pronto se trasladará de Docusaurus a Sphinx: lea el problema abierto allí. Buenas noticias: el sitio web se verá ahora :) Noticias promedio: necesitamos hacer un desarrollo web para adaptar esta plantilla de esfingir a nuestras necesidades. ¿Puedes ayudarnos?
¿Eres bueno escribiendo?
Probablemente esta es la pieza más importante que falta ahora en Textero: más tutoriales y más guía de "comenzar".
Si eres bueno escribiendo, ¡puedes ayudarnos! ¿Por qué no comienza agregando una página de preguntas frecuentes al sitio web o explica cómo crear una tubería personalizada? ¿Necesitar ayuda? Estamos ahí para ti.
¿Estás bien en Python?
Hay muchos problemas abiertos para los técnicos. ¿Cuál eliges?
Si solo tiene otras preguntas o consulta, envíeme una línea en Jonathanbesomi__at__gmail.com
La licencia del MIT (MIT)
Copyright (c) 2020 Textero
El permiso se otorga, de forma gratuita, a cualquier persona que obtenga una copia de este software y archivos de documentación asociados (el "software"), para tratar en el software sin restricción, incluidos los derechos de los derechos de usar, copiar, modificar, fusionar, publicar, distribuir, sublicense y/o vender copias del software, y para permitir que las personas a quienes se les proporciona el software para hacer, sujeto a las siguientes condiciones: las siguientes condiciones: las siguientes condiciones: las siguientes condiciones:
El aviso de derechos de autor anterior y este aviso de permiso se incluirán en todas las copias o porciones sustanciales del software.
El software se proporciona "tal cual", sin garantía de ningún tipo, expresa o implícita, incluidas, entre otros, las garantías de comerciabilidad, idoneidad para un propósito particular y no infracción. En ningún caso los autores o titulares de derechos de autor serán responsables de cualquier reclamo, daños u otra responsabilidad, ya sea en una acción de contrato, agravio o de otra manera, que surge, de o en relación con el software o el uso u otros tratos en el software.