clean-text El contenido generado por el usuario en la web y en las redes sociales a menudo está sucio. Preprocese sus datos raspados con clean-text para crear una representación de texto normalizada. Por ejemplo, convierta esta entrada corrupta:
A bunch of \u2018new\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_%282016_film%29).
»Yóù àré rïght <3!«En esta salida limpia:
A bunch of 'new' references, including [moana](<URL>).
"you are right <3!" clean-text usa ftfy, unidecode y numerosas reglas hechas a mano, es decir, regex.
Para instalar el paquete con licencia de GPL unidecode junto con:
pip install clean-text[gpl]Es posible que desee abstenerse de GPL:
pip install clean-text NB: Este paquete se llama clean-text y no cleantext .
Si Unidecode no está disponible, clean-text recurrirá a la Unicodedata de Python. Normalizar para la transliteración. La transliteración a los símbolos ASCII más cercanos implica mapeos manuales, es decir, ê a e . El mapeo de unidecode es superiour, pero los unicodedata son suficientes. Sin embargo, es posible que desee deshabilitar esta característica por completo dependiendo de sus datos y caso de uso.
Para dejar en claro: hay inconsistencias entre el texto de procesamiento de texto con o sin unidecode .
from cleantext import clean
clean ( "some input" ,
fix_unicode = True , # fix various unicode errors
to_ascii = True , # transliterate to closest ASCII representation
lower = True , # lowercase text
no_line_breaks = False , # fully strip line breaks as opposed to only normalizing them
no_urls = False , # replace all URLs with a special token
no_emails = False , # replace all email addresses with a special token
no_phone_numbers = False , # replace all phone numbers with a special token
no_numbers = False , # replace all numbers with a special token
no_digits = False , # replace all digits with a special token
no_currency_symbols = False , # replace all currency symbols with a special token
no_punct = False , # remove punctuations
replace_with_punct = "" , # instead of removing punctuations you may replace them
replace_with_url = "<URL>" ,
replace_with_email = "<EMAIL>" ,
replace_with_phone_number = "<PHONE>" ,
replace_with_number = "<NUMBER>" ,
replace_with_digit = "0" ,
replace_with_currency_symbol = "<CUR>" ,
lang = "en" # set to 'de' for German special handling
)Elija cuidadosamente los argumentos que se ajusten a su tarea. Los parámetros predeterminados se enumeran anteriormente.
También puede usar solo funciones específicas para la limpieza. Para esto, eche un vistazo al código fuente.
Hasta ahora, solo el inglés y el alemán son totalmente apoyados. Debería funcionar para la mayoría de los idiomas occidentales. Si necesita un manejo especial para su idioma, no dude en contribuir. ?
clean-text con scikit-learnTambién hay una API compatible con Learn para usar en sus tuberías. Todos los parámetros anteriores funcionan aquí también.
pip install clean-text[gpl,sklearn]
pip install clean-text[sklearn] from cleantext . sklearn import CleanTransformer
cleaner = CleanTransformer ( no_punct = False , lower = False )
cleaner . transform ([ 'Happily clean your text!' , 'Another Input' ])Usa poesía.
Si tiene una pregunta , encuentra un error o desea proponer una nueva característica , eche un vistazo a la página de problemas.
Las solicitudes de extracción son especialmente bienvenidas cuando corrigen errores o mejoran la calidad del código.
Si no le gusta la salida de clean-text , considere agregar una prueba con su entrada específica y salida deseada.
Construido sobre el trabajo de Burton Dewilde para Textacy.
apache