Descarga clean text - Descargar el código fuente clean text

clean text

Otro código fuente

1.0.0

Descargar

`clean-text`

El contenido generado por el usuario en la web y en las redes sociales a menudo está sucio. Preprocese sus datos raspados con clean-text para crear una representación de texto normalizada. Por ejemplo, convierta esta entrada corrupta:

A bunch of \u2018new\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_%282016_film%29).


»Yóù àré     rïght &lt;3!«

En esta salida limpia:

A bunch of 'new' references, including [moana](<URL>).

"you are right <3!"

clean-text usa ftfy, unidecode y numerosas reglas hechas a mano, es decir, regex.

Instalación

Para instalar el paquete con licencia de GPL unidecode junto con:

pip install clean-text[gpl]

Es posible que desee abstenerse de GPL:

pip install clean-text

NB: Este paquete se llama clean-text y no cleantext .

Si Unidecode no está disponible, clean-text recurrirá a la Unicodedata de Python. Normalizar para la transliteración. La transliteración a los símbolos ASCII más cercanos implica mapeos manuales, es decir, ê a e . El mapeo de unidecode es superiour, pero los unicodedata son suficientes. Sin embargo, es posible que desee deshabilitar esta característica por completo dependiendo de sus datos y caso de uso.

Para dejar en claro: hay inconsistencias entre el texto de procesamiento de texto con o sin unidecode .

Uso

 from cleantext import clean

clean ( "some input" ,
    fix_unicode = True ,               # fix various unicode errors
    to_ascii = True ,                  # transliterate to closest ASCII representation
    lower = True ,                     # lowercase text
    no_line_breaks = False ,           # fully strip line breaks as opposed to only normalizing them
    no_urls = False ,                  # replace all URLs with a special token
    no_emails = False ,                # replace all email addresses with a special token
    no_phone_numbers = False ,         # replace all phone numbers with a special token
    no_numbers = False ,               # replace all numbers with a special token
    no_digits = False ,                # replace all digits with a special token
    no_currency_symbols = False ,      # replace all currency symbols with a special token
    no_punct = False ,                 # remove punctuations
    replace_with_punct = "" ,          # instead of removing punctuations you may replace them
    replace_with_url = "<URL>" ,
    replace_with_email = "<EMAIL>" ,
    replace_with_phone_number = "<PHONE>" ,
    replace_with_number = "<NUMBER>" ,
    replace_with_digit = "0" ,
    replace_with_currency_symbol = "<CUR>" ,
    lang = "en"                       # set to 'de' for German special handling
)

Elija cuidadosamente los argumentos que se ajusten a su tarea. Los parámetros predeterminados se enumeran anteriormente.

También puede usar solo funciones específicas para la limpieza. Para esto, eche un vistazo al código fuente.

Idiomas compatibles

Hasta ahora, solo el inglés y el alemán son totalmente apoyados. Debería funcionar para la mayoría de los idiomas occidentales. Si necesita un manejo especial para su idioma, no dude en contribuir. ?

Usar `clean-text` con `scikit-learn`

También hay una API compatible con Learn para usar en sus tuberías. Todos los parámetros anteriores funcionan aquí también.

pip install clean-text[gpl,sklearn]
pip install clean-text[sklearn]

 from cleantext . sklearn import CleanTransformer

cleaner = CleanTransformer ( no_punct = False , lower = False )

cleaner . transform ([ 'Happily clean your text!' , 'Another Input' ])

Desarrollo

Usa poesía.

Que contribuye

Si tiene una pregunta , encuentra un error o desea proponer una nueva característica , eche un vistazo a la página de problemas.

Las solicitudes de extracción son especialmente bienvenidas cuando corrigen errores o mejoran la calidad del código.

Si no le gusta la salida de clean-text , considere agregar una prueba con su entrada específica y salida deseada.

Trabajo relacionado

Paquetes de limpieza de texto genéricos

https://github.com/pudo/normalidad
https://github.com/davidmogar/cucco
https://github.com/lyeoni/prenlp
https://github.com/s/precosor
https://github.com/artefactory/nlpRETEXT
https://github.com/cbaziotis/ekphrasis

Bibliotecas de la PNL en toda regla con una limpieza de texto

https://github.com/chartbeat-labs/textacy
https://github.com/jbesomi/textero

Retire o reemplace las cadenas

https://github.com/vi3k6i5/flashText
https://github.com/ddelange/rcrie

Detectar fechas

https://github.com/scrapinghub/dateparser

Datos de rastreo comunes masivos limpios

https://github.com/facebookresearch/cc_net

Expresiones de gratitud

Construido sobre el trabajo de Burton Dewilde para Textacy.

Licencia

apache

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 33.96KB
Proviene de Github

Aplicaciones relacionadas

Juego inactivo de limpieza profunda

2024-10-03
Texto Con Jesús Chino

2023-08-23
Texto con Jesús

2023-08-17
Texto con Jesús versión china

2023-08-17
Texto o morir

2023-07-03
Absolutamente limpio

2022-08-05

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo

clean text

clean-text