clean text Скачать - clean text исходный код скачать

clean text

Другой исходный код

1.0.0

Скачать

`clean-text`

Пользовательский контент в Интернете и в социальных сетях часто грязный. Предварительно обработайте свои скрасные данные с помощью clean-text , чтобы создать нормализованное текстовое представление. Например, поверните этот поврежденный вход:

A bunch of \u2018new\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_%282016_film%29).


»Yóù àré     rïght &lt;3!«

в этот чистый выход:

A bunch of 'new' references, including [moana](<URL>).

"you are right <3!"

clean-text использует FTFY, UnideCode и многочисленные правила ручной работы, т.е. regex.

Установка

Для установки GPL-лицензированного пакета UnideCode вместе с:

pip install clean-text[gpl]

Вы можете воздерживаться от GPL:

pip install clean-text

NB: Этот пакет называется clean-text , а не cleantext .

Если unidecode недоступен, clean-text прибегает к Python's Unicodedata.normalize для трансляции. Транслитерация к ближайшим символам ASCII связана с ручными отображениями, то есть ê к e Картирование unidecode является супериором, но Unicodedata достаточны. Тем не менее, вы можете вообще отключить эту функцию в зависимости от ваших данных и вариантов использования.

Чтобы прояснить это: существуют несоответствия между обработкой текста с или без unidecode .

Использование

 from cleantext import clean

clean ( "some input" ,
    fix_unicode = True ,               # fix various unicode errors
    to_ascii = True ,                  # transliterate to closest ASCII representation
    lower = True ,                     # lowercase text
    no_line_breaks = False ,           # fully strip line breaks as opposed to only normalizing them
    no_urls = False ,                  # replace all URLs with a special token
    no_emails = False ,                # replace all email addresses with a special token
    no_phone_numbers = False ,         # replace all phone numbers with a special token
    no_numbers = False ,               # replace all numbers with a special token
    no_digits = False ,                # replace all digits with a special token
    no_currency_symbols = False ,      # replace all currency symbols with a special token
    no_punct = False ,                 # remove punctuations
    replace_with_punct = "" ,          # instead of removing punctuations you may replace them
    replace_with_url = "<URL>" ,
    replace_with_email = "<EMAIL>" ,
    replace_with_phone_number = "<PHONE>" ,
    replace_with_number = "<NUMBER>" ,
    replace_with_digit = "0" ,
    replace_with_currency_symbol = "<CUR>" ,
    lang = "en"                       # set to 'de' for German special handling
)

Тщательно выберите аргументы, которые соответствуют вашей задаче. Параметры по умолчанию перечислены выше.

Вы также можете использовать только определенные функции для очистки. Для этого взгляните на исходный код.

Поддерживаемые языки

До сих пор только английский и немецкий язык полностью поддерживаются. Это должно работать для большинства западных языков. Если вам нужна специальная обработка для вашего языка, не стесняйтесь вносить свой вклад. ?

Использование `clean-text` с `scikit-learn`

Существует также Scikit-Learn, совместимый с API для использования в ваших трубопроводах. Все параметры выше работают здесь.

pip install clean-text[gpl,sklearn]
pip install clean-text[sklearn]

 from cleantext . sklearn import CleanTransformer

cleaner = CleanTransformer ( no_punct = False , lower = False )

cleaner . transform ([ 'Happily clean your text!' , 'Another Input' ])

Разработка

Используйте поэзию.

Внося

Если у вас есть вопрос , вы нашли ошибку или вы хотите предложить новую функцию , посмотрите на страницу проблем.

Запросы на вытягивание особенно приветствуются, когда они исправляют ошибки или улучшают качество кода.

Если вам не нравится вывод clean-text , рассмотрите возможность добавления теста с вашим конкретным входом и желаемым выводом.

Связанная работа

Общие пакеты очистки текста

https://github.com/pudo/normaly
https://github.com/davidmogar/cucco
https://github.com/lyeoni/prenlp
https://github.com/s/preprocessor
https://github.com/artefactory/nlpretext
https://github.com/cbaziotis/ekphrasis

Полномасштабные библиотеки NLP с некоторой очисткой текста

https://github.com/chartbeat-labs/textacy
https://github.com/jbesomi/texthero

Снимите или замените струны

https://github.com/vi3k6i5/flashtext
https://github.com/ddelange/retrie

Обнаружение дат

https://github.com/scrapinghub/dateparser

Чистые массивные данные общего ползания

https://github.com/facebookresearch/cc_net

Благодарности

Построен на работе Бертона Девилде для текстового судно.

Лицензия

Апач

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-17
размер 33.96KB
От Github

Связанные приложения

Игра Глубокая очистка на холостом ходу

2024-10-03
Текст с Иисусом на китайском языке

2023-08-23
Текст с Иисусом

2023-08-17
Текст с Иисусом, китайская версия

2023-08-17
Напиши или умри

2023-07-03
скрипучая чистота

2022-08-05

clean text

`clean-text`

Установка

Использование

Поддерживаемые языки

Использование `clean-text` с `scikit-learn`

Разработка

Внося

Связанная работа

Общие пакеты очистки текста

Полномасштабные библиотеки NLP с некоторой очисткой текста

Снимите или замените струны

Обнаружение дат

Чистые массивные данные общего ползания

Благодарности

Лицензия

Игра Глубокая очистка на холостом ходу

Текст с Иисусом на китайском языке

Текст с Иисусом

Текст с Иисусом, китайская версия

Напиши или умри

скрипучая чистота

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

clean text

clean-text

Установка

Использование

Поддерживаемые языки

Использование clean-text с scikit-learn

Разработка

Внося

Связанная работа

Общие пакеты очистки текста

Полномасштабные библиотеки NLP с некоторой очисткой текста

Снимите или замените струны

Обнаружение дат

Чистые массивные данные общего ползания

Благодарности

Лицензия

`clean-text`

Использование `clean-text` с `scikit-learn`