text_cleaner
1.0.0
؟ في تَقَدم
مكتبة Python باستخدام معالجة اللغة الطبيعية (NLP) لتنظيف النص بسهولة وبسرعة.
رمز الرمز المميز التلقائي ، قم بإزالة علامات الترقيم والأحرف الخاصة ، وتطبيع العلبة ، وإزالة الكلمات المتوقفة بلغات مختلفة ، والكلمات الجذعية ... مع هذه المكتبة البسيطة والقابلة للتخصيص.
ثَبَّتَ :
PIP تثبيت pytext_cleaner
مثال :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
الإعدادات الافتراضية : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
الإعدادات المتاحة هي:
إعدادات اللغة الافتراضية : ['english']
لتضمين أو استبعاد كلمات التوقف :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
تغيير نوع العودة :
بشكل افتراضي ، تُرجع text_cleaner سلسلة معدلة.
لإرجاع قائمة الرموز ، أضف tokenize = صحيح:
cleaner.clean_text(string_to_clean, tokenize=True)