النص: NLP ، قبل وبعد Spacy
textacy هي مكتبة Python لأداء مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP) ، مبنية على مكتبة Spacy عالية الأداء. مع الأساسيات --- الرمز المميز ، وعلامة جزء من الكتاب ، وتوحل التبعية ، وما إلى ذلك --- يتم تفويضه إلى مكتبة أخرى ، يركز textacy في المقام الأول على المهام التي تأتي من قبل وتتبعها بعد.
سمات
- الوصول إلى الوظائف الأساسية لـ Spacy وتوسيعها للعمل مع واحد أو العديد من المستندات من خلال الأساليب المريحة والتمديدات المخصصة
- تحميل مجموعات البيانات المعدة مع كل من محتوى النص والبيانات الوصفية ، من خطب الكونغرس إلى الأدب التاريخية إلى تعليقات Reddit
- تنظيف وتطبيع واستكشاف النص الخام قبل معالجته مع Spacy
- استخراج المعلومات المهيكلة من المستندات المصنعة ، بما في ذلك n-grams والكيانات والمختصرة والكيترات وثلاث مرات SVO
- قارن بين السلاسل والتسلسلات باستخدام مجموعة متنوعة من مقاييس التشابه
- رمز المستندات وتجاوزها ثم تدريب نماذج الموضوعات وتفسيرها وتصورها
- حساب قابلية قراءة النص وإحصائيات التنوع المعجمي ، بما في ذلك مستوى الصف الفلشيش ، وسهولة قراءة Flesch متعددة اللغات ، ونسبة الكتابة النوعية
... وأكثر من ذلك بكثير!
الروابط
- تنزيل: https://pypi.org/project/textacy
- الوثائق: https://textacy.readthedocs.io
- رمز المصدر: https://github.com/chartbeat-labs/textacy
- تعقب الأخطاء: https://github.com/chartbeat-labs/textacy/issues
نقير
مرحبا ، نعم.