nlp in practice
1.0.0
استخدم هذه عينات وأدوات تعدين النصية والتعليم الآلي لحل مشاكل بيانات النص الحقيقي.
تنقلك الروابط في العمود الأول إلى المجلد الفرعي/المستودع باستخدام رمز المصدر.
| مهمة | مقالة ذات صلة | نوع المصدر | وصف |
|---|---|---|---|
| استخراج العبارة على نطاق واسع | مقالة phrase2vec | بيثون السيناريو | استخراج عبارات لكميات كبيرة من البيانات باستخدام pyspark. توضيح النص باستخدام هذه العبارات أو استخدم عبارات مهام المصب الأخرى. |
| Word Cloud for Jupyter Notebook و Python Web Apps | مقالة word_cloud | بيثون سيناريو + دفتر ملاحظات | تصور الكلمات الرئيسية العليا باستخدام تعداد الكلمات أو TFIDF |
| Gensim Word2Vec (مع مجموعة البيانات) | مقالة Word2Vec | دفتر | كيفية العمل بشكل صحيح مع Word2Vec للحصول على النتائج المرغوبة |
| قراءة الملفات وعدد الكلمات مع Spark | مقالة شرارة | بيثون السيناريو | كيفية قراءة ملفات من تنسيقات مختلفة باستخدام pyspark مع مثال عدد الكلمات |
| استخراج الكلمات الرئيسية مع TF-IDF و Sklearn (مع مجموعة البيانات) | مقال TFIDF | دفتر | كيفية استخراج كلمات رئيسية مثيرة للاهتمام من النص باستخدام TF-IDF و Python's Sklearn |
| نص معالجة مسبق | نص مقالة معالجة مسبقة | دفتر | بعض قصاصات التعليمات البرمجية حول كيفية تنفيذ المعالجة المسبقة للنص. يشمل الانتقاء ، وإزالة الضوضاء ، و lemmatization ، وإزالة الكلمات. |
| tfidftransformer vs. tfidfvectorizer | tfidftransformer و tfidfvectorizer مقالة | دفتر | كيفية استخدام tfidftransformer و tfidfvectorizer بشكل صحيح والفرق بين الاثنين وما الذي يجب استخدامه متى. |
| الوصول إلى تضمينات الكلمات التي تم تدريبها مسبقًا مع Gensim | مقالة تضمينات الكلمات المدربة مسبقًا | دفتر | كيفية الوصول إلى قفازات مسبقة التدريب وتضمينات Word2Vec باستخدام Gensim ومثال على كيفية استفادة هذه التضمينات لتشابه النص |
| تصنيف النص في بيثون (مع مجموعة بيانات الأخبار) | تصنيف النص مع مقالة الانحدار اللوجستي | دفتر | ابدأ بتصنيف النص. تعلم كيفية إنشاء وتقييم مصنف نص لتصنيف الأخبار باستخدام الانحدار اللوجستي. |
| أمثلة استخدام CountVectorizer | كيفية استخدام CountVectorizer بشكل صحيح؟ مقالة نظرة متعمقة | دفتر | تعرف على كيفية تعظيم استخدام CountVectorizer بحيث لا تقوم فقط بحساب عدد الكلمات ، ولكن أيضًا معالجة بيانات النص الخاصة بك بشكل مناسب بالإضافة إلى استخراج ميزات إضافية من مجموعة البيانات النصية. |
| أمثلة HashingVectorizer | HashingVectorizer Vs. مقالة CountVectorizer | دفتر | تعلم الاختلافات بين HashingVectorizer و CountVectorizer ومتى تستخدم أي. |
| CBOW مقابل Skipgram | Word2Vec: مقال بين مقال CBOW و Skipgram و Skipgramsi | دفتر | مقارنة سريعة للهندسة المعمارية الثلاثة. |
يتم الحفاظ على هذا المستودع من قبل Kavita Ganesan. تواصل معي على LinkedIn أو Twitter.