قائمة العم ستيف الكبيرة من تحليلات النص وموارد NLP
____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____
||t |||e |||x |||t ||| |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|
قائمة منسقة من الموارد للتعرف على معالجة اللغة الطبيعية ، وتحليلات النص ، والبيانات غير المنظمة.
جدول المحتويات
- كتب
- المدونات
- مقالات المدونة والأوراق ودراسات الحالة
- عام
- التحيزات في NLP
- تجريف
- تنظيف
- تنبع
- الحد من الأبعاد
- اكتشاف السخرية
- تصنيف المستند
- الكيان واستخراج المعلومات
- تجميع المستندات وتشابه الوثائق
- تحليل المفهوم/نمذجة الموضوع
- تحليل المشاعر
- تلخيص النص
- الترجمة الآلية
- أنظمة أسئلة وأجوبة ، chatbots
- مطابقة غامضة ، مطابقة احتمالية ، رابط تسجيل ، إلخ.
- تضمينات الكلمة والوثيقة
- المحولات ونماذج اللغة
- التعلم العميق
- الرسوم البيانية المعرفة
- مؤتمرات NLP الرئيسية
- المعايير
- الدورات عبر الإنترنت
- واجهات برمجة التطبيقات والمكتبات
- منتجات
- العروض التوضيحية والأدوات عبر الإنترنت
- مجموعات البيانات
- متفرقات
- قوائم برعاية أخرى
كتب
ص
- تعدين النص مع ص
- إتقان تعدين النص مع ص
- تعدين النص في الممارسة مع r
بيثون
- معالجة اللغة الطبيعية مع المحولات ، الطبعة المنقحة
- البدء في معالجة اللغة الطبيعية
- مخططات لتحليلات النص باستخدام Python: Machine Learning Solutions لتطبيقات العالم الحقيقي المشترك (NLP)
- معالجة اللغة الطبيعية العملية
- معالجة اللغة الطبيعية مع بيثون
- معالجة اللغة الطبيعية مع Pytorch
- بيثون معالجة اللغة الطبيعية
- إتقان معالجة اللغة الطبيعية مع بيثون
- معالجة اللغة الطبيعية: بيثون و NLTK
- تحليل النص التطبيقي مع Python: تمكين منتجات البيانات المدركة للغة مع التعلم الآلي
- معالجة اللغة الطبيعية المطبق مع بيثون. 2018.
- التعلم العميق مع النص
عام
- ترويض النص: كيفية العثور على وتنظيمه ومعالجته. دليل عملي لتعلم الأدوات والتقنيات المبتكرة لإيجاد النص غير المهيكل وتنظيمه ومعالجته.
- معالجة الكلام واللغة
- أسس معالجة اللغة الطبيعية الإحصائية
- معالجة اللغة مع Perl و Prolog: النظريات والتنفيذ والتطبيق (التقنيات المعرفية)
- مقدمة لاسترجاع المعلومات
- كتيب معالجة اللغة الطبيعية
- تعدين النص العملي والتحليل الإحصائي لتطبيقات البيانات النصية غير المنظمة
- أساسيات تعدين النص التنبئي
- تعدين الويب الاجتماعي: تعدين البيانات على Facebook و Twitter و LinkedIn و Google+ و Github والمزيد
- طرق الشبكة العصبية لمعالجة اللغة الطبيعية
- تعدين النص: دليل للعلوم الاجتماعية
- تحليلات النص العملية: تفسير النص والبيانات غير المهيكلة لذكاء الأعمال
- طرق الشبكة العصبية في معالجة اللغة الطبيعية
- التعلم الآلي للنص (2018)
- معالجة اللغة الطبيعية باللغة الإسبانية
- أسس التواصل بين اللغويات الحاسوبية للحاسوب البشرية في اللغة الطبيعية. يوفر رؤى حول كيفية بناء الروبوتات الحديث.
- الأساليب الإحصائية للتعرف على الكلام. يسلط الضوء على الأبحاث المهمة والأساليب الإحصائية للتعرف على الكلام.
- كيفية تسمية الدليل الموسع للبيانات على إدارة مشاريع التعليقات التوضيحية الكبيرة
المدونات
- ربما تقريبًا مدونة علمية
- سيباستيان رودر
- NLP-Progress
- مدونة معالجة اللغة الطبيعية
مقالات المدونة والأوراق ودراسات الحالة
عام
- NLP في الرعاية الصحية. كيف يمكن استخدام NLP من قبل دافعي الرعاية الصحية ومقدمي الخدمات.
- AI Harvard Business Review. تأثير التحسن في NLP على التفاعل البشري مع الآلات.
- لماذا الدقة في معالجة اللغة الطبيعية أمر بالغ الأهمية لمستقبل الذكاء الاصطناعي في البيع بالتجزئة
- معالجة اللغة الطبيعية ممتعة! كيف تفهم أجهزة الكمبيوتر اللغة البشرية. 2018.
- حملة WEF LIVE - Twitter Fed Global News Thisplics & Sisfient Tracker - Live Jan 2019
- تقنيات التعلم العميق الحديثة المطبقة على معالجة اللغة الطبيعية
- الدليل النهائي لمعالجة اللغة الطبيعية. Monkeylearn. نظرة عامة غير تقنية.
- من اللغة الطبيعية إلى إدخالات التقويم ، مع clojure. مارس 2015. NLP ، Clojure
- اسأل HN: كيف يمكنني الوصول إلى NLP (معالجة اللغة الطبيعية)؟
- اسأل HN: ما هي أفضل الأدوات لتحليل المسطحات الكبيرة من النص؟
- Quora: كيف أتعلم معالجة اللغة الطبيعية؟. مقدمة جيدة للمبتدئين مع تقدير الوقت انهيار وروابط لدورات ستانفورد CS.
- موضوع Quora: معالجة اللغة الطبيعية
- الدليل النهائي لمعالجة اللغة الطبيعية أكتوبر 2015.
- مستقبل النص في فبراير 2015. دراسة استقصائية لجميع الابتكار الحالي في النص كوسيلة.
- R أو Python في تعدين النص في أغسطس 2015. مقارنة الكفاءة بين R و Python في مجال تعدين النص.
- من أين تبدأ في تعدين النص في أغسطس 2012.
- نص التعدين في R و Python: 8 نصائح للبدء. أكتوبر 2016
- مقدمة لتحليل النص مع بيثون ، الجزء 1 أبريل 2012.
- بيانات Twitter التعدين مع Python (الجزء 1: جمع البيانات)
- لماذا قد يكون تعدين النص هو الشيء الكبير التالي. مارس 2012.
- يقدم الرئيس التنفيذي لشركة SAS تحليلات على BI ، ويكشف عن حالات استخدام التحليلات النصية في يونيو 2011.
- قيمة وفوائد تعدين النص. سبتمبر 2015.
- Text Mining South Park February 2016 - مدونة للتعدين النصية التي تغطي مجموعة متنوعة من الموضوعات.
- معالجة اللغة الطبيعية: مقدمة
- تعليمي معالجة اللغة الطبيعية. يونيو 2013.
- مدونة معالجة اللغة الطبيعية.
- مقدمة في تعدين النص باستخدام Twitter Streaming API و Python
- github repo مع الكود: https://github.com/adilmoujahid/twitter_analytics
- كيفية الدخول في معالجة اللغة الطبيعية. مقدمة غير تقنية أساسية إلى NLP.
- بيتي: واجهة ودية تشبه اللغة الإنجليزية لخط الأوامر الخاص بك.
- إنشاء نماذج التعلم الآلي لتحليل أخبار بدء التشغيل - Part1. الجزء 2. الجزء 3.
- مقارنة مع واجهات برمجة تطبيقات معالجة النص الأكثر فائدة
- 100 يجب قراءة أوراق NLP
- دليل بيثون للتعامل مع البيانات النصية
- التعهيد الجماعي الحقيقة لاستخراج العلاقة الطبية
- التنبؤ المالي القائم على اللغة الطبيعية: دراسة استقصائية
- التنبؤ المالي القائم على اللغة الطبيعية: مسح. مقال يوضح نطاق التنبؤ المالي للغة الطبيعية.
- 5 أدوات بطولية لمعالجة اللغة الطبيعية
- تفتح معالجة اللغة الطبيعية البيانات المخفية لتحويل كفاءة الرعاية الصحية والجودة والتكلفة
- استخراج المشاكل الطبية من الوثائق السريرية الإلكترونية
- معالجة اللغة الطبيعية (NLP) للتعلم الآلي. يتضمن الأساس والسهل فهم المعالجة المسبقة ويقارن عدد قليل من نماذج ML Classificaiotn في Python.
- كيف تكتب مصححًا إملائيًا - بقلم بيتر نورفيج
- باستخدام منظمة العفو الدولية لإطلاق قوة البيانات الحكومية غير المهيكلة: (W. Eggers ، N. Malik ، & M. Gracie ، يناير 2019). "فكر في النص غير المهيكلة على أنه" محاصرون "في خزائن الملفات المادية والافتراضية. الوعد واضح: يمكن للحكومات تحسين الفعالية ومنع العديد من الكوارث من خلال تحسين قدرتها على" توصيل النقاط "وتحديد الأنماط في البيانات المتاحة." توفر هذه المقالة Deloitte تمهيديًا سهلاً وخلفية على NLP ، ويمكن استخدام التطبيقات المختلفة NLP على بيانات النص الحكومية غير المهيكلة. تتضمن المقالة العديد من الأمثلة الحكومية الأمريكية حول كيفية نشر NLP حاليًا عبر مجالات مختلفة (على سبيل المثال ، للمساعدة في تحليل التعليقات العامة/نمذجة المشاعر/نمذجة الموضوع ، لتحسين التحقيقات الجنائية ، للمساعدة في صنع السياسات الحكومية والامتثال التنظيمي). النقطة الأساسية هي تطبيق تقنيات NLP المختلفة لاستكشاف رؤى الاستخبارات الحكومية الرئيسية والكشف عنها.
- استخراج ميزات المنتجات الترفيهية: نهج تخصيص Dirichlet الكامن الموجهة من علم النفس لاستهلاك الوسائط: (O. Toubia ، G. Iyengar ، R. Bunnell ، & A. Lemaire ، February 2019). "نحن نعتمد على أدبيات NLP لتطوير طريقة لوضع علامة على منتجات الترفيه بطريقة آلية وقابلة للتطوير. في سياق الأفلام ، نوضح أولاً أن الميزات المقترحة تعمل على تحسين قدرتنا على التنبؤ بالاستهلاك على المستوى الفردي ... نوضح أن ميزات LDA الموجهة لها القدرة على تحسين أداء النماذج التي تنبأ بتجميع الأداء بدلاً من الاستجابة الفردية." توفر هذه المقالة الأكاديمية كلاً من الآثار الإطار والإدارية التي تشير إلى تطبيق LDA و NLP لاستخراج الميزات في منتجات الترفيه التي يمكن أن تساعد في نماذج سلوك المستهلك التقليدية ، ونماذج التسويق ذات الصلة المطبقة على صناعة الوسائط والترفيه.
- الدروس المستفادة بناء أنظمة معالجة اللغة الطبيعية في الرعاية الصحية
- كيف تعرف الخوارزميات ما الذي ستكتبه بعد ذلك
التحيزات في NLP
- تحيز الذكاء الاصطناعي: تقع على عاتق البشر مسؤولية ضمان الإنصاف
- VentureBeat blogpost - التحيزات بين الجنسين في مجموعات البيانات - استنادًا إلى ورقة بحث UCLA "تعلم التضمينات المحايدة بين الجنسين" أغسطس 2018.
- فحص الجنس والتحيز العرق في مائتي أنظمة تحليل المشاعر. 2018
- الرجل هو مبرمج الكمبيوتر لأن المرأة هي ربة منزل؟ إلغاء التضمينات كلمة.
تجريف
- كشط HTML باستخدام البرنامج التعليمي Scrapy على استخدام Scrapy وحدة Python لاستخراج البيانات السهل من مواقع HTML Messy.
- استخراج النص من أي مستند ؛ لا موس ، لا ضجة. يوليو 2014.
- باستخدام Scrapy لإنشاء مجموعة البيانات الخاصة بك SEP 2017.
تنظيف
- كيفية حل 90 ٪ من مشاكل NLP: دليل خطوة بخطوة في يناير 2018. دليل خطوة بخطوة على تنظيف البيانات واستكشافها لبناء نموذج NLP الناجح.
- النص مسبقًا في بيثون: الخطوات والأدوات والأمثلة. أكتوبر 2018
- كيفية تنظيف النص للتعلم الآلي مع Python أكتوبر 2017. دليل خطوة بخطوة لكيفية إجراء المعالجة المسبقة للبيانات النصية.
- استخراج الميزات ، والمعالجة المسبقة الأساسية ، والمعالجة المتقدمة
توقف عن الكلمات
- إزالة الكلمات توقف مع NLTK في بيثون
- تصنيف النص لتحليل المشاعر - الكلمات المتوقفة والتصنيفات
تنبع
- المادة: نص ناتج: النهج والتطبيقات والتحديات. ديسمبر 2016.
- ما هو الفرق بين التنقيب والمعايرة؟. فبراير 2018. الاختلافات وأمثلة لاستخدام التنقيب والخلط بلغات مختلفة.
- التنقيب و lemmatization في بيثون. أكتوبر 2018. مقارنة بين التنقيب والخوارزميات وراء الخوارزميات وراء النتائج والنتائج والمحترفين والسلبيات ، والسياق للاستخدام ، وبناء جملة الكود.
- تعليمي ندوة المشاعر: النزول
الحد من الأبعاد
- ترويض النص مع SVD. ساس. يناير 2004.
- الحد من الأبعاد لنماذج حقيبة الكلمات: PCA مقابل LSA
- مقدمة إلى حقيبة من الكلمات وكيفية ترميزها في بيثون لـ NLP
- أوضح حقيبة من الكلمات و TF-IDF
اكتشاف السخرية
- اكتشاف السخرية التلقائي: استطلاع استبيان ACM الكمبيوتر ، سبتمبر 2017.
- Cascade: الكشف عن السخرية السياقية في منتديات المناقشة عبر الإنترنت المؤتمر الدولي 27 حول اللغويات الحسابية ، أغسطس 2018.
- نظرة أعمق على التغريدات الساخرة باستخدام المجلة العصبية العميقة الشبكات العصبية العميقة للبحوث المتقدمة في هندسة الكمبيوتر والتكنولوجيا ، المجلد 6 ، العدد 1 ، يناير 2017.
- اكتشاف السخرية مع الشبكات العصبية التلافيفية العميقة. 30 أبريل 2018. التعلم السياقي باستخدام CNNs للكشف الفعال عن السخرية.
تصنيف المستند
- ساذج بايز وتصنيف النص ، 2014. نظرة عامة متعمقة لكل من خوارزمية بايز الساذجة وكيف يمكن استخدامها في عملية تصنيف المستندات.
- حقيبة من الحيل لتصنيف النص الفعال ، 2016. ورقة من باحثين فيسبوك تقدم FastText ، خوارزمية تصنيف المستندات السريعة والفعالة.
- خوارزميات مصنف النص في التعلم الآلي ، 2017. مقالة مدونة توضح كيفية تطبيق العديد من خوارزميات التعلم العميق لتوثيق مشاكل التصنيف.
- تصنيف المستندات في مجموعة بيانات رويترز -1578 R8 ، 2016. برنامج تعليمي لطيف في R يوضح كيفية تصنيف المقالات الإخبارية باستخدام ثلاث خوارزميات مختلفة ML.
- مراجعات Beer Text Text Text ، 2018. يستخدم خوارزمية KNN لتصنيف مراجعات منتجات البيرة الحرفية في أنماط البيرة (على سبيل المثال ، "Pilsner" ، "IPA" ، أو "البلجيكي").
- باستخدام fasttext و comet.ml لتصنيف العلاقات في الرسوم البيانية المعرفة
- تصنيف النص متعدد الطبقات مع Scikit-Learn ، 2018. مقال توضح كيفية التعامل مع المشكلات متعددة الطبقات ، مثل تصنيف شكاوى المستهلك إلى واحدة من 12 فئة.
- التعلم الآلي مع نص في Scikit-Learn (Pycon 2016) ، 2016. برنامج فيديو لطيف يناقش كيفية استخدام Scikit-Learn في عملية تصنيف المستندات.
- دليل Ultimate للتعامل مع البيانات النصية (باستخدام Python) - لعلماء ومهندسي البيانات ، 2018. العنوان يقول كل شيء.
- تصنيف النص في Python مع Scikit-Learn و NLTK ، 2017. برنامج تعليمي آخر يوضح كيفية تنفيذ تصنيف النص باستخدام Scikit-Learn.
- تقديم تصنيف النص على أحدث طراز مع نماذج اللغة الشاملة ، 2019. يقدم طريقة تعليمية نقل رائدة لتصنيف المستندات.
- تضمينات وثيقة التعلم من خلال التنبؤ بـ n -grams لتصنيف المشاعر لمراجعات الأفلام الطويلة - ورقة مع رمز على github
- نحو شرح NLP: إطار شرح توليلي لتصنيف النص ، 2019. ورقة تصف نهجًا جديدًا لشرح الأعمال الداخلية لنماذج تصنيف النص.
الكيان واستخراج المعلومات
- استخراج الكيان وتحليل الشبكة. Python ،
StanfordCoreNLP - معالجة اللغة الطبيعية لاستخراج المعلومات
- تقنيات NLP لاستخراج المعلومات. الاستكشاف المتعمق لإطار الخطوات السبع لأدوات وتقنيات تعدين بيانات NLP.
تجميع المستندات وتشابه الوثائق
- تجميع النص: احصل على رؤى سريعة من البيانات غير المهيكلة. يوليو 2017.
- تجميع المستندات. أطروحة MSC.
- تجميع المستندات: مراجعة مفصلة. شاه ومهاجان. ijais 2012.
- مستندات التجميع مع Python مستودع github الذي يتجمع أوصاف فيلم IMDB. بناءً على هذا البرنامج التعليمي الأصلي ، الذي يكون Github Repo هنا.
- تحليل النصوص النصية والشعور على مراجعات مستخدم ألعاب الفيديو باستخدام SAS® Enterprise Miner
- من الذي كتب مقال صحيفة نيويورك تايمز لمكافحة ترامب؟ باستخدام TidyText للعثور على تشابه المستند
تحليل المفهوم/نمذجة الموضوع
- نماذج الموضوع: الماضي والحاضر والمستقبل
- ناقلات الكلمات باستخدام LSA ، جزء - 2
- نماذج الموضوع الاحتمالية
- LEGO COLOR TEMSES كموضوعات مواضيع SEP 2017.
- كيف تحولت بدء التشغيل الخاص بنا من LDA غير الخاضعة للإشراف إلى مرشد شبه خاضع للإشراف
- نمذجة الموضوع مع LSA ، PLSA ، LDA & LDA2VEC AUG 2018.
- وصف Text2Vec لنماذج الموضوع
- بوابة نمذجة الموضوع
- تطبيقات نماذج الموضوع 2017.
- Macs 30500: تحليل النص: نمذجة الموضوع
- Cota ، نهج نمذجة موضوع أوبر لتحسين دعم العملاء
- باستخدام نماذج موضوع LDA كإدخال نموذج تصنيف
- NLP: استخراج الموضوعات الرئيسية من مجموعة البيانات الخاصة بك باستخدام LDA في دقائق
- موضوع نمذجة الموضوع القانوني والنشاط القضائي للمحكمة العليا في أستراليا ، 1903-2015
تحليل المشاعر
طُرق
- CACM: التقنيات والتطبيقات لتحليل المشاعر ، 2013. نظرة عامة لطيفة على تحليل المشاعر من اتصالات مجلة ACM.
- تحليل المشاعر غير الخاضعة للإشراف مع الشبكات الاجتماعية الموقعة ، 2017. ورقة مؤتمر تصف أن تحديات تطبيق تحليل المشاعر على الشبكات الاجتماعية ، وتقدم طريقة جديدة غير خاضعة للرقابة.
- الأساليب القائمة على المعجم لتحليل المشاعر ، 2010. يستخدم So-Cal (حاسبة التوجيه الدلالي) ، وهو مقياس للذات والرأي للتحليل العاطفي.
- هذا الشعور العاطفي ، 2015. يقارن نتيجة حزمة Syezhet R مع الملصقات البشرية على سلسلة من الروايات. تحديث 2016.
- NEURTING NEURN NEURN ، 2017. طور فريق Openai طريقة جديدة لاستخدام NNS العميق لإجراء تحليل المشاعر ، على بيانات أقل بكثير من المعتاد.
- الوضع الحالي لتحليل المعنويات النصية من الرأي إلى التعدين العاطفي ، 2017. مقالة مجلة تستقر على الوضع الحالي لأبحاث وأدوات تحليل المشاعر.
- نظرة عامة على أدوات تحليل المشاعر ، الجزء 1. قواعد بيانات الكلمات الإيجابية والسلبية ، 2017. مقالة مدونة تحدد بعض قواعد بيانات المعجم.
- تحليل المشاعر ، تحليل المفاهيم والتطبيقات ، 2018. نظرة عامة على تحليل المشاعر ، مع تحليل للتغريدات حول Uber.
- أوراق ونماذج بحثية اختراق لتحليل المشاعر ، 2018. مدونة تقارن أداء الأساليب البسيطة إلى تحليل المعنويات.
- تحليل معنويات Twitter باستخدام نماذج LSTM-CNN مجتمعة ، 2018. مقالة مدونة تصف طريقة جديدة لتحليل المشاعر التي تستخدم التعلم العميق.
- Vader: نموذج قائم على القواعد parsimonious لتحليل المشاعر لنص التواصل الاجتماعي ، 2014. ورقة مؤتمرات تعرض Vader ، نموذج بسيط قائم على القواعد لتحليل المشاعر.
- مقارنة بين الأساليب القائمة على المعجم لتحليل المشاعر لمشاركات المدونات الصغيرة ، 2014. ورقة مؤتمرات تقدم نهجًا قائمًا على المعجم لتحليل المشاعر لمشاركات Twitter ، استنادًا إلى الموارد المعجمية مثل SentiwordNet.
التحديات
- حول سلبية النفي ، 2011. ورقة مؤتمرات تناقش تحديات التعامل مع السلبية في النص ، مع دراسة حالة حول مراجعات أفلام IMDB.
- التحديات في تحليل المشاعر ، 2015. دليل عملي من مجلس الإعادة الوطني في كندا يصف بعض التحديات الرئيسية لتحليل المشاعر.
- دراسة استقصائية حول تحديات تحليل المعنويات ، 2016. مقال مجلة يناقش ويقارن تحديات تحليل المعنويات بين سبعة وأربعين ورقة.
سياسة
- تحليل المشاعر على تغريدات ترامب باستخدام Python ، 2017. تحليل المشاعر على تغريدات ترامب باستخدام Tweepy و TextBlob لمعالجة NLP.
- دونالد ترامب ضد هيلاري كلينتون: تحليل المشاعر على تويتر يذكر ، 2016. يقارن مشاعر تغريدات ترامب مقابل تويت هيلاري التي أدت إلى الانتخابات الرئاسية الأمريكية لعام 2016.
- هل يعمل تحليل المشاعر؟ تحليل مرتبة لمراجعات Yelp ، 2016. نتائج التنبؤ مجتمعة والكلمات الفردية في المراجعات لإظهار أن تحليل المعنويات عمل بشكل جيد على مراجعات Yelp.
- من التغريدات إلى صناديق الاقتراع: ربط المشاعر النصية بالسلسلة الزمنية للرأي العام ، 2010. ورقة مؤتمرات تصف كيف يرتبط تحليل المشاعر على Twitter باستطلاعات الرأي العام.
البورصة
- يتنبأ Twitter Mood بسوق الأوراق المالية ، 2010. مقال مجلة يقيس "مزاج" تغذية Twitter اليومية ويظهر أن الحالة المزاجية يمكن أن تتنبأ بـ DJIA.
- تأثير غير خطي: أدلة على الآثار السببية لوسائل التواصل الاجتماعي على أسعار السوق ، 2016. مقال مجلة توضح أن علاقة وسائل التواصل الاجتماعي مع DJIA غير خطي.
- فوربس: كيف يستخدم المتداولون الكميون المعنويات للحصول على ميزة في السوق ، 2015. مقالة توضح كيف يمكن للتجار الكميين استخدام تحليل المعنويات.
- Sentdex: قياس النوعية. أداة عبر الإنترنت تقيس المشاعر الإجمالية للمخزونات المختلفة.
- Trump2Cash: روبوت تداول الأسهم مدعوم من تويت ترامب. روبوت يشاهد حساب Twitter الخاص بـ Donald Trump وينتظره أن يذكر أي شركات متداولة للجمهور. تصف مقالة مدونة ذات صلة الروبوت الذي يحول تغريدات ترامب إلى تبرعات تنظيم الأسرة.
التطبيقات
- Lost at Sea: كيف تساعد وسائل التواصل الاجتماعي خطوط الرحلات البحرية في جذب جيل الألفية ، 2016. ورقة بيضاء تصف كيف يمكن لخطوط الرحلات السياحية جذب جمهور مختلف.
- هاري رسم: الاحتفال بالذكرى السنوية العشرين مع TidyText و Tidyverse في R ، 2015. مقالة تقنية توضح كيفية تطبيق تحليل المشاعر على نص سلسلة Harry Potter.
- Data Science 101: تحليل المشاعر في R Tutorial ، 2017. مقال فني تصف كيفية استخدام حزمة TidyText في R لتحليل الخطب الرئاسية الأمريكية.
- مهرجان كان ليونز 2017: Hungerithm ، Mars Chocolate Australia (Clemenger BBDO ، Melbourne) ، 2017. مقطع فيديو يوضح كيف طور Snickers أداة لتغيير سعر Snickers Bar استنادًا إلى مزاج الإنترنت.
- تحليل المشاعر: 10 تطبيقات و 4 خدمات ، 2018. مقدمة موجزة ولكن موجزة لتحليل المعنويات ، وآثارها التجارية وأربعة مقدمي خدمات سحابة تحليل المشاعر بما في ذلك Google و Amazon و Microsoft.
- ما يمكن أن يتعلمه رئيسك من خلال قراءة رسائل البريد الإلكتروني للشركة بأكملها ، 2018. "الدرس: اكتشف الحقيقة حول كيف لا تشعر القوى العاملة عن طريق التنصت على جوهر ما يقوله الموظفون ، ولكن من خلال دراسة كيف يقولون ذلك". تتركز هذه المقالة حول موضوع تطبيق تحليل المشاعر على مجموعات بيانات النصوص الداخلية غير المنظمة الكبيرة (على سبيل المثال رسائل البريد الإلكتروني للموظف). أصبحت التحليلات النصية و NLP نهجًا شائعًا بشكل متزايد للمساعدة في البحث عن أدلة قد تشير إلى مستوى مشاركة الموظفين في مكان العمل ، وأي "أدوات حمراء" محتملة يجب أن تحصل على اهتمام خاص من قبل المنظمة وآثارها الأخلاقية.
- تحليل المعنويات المستندة إلى الجانبين لمراجعات منتجات Amazon ، 2018. مقال توضح كيفية تطبيق تحليل المعنويات على جوانب مختلفة من مراجعة المنتج على Amazon.
- تحليل المشاعر البالغ 2.2 مليون تغريدة من Super Bowl 51 ، 2017. مقال توضح كيفية تطبيق تحليل المشاعر على التغريدات حول Super Bowl.
- تحليل العاطفة والمشاعر: دليل ممارس لـ NLP ، 2018. نظرة عامة على تحليل المشاعر ، تم تطبيقه على المقالات الإخبارية.
الأدوات والتكنولوجيا
- دفق التحليلات التعليمية على أزور.
- كيفية تحليل المشاعر في أزور.
- إرشاد الأداء--التحليل-بيثون---.
- نظرة عامة على Twitter Sentiment Analysis ، 2016. نظرة عامة على تحليل المشاعر ، وتجول خطوة بخطوة حول كيفية إجراء تحليل المشاعر باستخدام TextBlob.
- Elmo inmbdings in keras باستخدام TensorFlow Hub ، 2018. دليل لاستخدام Elmo من Google في نموذج Keras الخاص بك باستخدام TensorFlow Hub.
- تحليل معنويات تويتر في بيثون باستخدام TextBlob ، 2018.
تلخيص النص
- تلخيص النص مع Gensim
- تلخيص النص غير الخاضع للإشراف باستخدام تضمينات الجملة
- تحسين التجريد في تلخيص النص اقتراح تقنيتين للتحسين
- نص تلخيص وتصنيف للبيانات العلمية والمتعلقة بالصحة -تلخيص النص مع TensorFlow. 2016. دراسة أساسية حول تلخيص النص.
الترجمة الآلية
- منشور المدونة: موجود في الترجمة: جمل أكثر دقة وطلاقة في جوجل ترجمة نوفمبر 2016
- NYTimes: The Great AI Awakening December 2016. كيف استخدمت Google الذكاء الاصطناعي لتحويل Google Translate ، واحدة من خدماتها الأكثر شعبية - وكيف يستعد التعلم الآلي لإعادة اختراع الحوسبة نفسها.
- ترجمة التعلم الآلي وخوارزمية ترجمة جوجل
- ترجمة الآلة العصبية (SEQ2SEQ) البرنامج التعليمي
- تشريح الورق: "الانتباه هو كل ما تحتاجه" شرح شرح لورقة مهمة قدمت أولاً "آلية الانتباه" في عام 2017.
- المحول المشروح وهو تطبيق لكل خط على حدة "الانتباه هو كل ما تحتاجه".
- BERT: ما قبل التدريب على محولات ثنائية الاتجاه العميقة لفهم اللغة نموذج تمثيل اللغة الجديد المنشور في عام 2018. رمز التنفيذ. ميناء Pytorch.
- اقترح ترجمة الآلة غير الخاضعة للإشراف على العبارات اثنين من المتغيرات النموذجية: النموذج العصبي والعبارات. منحت كأفضل جائزة ورقية في EMNLP 2018. رمز التنفيذ.
أنظمة أسئلة وأجوبة ، chatbots
- قابل لوسي: إنشاء نموذج أولي chatbot
- Microsoft Bot Framework.
- تدريب ملايين وكلاء الحوار الشخصي
- دليل Ultimate للاستفادة من NLP والتعلم الآلي لـ chatbot الخاص بك. 2016.
- بناء chatbot بسيط من الصفر في بيثون (باستخدام NLTK). سبتمبر 2018
- دراسة استقصائية حول أنظمة الحوار: التطورات الحديثة والحدود الجديدة في يناير 2018.
- فحص تأثير chatbot الترجمة الآلية على مربع الحوار التعاوني عبر الإنترنت للتعلم L2 العرضي
- قم بإنشاء chatbot المصرفية مع اكتشاف الأسئلة الشائعة والكشف عن الغضب وفهم اللغة الطبيعية
- chatbots النموذج التوليدي- مايو 2017
- دليل لبناء slackbot متعددة الميزة مع Python- مارس 2017
- بناء chatbot بسيط من الصفر في بيثون (باستخدام NLTK)- سبتمبر 2018
- الطريق إلى الخدمات المصرفية للمحادثة في فبراير 2019
- chatbots - تصميم النوايا والكيانات لنماذج NLP يناير 2017
- نظام الحوار الموجهة نحو المهمة للتشخيص التلقائي. 2018. يتحدث عن استخدام مجموعة البيانات المدربة MDP وتطبيقاتها التشخيصية الطبية.
- Li Deng at AI Frontiers: ثلاثة أجيال من أنظمة الحوار المنطوقة (روبوتات). 2017. الشرائح من قبل Microsoft كبير العلماء ل AI.
- NLP - بناء نموذج الإجابة على أسئلة. مارس 2018
مطابقة غامضة ، مطابقة احتمالية ، رابط تسجيل ، إلخ.
- طريقة AGREP في R. تقريبية متطابقة (مطابقة غامضة)
- حزمة fuzzywuzzy في R. مثال الاستخدام.
- مطابقة سلسلة غامضة - مهارة البقاء على قيد الحياة لمعالجة المعلومات غير المنظمة
- حزمة الارتباط السجل: اكتشاف الأخطاء في البيانات
- R package fastlink: رابط السجل الاحتمالي السريع
- دمج غامض في وظيفة R A R لدمج الملفات عن طريق تحديد ملف مفتاح
- تعلم النص التشابه مع شبكات سيامي المتكررة
- DERIPE: مكتبة Python لمطابقة دقيقة وقابلة للتطوير ، وسجلات للتسجيل وحل الكيان.
- Recordlinkage: مجموعة أدوات لربط السجل وإلغاء البيانات المكتوبة في Python.
تضمينات الكلمة والوثيقة
- أفضل ما الحالي في تضمينات الكلمات العالمية وتضمينات الجملة
- فهم بديهي للتضمينات الكلمات: من ناقلات العد إلى Word2Vec
- تقييم تجريبي لـ DOC2VEC مع رؤى عملية في توليد دمج المستندات لعام 2016. من IBM.
- توثيق التضمين مع ناقلات الفقرة 2015. من Google.
- Glove Word تضمينات Demo 2017. من Fasti.
- تصنيف النص مع Word2Vec 2016.
- وثيقة تضمين 2017
- من تضمينات الكلمات لتوثيق مسافات 2015.
- كلمات الكلمات ، التحيز في ML ، لماذا لا تحب الرياضيات ، ولماذا يحتاجك الذكاء الاصطناعى 2017. راشيل توماس (Fastai)
- ناقلات الكلمات في معالجة اللغة الطبيعية: ناقلات عالمية (قفاز). أغسطس 2018.
- تعليمي DOC2VEC على مجموعة بيانات LEE
- تضمينات الكلمة في بيثون مع سبير و Gensim
- تمثيلات الكلمات العميقة السياقية. إلمو. تنفيذ Pytorch. تنفيذ TF
- نموذج اللغة الشاملة لتصنيف النص. رمز التنفيذ.
- التعلم الخاضع للإشراف على تمثيلات الجملة العالمية من بيانات الاستدلال اللغة الطبيعية.
- تعلمت في الترجمة: ناقلات الكلمات السياقية. كوف.
- تمثيل موزع للجمل والوثائق. ناقلات الفقرة. انظر البرنامج التعليمي DOC2VEC في Gensim
- Sense2vec. كلمة الإحساس الغموض.
- تخطي ناقلات الفكر. طريقة تمثيل الكلمات.
- تسلسل للتسلسل التعلم مع الشبكات العصبية
- قوة المتجهات المذهلة للكلمة. 2016.
- تضمينات السلسلة السياقية لوضع تسلسل. 2018.
- نهج متعددة المهام هرمية لتعلم التضمينات من المهام الدلالية التي تقدم نهج التعلم متعدد المهام لمجموعة من مهام NLP المترابطة. قدم في مؤتمر AAAI في يناير 2019.
- إلمو كلمة تضمينات
- دليل أحمق لمعالجة اللغة الطبيعية Word2Vec
- انشغل مع تضمينات Word- مقدمة (فبراير 2018)
- وصلت لحظة ImageNet NLP. يوليو 2018. نظرة عامة على نماذج لغة NLP المدربة مسبقًا ، مما يوجه أوجه تشابه إلى مساهمات ImageNet في رؤية الكمبيوتر.
- Word2Vec: Fish + Music = Bass
- شرح الجمل العالمي شرح بصريا. يونيو 2020.
المحولات ونماذج اللغة
- فهم نماذج اللغة الكبيرة. سيباستيان راشكا. فبراير 2023.
- تمهيدي في علم البترات: ما نعرفه عن كيفية عمل بيرت. نوفمبر 2020.
- مراجعة النماذج القائمة على BERT. يوليو 2019.
- أوضح بيرت - نموذج اللغة الفنية لـ NLP. شرح رائع لأساسيات كيفية عمل بيرت.
- بيرت المصور ، إلمو ، وشركاه. (كيف تصدع NLP التعلم النقل). ديسمبر 2018.
- فاز الآلات على البشر في اختبار القراءة. لكن هل يفهمون؟
- ما يحتاجه كل مهندس NLP لمعرفته حول نماذج اللغة التي تم تدريبها مسبقًا. 2019.
- المحول ... "شرح"؟
- المحول المصور
- تعانق مسار الوجه على نماذج المحولات
- Openai: نماذج لغوية أفضل وآثارها: نموذج لغة غير خاضع للرقابة المستند إلى المحول مسبقًا والذي يحقق أحدث أحدث على معايير اللغة مع التركيز على توليد النص. إطلاق محدود مثير للجدل. 14 فبراير 2019.
chatgpt
- مدونة إطلاق ChatGPT
- مطالبات chatgpt رهيبة
... في التعليم
- تجربة مستخدم ChatGPT: الآثار المترتبة على التعليم. Xiaoming Zhai (عدم تنوع جورجيا). ديسمبر 2022.
- أنماط التعلم الجديدة التي تمكينها من قبل AI chatbots: ثلاث طرق ومهام Mollick و Mollick (جامعة بنسلفانيا). ديسمبر 2022.
- يخوض المعلمون انتحالًا حيث يعترف 89 ٪ من الطلاب باستخدام chatgpt من Openai للواجب المنزلي. فوربس ، يناير 2023
- Chatgpt: صديق أو عدو تعليمي؟ Hirsh-Pasek و Blinkoff (جامعة تيمبل). يناير 2023.
- لا تحظر Chatgpt في المدارس. تعليم معها .. نيويورك تايمز (يناير 2023).
- ChatGPT ومستقبل تعليم الأعمال. فبراير 2023.
- دورة Udemy (يناير 2023). chatgpt للمعلمين في التعليم.
التعلم العميق
- تعليمي Keras LSTM - كيفية بناء نموذج لغة تعليمي عميق قوي.
- يصف النصف الأول من المقالة RNNs ، تشريح خلية LSTM ، شبكات LSTM. النصف الثاني هو تجول في الميزات في keras لتنفيذ LSTM باستخدام المولدات لإدخال البيانات.
- التعلم العميق لمعالجة اللغة الطبيعية: البرامج التعليمية مع أجهزة الكمبيوتر المحمولة Jupyter.
- مقالة قصيرة تحتوي على روابط وأوصاف لمزيد من البرامج التعليمية للفيديو لنهج DL لمشاكل NLP. إجمالي خمسة دروس بما في ذلك المعالجة المسبقة ، تمثيلات الكلمات ، و LSTM ، من بين مواضيع أخرى.
- دراسة استقصائية لاستخدامات التعلم العميق في معالجة اللغة الطبيعية.
- مراجعة الأدب الأكاديمي المكون من 35 صفحة لـ DL في NLP (جامعة كولورادو ، يوليو 2018). وصف مفصل لبنية الشبكة العصبية تليها مجموعة شاملة من التطبيقات.
- تصنيف التسلسل مع انتباه الإنسان: استخدام اهتمام الإنسان المستمد من شركة تتبع العين لتنظيم الانتباه في الشبكات العصبية المتكررة (RNN). رمز التنفيذ.
- البرنامج التعليمي حول تصنيف النص (NLP) باستخدام مكتبة Ulmfit و Fastai في Python
- متعددة المهام الشبكات العصبية العميقة لفهم اللغة الطبيعية. مقالة أكاديمية تفصل خوارزمية MTDNN من Microsoft التي تفوقت على Bert و Elmo & Bilstm اعتبارًا من فبراير 2019 في معيار الغراء.
- تعليمي معالجة اللغة الطبيعية للباحثين في التعلم العميق: مستودع تعليمي 2019 NLP باستخدام TensorFlow و Pytorch.
- التعلم العميق لتحليل المشاعر: دراسة استقصائية
- فهم القراءة العصبية وخارج ديسمبر 2018 ستانفورد - نماذج فهم القراءة التي تم بناؤها على رأس الشبكات العصبية العميقة.
- Microsoft: الشبكة العصبية العميقة متعددة المهام (MT-DNN): تحسن Microsoft على Bert من Google مع التركيز على فهم اللغة الطبيعية. رمز ليتم إصداره. 31 يناير 2019.
- جملة منظمة ذاتية التضمين
شبكات كبسولة
- التحقيق في شبكات الكبسولة مع توجيه ديناميكي لتصنيف النص. 2018.
- شبكات الكبسولة المستندة إلى الانتباه مع توجيه ديناميكي لاستخراج العلاقة. 2018.
- تحليل معنويات تويتر باستخدام شبكات الكبسولة و GRU. 2018.
- تحديد العدوان والسمية في التعليقات باستخدام شبكة الكبسولة. 2018. إنها الأيام الأولى لشبكات الكبسولة ، التي قدمها جيفري هينتون ، وآخرون ، في عام 2017 كمحاولة لتقديم بنية NN متفوقة على CNNs الكلاسيكية. تهدف الفكرة إلى التقاط العلاقات الهرمية في طبقة الإدخال من خلال التوجيه الديناميكي بين "كبسولات" الخلايا العصبية. من المحتمل أن يكون على الأرجح إلى موضوع معالجة التعقيدات الهرمية ، حيث كان امتداد الفكرة إلى مجال NLP منذ ذلك الحين بمثابة بحث نشط ، كما هو الحال في الأوراق المذكورة أعلاه.
- التوجيه الديناميكي بين الكبسولات. 2017.
- كبسولات المصفوفة مع توجيه EM. 2018.
الرسوم البيانية المعرفة
- باستخدام fasttext و comet.ml لتصنيف العلاقات في الرسوم البيانية المعرفة
- WTF هو رسم بياني للمعرفة؟
- مسح للرسوم البيانية في معالجة اللغة الطبيعية. Nastase et al ، 2015.
مؤتمرات NLP الرئيسية
- العصبية
- جمعية اللغويات الحسابية (ACL)
- الأساليب التجريبية في معالجة اللغة الطبيعية (EMNLP)
- فرع أمريكا الشمالية من جمعية اللغويات الحسابية (NAACL)
- الفصل الأوروبي من جمعية اللغويات الحسابية (EACL)
- المؤتمر الدولي حول اللغويات الحسابية (Coling)
المعايير
- فرقة المتصدرين. قائمة بأقوى نماذج NLP الأداء على مجموعة بيانات الإجابة على أسئلة Stanford (Squad).
- فرقة 1.0 ورقة (آخر تحديث أكتوبر 2016). يتضمن Squad v1.1 أكثر من 100000 سؤال وأجوبة على أساس مقالات ويكيبيديا.
- فرقة 2.0 ورقة (أكتوبر 2018). يتضمن الجيل الثاني من الفريق أسئلة لا يمكن الإجابة عليها يجب على نموذج NLP تحديده على أنه غير قابل للإجابة من بيانات التدريب.
- لوحة الغراء.
- ورقة الغراء (سبتمبر 2018). A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).
Online courses
Udemy
- Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
- Udemy: Natural Language Processing with Deep Learning in Python
- Udemy: NLP - Natural Language Processing with Python
- Udemy: Deep Learning: Advanced NLP and RNNs
- Udemy: Natural Language Processing and Text Mining Without Coding
Stanford
- Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
- Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)
Coursera
- Courses for "natural language processing" on Coursera
- Coursera: Applied Text Mining in Python
- Coursera: Nartual Language Processing
- Coursera: Sequence Models for Time Series and Natural Language Processing
- Coursera: Coursera: Clinical Natural Language Processing
DataCamp
- DataCamp: Natural Language Processing Fundamentals in Python
- DataCamp: Sentiment Analysis in R: The Tidy Way
- DataCamp: Text Mining: Bag of Words
- DataCamp: Building Chatbots in Python
- DataCamp: Advanced NLP with spaCy
آحرون
- Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
- معالجة اللغة الطبيعية | Dan Jurafsky, Christopher Manning
- Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
- CMU CS 11-747: Neural Network for NLP
- YSDA NLP course. Yandex School of data analysis.
- CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
- UT CS 388: Natural Language Processing
- Columbia: COMS W4705: Natural Language Processing
- Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
- Machine Translation: Spring 2016
- Commonlounge: Learn Natural Language Processing: From Beginner to Expert
- Big Data University: Advanced Text Analytics – Getting Results with SystemT
- Udacity: Natural Language Processing Nanodegree
- edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers
APIs and Libraries
- R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
- Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
- Python modules
- NLTK: Natural Language Toolkit.
- Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
- Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
- Apache Tika: a content analysis tookilt.
- Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
- HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
- Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
- Stanford Parser: A probabilistic natural language parser.
- Stanford POS Tagger: A Parts-of-Speech tagger.
- Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
- Stanford Classifier: A softmax classifier.
- Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
- Stanford Topic Modeling Toolbox
- MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
- Apache OpenNLP: Machine learning based toolkit for text NLP.
- Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
- TextRazor API: Extract Meaning from your Text.
- fastText. Library for fast text representation and classification. فيسبوك.
- Comparison of Top 6 Python NLP Libraries.
- pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.
منتجات
- Systran - Enterprise Translation Products
- SAS Text Miner (Part of SAS Enterprise Miner)
- SAS Sentiment Analysis
- STATISTICA
- Text Mining (Big Data, Unstructured Data)
- KNIME
- RapidMiner
- بوابة
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
- Crimson Hexagon
- Stocktwits: Tap into the Pulse of Markets
- Meltwater
- CrowdFlower: AI for your business.
- Lexalytics Sematria: API and Excel plugin.
- Rosette Text Analytics: AI for Human Language
- Alchemy API
- Monkey Learn
- LightTag Annotation Tool. Hosted annotation tool for teams.
- UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
- Anafora: Free and open source web-based raw text annotation tool
- brat: Rapid annotation tool.
- Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
- Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
- Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
- Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
- Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
- Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.
سحاب
- Microsoft Azure Text Analytics
- Amazon Lex: A service for building conversational interfaces into any application using voice and text.
- Amazon Comprehend
- Google Cloud Natural Language
- IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Getting Data out of PDFs
- Apache PDFBox
- Tabula: A tool for liberating data tables locked inside PDF files.
- PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
- pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
- SO: How to extract text from a PDF?
- Tools for Extracting Data and Text from PDFs - A Review
- How I used NLP (SpaCy) to screen Data Science Resumes
- PyPDF2: PDF file manipulation (PDF to PDF).
Online Demos and Tools
- MIT OpenNPT for neural machine translation and neural sequence modeling
- Stanford Parser
- Stanford CoreNLP
- word2vec demo
- Another word2vec demo
- sense2vec: Semantic Analysis of the Reddit Hivemind
- RegexPal: Great tool for testing out regular expressions.
- AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
- Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.
مجموعات البيانات
- UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
- data.world's Text Datasets
- Awesome Public Datasets' Natural Languge
- Insight Resources Datasets
- Bing Sentiment Analysis
- Consumer Complaint Database. From the Consumer Financial Protection Bureau.
- Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
- Amazon product data
- Data is Plural
- FiveThirtyEight's datasets
- r/datasets
- Awesome public datasets
- R's
datasets package - 200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
- Wikipedia: List of datasets for ML research
- Google Dataset Search
- Kaggle: UMICH SI650 - Sentiment Classification
- Lee's Similarity Data Sets
- Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
- 15 Best Chatbot Datasets for Machine Learning
- A Survey of Available Corpora for Building Data-Driven Dialogue Systems
- nlp-datasets
- Hate-speech-and-offensive-language
- First Quora Dataset Release: Question Pairs
- The Best 25 Datasets for Natural Language Processing
- SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
- MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
- Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
- Million Song Lyrics
- The Multi-Genre NLI Corpus
- Twitter US Airline Sentiment
- Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
- DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
- EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
- American National Corpus Download
- Santa Barbara Corpus of Spoken American English
- Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
- Awesome Twitter
- The Big Bad NLP Database
- CBC News Coronavirus articles
- Huggingface
Lexicons for Sentiment Analysis
- MPQA Lexicon
- SentiWordNet
- أفين
- Bing
- nrc
- vaderSentiment
Misc
- AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
- Funny Video: Emotional Spell Check
- How to win Kaggle competition based on NLP task, if you are not an NLP expert
- Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
- Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
- The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
- Using Natural Language Processing for Automatic Detection of Plagiarism
- Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
- Human Emotion How to determine confidence level for manually labeled sentiment data?
- A Complete Exploratory Data Analysis and Visualization for Text Data
Other Curated Lists
- awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
- awesome-machine-learning
- Awesome Deep Learning for Natural Language Processing (NLP)
- Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
- Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
- Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
- Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found
يساهم
Contributions are more than welcome! Please read the contribution guidelines first.
رخصة
To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.