يتم رعاية MyDataScience Portfolio بواسطة الأداة التالية. الرجاء المساعدة لدعمنا من خلال إلقاء نظرة والتسجيل في تجربة مجانية ؟؟ ✌
مقدمة
دراسة العميل churn
مدونة متوسطة
أنظمة التوصية السينمائية
دراسة الجريمة سان فرانسيسكو
تجميع ملخص
مكتبات NLP مفيدة
المشاريع المحتملة المستقبلية
زائدة
مرحبًا بك في محفظة مشروع علوم البيانات الرائعة الخاصة بي. في ريبو الخاص بي ، يمكنك العثور على حلول رائعة وعملية لبعض مشكلات العمل في العالم الحقيقي مع الأساليب الإحصائية ونماذج التعلم الآلي للدولة. سيتم تجريب معظم مشاريعي في دفتر Jupyter. يعد Jupyter Notebook وسيلة ممتازة لمشاركة عملي مع العالم. إنه يأتي مع بيئة Python التفاعلية والتفاعلية وهي محمولة على منصات أخرى مثل Databricks و Google Colaboratory أيضًا.
تغطي مجموعة المشاريع الخاصة بي العديد من تطبيقات التعلم الآلي المتجهة مثل معالجة اللغة الطبيعية ، والتعلم الآلي على نطاق واسع مع Spark ، ونظام التوصية . هناك المزيد في المستقبل. تشمل المشاريع المستقبلية المحتملة تلخيص النص ، وتوقعات أسعار الأسهم ، واستراتيجية التداول مع التعلم التعزيز ، ورؤية الكمبيوتر .
يعد معدل الفوضى أحد مقاييس الأعمال المهمة. يمكن للشركة أن تقارن معدلات النمو والنمو لتحديد ما إذا كان هناك نمو إجمالي أو خسارة. عندما يكون معدل المزيج أعلى من معدل النمو ، شهدت الشركة خسارة في قاعدة عملائها.
لماذا يقوم العملاء بتوقف عن استخدام خدمات الشركة؟ ما هو تقدير التقدير للربع القادم؟ إن القدرة على الإجابة أعلاه على سؤالين يمكن أن يوفروا رؤى ذات معنى حول الاتجاه الذي تتجه إليه الشركة حاليًا وكيف يمكن للشركة تحسين منتجاتها وخدماتها حتى يبقى Constomers.
Medium هي منصة نشر شائعة في Blogpost مع كمية هائلة من المحتويات والبيانات النصية. ماذا ينشر الناس؟ ما هي الموضوعات الكامنة في تلك المدونات؟ ما الذي يجعل المدونة شائعة؟ وما هو الاتجاه في تكنولوجيا اليوم؟ يهدف هذا المشروع إلى الإجابة على الأسئلة من خلال التصور والتحليل وعملية اللغة الطبيعية وتقنيات التعلم الآلي.
على وجه التحديد ، سأستخدم SeaBorn و Pandas للتحليل الاستكشافي. لنمذجة التعلم الآلي ، اخترت K-Means و TSVD و LatentDirichletAllocation لنمذجة الموضوع. سأقوم بهذه الدراسة مع اثنين من أطر ML مختلفة: Sklearn و Spark .
Sklearn هي مكتبة رائعة لتعلم الآلات لبيثون لعالم البيانات.
ومع ذلك ، في عصر البيانات الضخمة ، يتم تنفيذ معظم تحليل البيانات على الحوسبة الموزعة. يتم توزيع Spark إطار عمل لحامل الكتلة ويوفر واجهة لبرمجة المجموعات بأكملها مع التوازي الضمني للبيانات والتسامح مع الأخطاء.
معظم المنتجات التي نستخدمها اليوم مدعومة بمحركات التوصية. تعتمد YouTube و Netflix و Amazon و Pinterest وقائمة طويلة من منتجات البيانات الأخرى على محركات التوصية لتصفية ملايين المحتويات وتقديم توصيات مخصصة لمستخدميها.
سيكون من الرائع بناء نظام توصيات بنفسي. أحب مشاهدة الأفلام عندما أقضي الوقت مع عائلتي. لذلك قررت بناء موصية فيلم لنفسي. بشكل عام ، يمكن تقسيم أنظمة التوصية بشكل فضفاض إلى ثلاث فئات: الأنظمة القائمة على المحتوى ، وأنظمة التصفية التعاونية ، والأنظمة الهجينة (التي تستخدم مزيجًا من الاثنين الآخرين).
يركز مشروعي على أنظمة التصفية التعاونية. تستخدم الأنظمة المستندة إلى التصفية التعاونية إجراءات المستخدمين للتوصية عن عناصر أخرى. بشكل عام ، يمكن أن تكون إما مستندة إلى المستخدم أو على أساس العنصر. عادةً ما يكون النهج القائم على العناصر مفضلاً من النهج القائم على المستخدم. غالبًا ما يصعب توسيع نطاق النهج القائم على المستخدم بسبب الطبيعة الديناميكية للمستخدمين ، في حين أن العناصر عادة لا تتغير كثيرًا ، لذلك يمكن حساب النهج القائم على العناصر في الغالب.
ومع ذلك ، لا يزال كل من التصفية التعاونية القائمة على العناصر والتعاون مع المستخدم يواجهون تحديات التالية:
للتغلب على التحديات أعلاه ، سأستخدم معاملات المصفوفة لتعلم الميزات الكامنة والتفاعل بين المستخدمين والعناصر
ظهرت سان فرانسيسكو كواحدة من أغلى مدينة للإقامة. المزيد والمزيد من الشركات الناشئة والشركات تتحرك في المدينة وتجذب المزيد والمزيد من المواهب إلى المدينة. ومع ذلك ، يبدو أن حوادث الجريمة ترتفع كمتوسط دخل سكانها أيضًا. ضربت عمليات كسر السيارات مستويات "الوباء" في سان فرانسيسكو.
في هذه الدراسة ، سأستخدم Spark لتحليل مجموعة بيانات الحوادث التي تم الإبلاغ عنها لمدة 15 عامًا من SFPD ، واستخدام أساليب التعلم الآلي لفهم نمط الجريمة والتوزيع في SF. أخيرًا ، سأبني نموذجًا تنبؤًا للسلسلة الزمنية للتنبؤ بمعدل الجريمة
اليوم ، يمكننا جمع الكثير من البيانات غير المهيكلة ثم من قبل. على عكس البيانات المنظمة ، لا يتم تنظيم البيانات غير المنظمة عبر نماذج أو مخطط بيانات محددة مسبقًا ، ولكن لديها بنية داخلية. أحد الأمثلة على البيانات غير المهيكلة هو البيانات النصية ، مثل ملخص المؤامرة ، ملخص الأفلام.
في هذا المشروع ، سأستخدم تقنيات NLP الكلاسيكية: رمز الكلمات ، ونقمة الكلمات ، وإزالة الكلمات ، و TF-IDF ، وأكثر لتنظيف بيانات النص الخام واستخراج الميزات من النص الخام. بعد ذلك ، سأستخدم نماذج التعلم غير الخاضعة للإشراف مثل K-means و LatentDirichletAllocation لتجميع المستندات غير المسبقة في مجموعات مختلفة ، وتصور النتائج وتحديد موضوعاتها/هياكلها الكامنة.
مع تقنيات التجميع المطبقة على البيانات غير المنظمة ، يمكننا البدء في اكتشاف الهيكل الداخلي داخل البيانات وتحديد التشابه بين المستندات. مع درجة التشابه بين المستندات ، نبدأ في الحصول على القدرة على الاستعلام عن المستندات وتحليلها من أي متجر مستندات.
تعد معالجة اللغة الطبيعية (NLP) منطقة تتجه حول كيفية برمجة الآلات لمعالجة وتحليل كميات كبيرة من بيانات اللغة الطبيعية ، واستخراج معلومات ذات معنى منه.
هناك العديد من الأدوات والمكتبات المصممة لحل مشاكل NLP. المكتبات الأكثر استخدامًا هي مجموعة أدوات اللغة Natrual (NLTK) ، و SPACY ، ومجموعة أدوات Sklearn NLP ، و Gensim ، و Pattern ، و Polyglot وغيرها الكثير. سيقدم دفتر ملاحظاتي الاستخدام الأساسي ، إيجابيات وسلبيات كل مكتبات NLP.