MyDatasciencePortfolio disponsori oleh alat berikut. Tolong bantu mendukung kami dengan melihat dan mendaftar ke uji coba gratis ?? ✌️✌️
Perkenalan
Studi Churn Pelanggan
BlogPost sedang
Sistem Rekomendasi Film
Studi Kejahatan San Francisco
Clustering sinopsis
Perpustakaan NLP yang berguna
Proyek potensial di masa depan
Lampiran
Selamat datang di portofolio proyek Ilmu Data saya yang luar biasa. Dalam repo saya, Anda dapat menemukan solusi yang luar biasa dan praktis untuk beberapa masalah bisnis dunia nyata dengan metode statistik dan model pembelajaran mesin negara bagian. Sebagian besar proyek saya akan didemonstrasikan di Jupyter Notebook. Jupyter Notebook adalah cara terbaik untuk berbagi pekerjaan saya dengan dunia. Muncul dengan markdown dan lingkungan Python interaktif dan portabel untuk platform lain seperti databricks dan Google Colaboratory juga.
Koleksi proyek saya mencakup berbagai aplikasi pembelajaran mesin tren seperti pemrosesan bahasa alami , pembelajaran mesin skala besar dengan Spark , dan Sistem Rekomendasi . Masih ada lagi yang akan datang. Proyek potensial di masa depan termasuk peringkasan teks , perkiraan harga saham , strategi perdagangan dengan pembelajaran penguatan , dan visi komputer .
Tingkat churn adalah salah satu metrik bisnis yang penting. Perusahaan dapat membandingkan churn dan tingkat pertumbuhannya untuk menentukan apakah ada pertumbuhan atau kerugian secara keseluruhan. Ketika tingkat churn lebih tinggi dari tingkat pertumbuhan, perusahaan telah mengalami kerugian dalam basis pelanggannya.
Mengapa pelanggan churn dan berhenti menggunakan layanan perusahaan? Berapa jumlah perkiraan churn untuk kuartal berikutnya? Mampu menjawab di atas dua pertanyaan dapat memberikan wawasan yang bermakna tentang arah mana perusahaan saat ini menuju dan bagaimana perusahaan dapat meningkatkan produk dan layanannya sehingga konstomer akan tetap ada.
Medium adalah platform penerbitan blogpost populer dengan sejumlah besar konten dan data teks. Apa yang diterbitkan orang? Apa topik laten di posting blog itu? Apa yang membuat posting blog populer? Dan apa tren teknologi saat ini? Proyek ini bertujuan untuk menjawab pertanyaan melalui visualisasi, analisis, proses bahasa alami, dan teknik pembelajaran mesin.
Secara khusus, saya akan menggunakan Seaborn dan Panda untuk analisis eksplorasi. Untuk pemodelan pembelajaran mesin, saya memilih K-Means , TSVD , dan LatentDiriChletAlokasi untuk pemodelan topik. Saya akan melakukan studi ini dengan dua kerangka kerja ML yang berbeda: Sklearn dan Spark .
Sklearn adalah perpustakaan pembelajaran mesin Python yang hebat untuk ilmuwan data.
Namun, di usia data besar, sebagian besar analisis data didasarkan pada komputasi terdistribusi. Spark didistribusikan sebagai kerangka kerja komputasi cluster dan menyediakan antarmuka untuk pemrograman seluruh kelompok dengan paralelisme data implisit dan toleransi kesalahan.
Sebagian besar produk yang kami gunakan saat ini ditenagai oleh mesin rekomendasi. YouTube, Netflix, Amazon, Pinterest, dan daftar panjang produk data lainnya semuanya bergantung pada mesin rekomendasi untuk menyaring jutaan konten dan membuat rekomendasi yang dipersonalisasi kepada penggunanya.
Akan sangat keren untuk membangun sistem rekomendasi sendiri. Saya suka menonton film ketika saya menghabiskan waktu bersama keluarga saya. Jadi saya memutuskan untuk membangun film rekomendasi untuk diri saya sendiri. Secara umum, sistem rekomendasi dapat secara longgar dipecah menjadi tiga kategori: sistem berbasis konten , sistem penyaringan kolaboratif , dan sistem hibrida (yang menggunakan kombinasi dua lainnya).
Proyek saya berfokus pada sistem penyaringan kolaboratif. Sistem berbasis penyaringan kolaboratif menggunakan tindakan pengguna untuk merekomendasikan item lainnya. Secara umum, mereka dapat berbasis pengguna atau berdasarkan item. Pendekatan berbasis item biasanya lebih disukai daripada pendekatan berbasis pengguna. Pendekatan berbasis pengguna seringkali lebih sulit skala karena sifat dinamis pengguna, sedangkan item biasanya tidak banyak berubah, sehingga pendekatan berbasis item seringkali dapat dihitung secara offline.
Namun, pemfilteran kolaboratif berbasis item dan pengguna masih menghadapi tantangan berikut:
Untuk mengatasi tantangan di atas, saya akan menggunakan faktorisasi matriks untuk mempelajari fitur laten dan interaksi antara pengguna dan item
San Francisco telah muncul sebagai salah satu kota paling mahal untuk tinggal. Semakin banyak startup dan perusahaan bergerak di kota dan menarik semakin banyak bakat ke kota. Namun, insiden kejahatan tampaknya naik sebagai pendapatan rata -rata penghuninya juga. Break-in mobil melanda tingkat 'epidemi' di San Francisco.
Dalam penelitian ini, saya akan menggunakan Spark untuk menganalisis dataset insiden yang dilaporkan 15 tahun dari SFPD, dan menggunakan metode pembelajaran mesin untuk memahami pola dan distribusi kejahatan di SF. Terakhir, saya akan membangun model prakiraan seri waktu untuk memperkirakan tingkat kejahatan
Hari ini, kita dapat mengumpulkan lebih banyak data yang tidak terstruktur daripada sebelumnya. Tidak seperti data terstruktur, data yang tidak terstruktur tidak terstruktur melalui model atau skema data yang telah ditentukan sebelumnya, tetapi memang memiliki struktur internal. Salah satu contoh data yang tidak terstruktur adalah data teks, seperti ringkasan plot, sinopsis film.
Dalam proyek ini, saya akan menggunakan teknik NLP klasik: Tokenisasi Word , Stemming Word , penghapusan stopword , TF-IDF dan lebih banyak lagi untuk membersihkan data teks mentah dan mengekstrak fitur dari teks mentah. Kemudian saya akan menggunakan model pembelajaran tanpa pengawasan seperti K-means dan latentdiriChletAllocation untuk mengelompokkan dokumen yang tidak berlabel ke dalam kelompok yang berbeda, memvisualisasikan hasil dan mengidentifikasi topik/struktur laten mereka.
Dengan teknik pengelompokan yang diterapkan pada data yang tidak terstruktur, kita dapat mulai menemukan struktur internal di dalam data dan mengidentifikasi kesamaan antara dokumen. Dengan skor kesamaan antara dokumen, kami mulai memiliki kemampuan untuk menanyakan dan menganalisis dokumen dari toko dokumen mana pun.
Natural Language Processing (NLP) adalah area tren tentang cara memprogram mesin untuk memproses dan menganalisis sejumlah besar data bahasa alami, dan mengekstrak informasi yang bermakna darinya.
Ada banyak alat dan perpustakaan yang dirancang untuk menyelesaikan masalah NLP. Perpustakaan yang paling umum digunakan adalah Natrual Language Toolkit (NLTK) , Spacy , SKLEARN NLP Toolkit , Gensim , Pattern , Polyglot dan banyak lainnya. Buku catatan saya akan memperkenalkan penggunaan dasar, pro, dan kontra dari setiap perpustakaan NLP.