Portofolio Ilmu Data
Repositori yang berisi portofolio proyek ilmu data yang diselesaikan oleh saya untuk tujuan akademik, pembelajaran mandiri, dan hobi. Disajikan dalam bentuk Jupyter Notebooks, dan R Markdown Files (diterbitkan di RPUBS).
Untuk pengalaman yang lebih menyenangkan secara visual untuk menjelajahi portofolio, lihat sajalsharma.com
Portofolio R terletak di sini.
Catatan: Data yang digunakan dalam proyek (diakses di bawah Data Data) hanya untuk tujuan demonstrasi.
Instruksi untuk menjalankan notebook python secara lokal
- Instal dependensi menggunakan persyaratan.txt.
- Jalankan notebook seperti biasa dengan menggunakan server notebook Jupyter, vscode dll.
Isi
Pembelajaran Mesin
- Memprediksi harga perumahan Boston: Model untuk memprediksi nilai rumah tertentu di pasar real estat Boston menggunakan berbagai alat analisis statistik. Mengidentifikasi harga terbaik yang dapat dijual oleh klien mereka dengan menggunakan pembelajaran mesin.
- Pembelajaran yang diawasi: Menemukan donor untuk CharityML: Menguji beberapa algoritma pembelajaran yang diawasi berbeda untuk membangun model yang secara akurat memprediksi apakah seseorang menghasilkan lebih dari $ 50.000, untuk mengidentifikasi kemungkinan donor untuk organisasi nirlaba fiksi.
- Pembelajaran tanpa pengawasan: Membuat segmen pelanggan: Menganalisis dataset yang berisi data tentang berbagai jumlah pengeluaran tahunan pelanggan (dilaporkan dalam unit moneter) dari beragam kategori produk untuk menemukan struktur, pola, dan pengetahuan internal.
- Pembelajaran Penguatan: Melatih SmartCab untuk mengemudi: Membuat agen mengemudi Q-Learning yang dioptimalkan yang akan menavigasi SmartCab melalui lingkungannya menuju tujuan.
- Pembelajaran mendalam: Pengenalan urutan digit menggunakan CNNs: merancang dan mengimplementasikan jaringan saraf konvolusional yang belajar mengenali urutan digit menggunakan data sintetis yang dihasilkan dengan menggabungkan gambar dari MNIST.
Alat: scikit-learn, panda, seorn, matplotlib, pygame
Pemrosesan bahasa alami
Klasifikasi Pesan Bencana: Model klasifikasi multilabel untuk memprediksi kategori pesan bencana. Termasuk pipa ETL untuk pemrosesan data, pipa ML untuk melatih model, dan aplikasi web, dengan visualisasi, di mana model dapat digunakan untuk mengklasifikasikan pesan. Alat: nltk, scikit-learn, xgboost, flask, plotly
Analisis sentimen 3 arah untuk tweet: Sistem klasifikasi polaritas 3 arah (positif, negatif, netral) untuk tweet, tanpa menggunakan mesin analisis sentimen NLTK.
Pengambilan Informasi Bahasa Silang: Sistem Pengambilan Informasi Bahasa Silang (CLIR) yang, diberikan pertanyaan dalam bahasa Jerman, mencari dokumen teks yang ditulis dalam bahasa Inggris.
Alat: NLTK, Scikit
Analisis dan Visualisasi Data
- Python
- Analisis walkability yang dapat diskalakan dari Melbourne: Analisis walkability pinggiran kota di Melbourne, Victoria dan implikasinya.
- Dataset Titanic - Analisis Eksplorasi: Analisis Eksplorasi Penumpang Onboard RMS Titanic Menggunakan Panda dan Visualisasi Seaborn.
- Analisis pasar saham untuk saham teknologi: Analisis saham teknologi termasuk perubahan harga dari waktu ke waktu, pengembalian harian, dan prediksi perilaku saham.
- 2016 Analisis Data Polling Umum AS: Analisis yang sangat sederhana dari Data Polling Pemilu Umum AS 2016.
- 911 Panggilan - Analisis Eksplorasi: Analisis Data Eksplorasi dari Dataset 911 Panggilan yang Di -host di Kaggle. Menunjukkan ekstraksi fitur yang berguna dari berbagai variabel.
Alat: panda, folium, seorn dan matplotlib
- R
- Sistem Pengawasan Faktor Risiko Perilaku (BRFSS) 2013: Analisis Data Eksplorasi: Analisis Eksplorasi Kumpulan data BRFSS-2013, dengan fokus menyelidiki hubungan antara pendidikan dan kebiasaan makan, tidur dan kesehatan mental, dan merokok, minum dan kesehatan umum seseorang.
- Statistik inferensial: Apakah pria atau wanita menentang pendidikan seks? : Menggunakan dataset GSS (General Social Survey) untuk menyimpulkan jika, pada tahun 2012, adalah laki -laki, dari 18 tahun atau lebih di Amerika Serikat, lebih mungkin menentang pendidikan seks di sekolah umum daripada wanita.
- Visualisasi Data: Korupsi dan Pembangunan Manusia: Plot sebaran untuk hubungan antara 'indeks pembangunan manusia' dan 'indeks persepsi korupsi' dari negara -negara.
- Moneyball: Menganalisis dan mengganti pemain yang hilang: Eksplorasi data baseball untuk tahun 2001 untuk melihat penggantian untuk pemain kunci yang hilang oleh Oakland A pada tahun 2001. Terinspirasi oleh buku/film: Moneyball.
Proyek Mikro:
Python
- ML dengan regresi logistik: Menggunakan regresi logistik untuk memprediksi apakah pengguna internet mengklik iklan atau tidak.
- ML dengan K tetangga terdekat: Menggunakan KNN untuk mengklasifikasikan contoh dari dataset palsu menjadi dua kelas target, sambil memilih nilai terbaik untuk k menggunakan metode siku.
- ML dengan pohon keputusan dan hutan acak: Menggunakan pohon keputusan dan hutan acak untuk memprediksi apakah pemberi pinjaman akan membayar kembali pinjaman mereka. Menggunakan data yang tersedia secara publik dari LendingClub.com
- Rekomendasi Film Menggunakan Sistem Rekomendasi: Proyek Mikro untuk Membangun Sistem Rekomendasi yang membuat rekomendasi film berdasarkan kesamaan tinjauan pengguna.
R
- Regresi Logistik ML: Memprediksi kelas gaji seseorang yang menggunakan regresi logistik.
- Pohon keputusan ML dan hutan acak: Menggunakan pohon keputusan dan hutan acak untuk mengklasifikasikan sekolah sebagai swasta atau publik.
Saya juga mencoba -coba semua jenis teknologi lainnya. Anda dapat menemukan portofolio umum di sini.
Jika Anda menyukai apa yang Anda lihat, ingin mengobrol dengan saya tentang portofolio, peluang kerja, atau kolaborasi, kirim email di [email protected].
Mendukung pekerjaan saya
Jika proyek ini menginspirasi Anda, memberi Anda ide untuk portofolio Anda sendiri atau membantu Anda, harap pertimbangkan untuk membelikan saya kopi ❤️.