Unduh awesome datascience - Unduh Kode Sumber awesome datascience

Ilmu data yang luar biasa

Repositori ilmu data open-source untuk belajar dan berlaku untuk memecahkan masalah dunia nyata.

Ini adalah jalur pintas untuk mulai mempelajari ilmu data . Ikuti saja langkah -langkah untuk menjawab pertanyaan, "Apa itu ilmu data dan apa yang harus saya pelajari untuk mempelajari ilmu data?"

Sponsor

Sponsor	Melempar
---	Jadilah yang pertama mensponsori! `[email protected]`

Daftar isi

Apa itu Ilmu Data?
Dimana saya mulai?
Sumber daya pelatihan
- Tutorial
- Kursus gratis
- Kursus Online Buka Secara Masif
- Program intensif
- Perguruan tinggi
Kotak alat sains data
- Algoritma
  - Pembelajaran yang diawasi
  - Pembelajaran tanpa pengawasan
  - Pembelajaran semi-diawasi
  - Pembelajaran Penguatan
  - Algoritma penambangan data
  - Arsitektur pembelajaran yang mendalam
- Paket Pembelajaran Mesin Umum
- Paket pembelajaran yang mendalam
  - Ekosistem Pytorch
  - Ekosistem Tensorflow
  - Ekosistem Keras
- Alat visualisasi
- Alat lain -lain
Sastra dan Media
- Buku
  - Penawaran buku (berafiliasi)
- Jurnal, publikasi, dan majalah
- Nawala
- Blogger
- Presentasi
- Podcast
- Video & Saluran YouTube
Mensosialisasikan
- Akun Facebook
- Akun twitter
- Saluran telegram
- Komunitas Slack
- Grup GitHub
- Kompetisi Ilmu Data
Seru
- Infografis
- Kumpulan data
- Komik
Daftar luar biasa lainnya
- Hobi

Apa itu Ilmu Data?

^ back to top ^

Ilmu data adalah salah satu topik terpanas di komputer dan lahan pertanian internet saat ini. Orang -orang telah mengumpulkan data dari aplikasi dan sistem hingga saat ini dan sekarang adalah waktu untuk menganalisisnya. Langkah selanjutnya adalah menghasilkan saran dari data dan membuat prediksi tentang masa depan. Di sini Anda dapat menemukan pertanyaan terbesar untuk ilmu data dan ratusan jawaban dari para ahli.

Link	Pratinjau
Apa itu Ilmu Data @ O'Reilly	Ilmuwan data menggabungkan kewirausahaan dengan kesabaran, kesediaan untuk membangun produk data secara bertahap, kemampuan untuk mengeksplorasi, dan kemampuan untuk mengulangi solusi. Mereka secara inheren interdisipliner. Mereka dapat menangani semua aspek masalah, dari pengumpulan data awal dan pengkondisian data hingga menarik kesimpulan. Mereka dapat berpikir di luar kotak untuk menghasilkan cara -cara baru untuk melihat masalah, atau bekerja dengan masalah yang sangat luas: "Berikut banyak data, apa yang dapat Anda buat darinya?"
Apa itu Ilmu Data @ Quora	Ilmu data adalah kombinasi dari sejumlah aspek data seperti teknologi, pengembangan algoritma, dan gangguan data untuk mempelajari data, menganalisisnya, dan menemukan solusi inovatif untuk masalah sulit. Pada dasarnya ilmu data adalah tentang menganalisis data dan mengemudi untuk pertumbuhan bisnis dengan menemukan cara kreatif.
Pekerjaan terseksi abad ke -21	Ilmuwan data saat ini mirip dengan "Quants" Wall Street pada 1980 -an dan 1990 -an. Pada masa itu orang -orang dengan latar belakang dalam fisika dan matematika dialirkan ke bank investasi dan dana lindung nilai, di mana mereka dapat merancang algoritma dan strategi data yang sama sekali baru. Kemudian berbagai universitas mengembangkan program master dalam rekayasa keuangan, yang mengaduk -aduk bakat generasi kedua yang lebih mudah diakses oleh perusahaan arus utama. Pola itu diulang kemudian pada 1990 -an dengan insinyur pencari, yang keterampilannya yang langka segera diajarkan dalam program ilmu komputer.
Wikipedia	Ilmu data adalah bidang interdisipliner yang menggunakan metode ilmiah, proses, algoritma dan sistem untuk mengekstraksi pengetahuan dan wawasan dari banyak data struktural dan tidak terstruktur. Ilmu data terkait dengan penambangan data, pembelajaran mesin, dan data besar.
Bagaimana menjadi ilmuwan data	Ilmuwan data adalah penulis data besar, mengumpulkan dan menganalisis set besar data terstruktur dan tidak terstruktur. Peran ilmuwan data menggabungkan ilmu komputer, statistik, dan matematika. Mereka menganalisis, memproses, dan memodelkan data kemudian menafsirkan hasil untuk membuat rencana yang dapat ditindaklanjuti untuk perusahaan dan organisasi lain.
Sejarah #dataccience yang sangat singkat	Kisah tentang bagaimana data para ilmuwan menjadi seksi sebagian besar adalah kisah tentang penggabungan disiplin statistik yang matang dengan yang sangat muda-sains komputer. Istilah "ilmu data" baru -baru ini muncul baru -baru ini untuk secara khusus menunjuk profesi baru yang diharapkan untuk memahami penyimpanan besar data besar. Tetapi memahami data memiliki sejarah panjang dan telah dibahas oleh para ilmuwan, ahli statistik, pustakawan, ilmuwan komputer dan lainnya selama bertahun -tahun. Garis waktu berikut melacak evolusi istilah "ilmu data" dan penggunaannya, berupaya mendefinisikannya, dan istilah terkait.
Sumber Daya Pengembangan Perangkat Lunak untuk Ilmuwan Data	Ilmuwan data berkonsentrasi untuk memahami data melalui analisis eksplorasi, statistik, dan model. Pengembang perangkat lunak menerapkan seperangkat pengetahuan yang terpisah dengan alat yang berbeda. Meskipun fokus mereka mungkin tampak tidak terkait, tim sains data dapat memperoleh manfaat dari mengadopsi praktik terbaik pengembangan perangkat lunak. Kontrol Versi, Pengujian Otomatis, dan Keterampilan DEV lainnya membantu membuat kode dan alat yang dapat direproduksi dan siap-produksi.
Peta jalan ilmuwan data	Ilmu data adalah pilihan karier yang sangat baik di dunia yang digerakkan data saat ini di mana sekitar 328,77 juta terabyte data dihasilkan setiap hari. Dan angka ini hanya meningkat dari hari ke hari, yang pada gilirannya meningkatkan permintaan bagi para ilmuwan data terampil yang dapat memanfaatkan data ini untuk mendorong pertumbuhan bisnis.
Menavigasi jalan Anda untuk menjadi ilmuwan data	_Data Science adalah salah satu karier paling dalam permintaan saat ini. Dengan bisnis yang semakin mengandalkan data untuk membuat keputusan, kebutuhan akan data yang terampil para ilmuwan telah berkembang pesat. Baik itu perusahaan teknologi, organisasi kesehatan, atau bahkan lembaga pemerintah, ilmuwan data memainkan peran penting dalam mengubah data mentah menjadi wawasan yang berharga. Tetapi bagaimana Anda menjadi ilmuwan data, terutama jika Anda baru memulai? _

Dimana saya mulai?

^ back to top ^

Meskipun tidak sepenuhnya diperlukan, memiliki bahasa pemrograman adalah keterampilan penting untuk menjadi efektif sebagai ilmuwan data. Saat ini, bahasa yang paling populer adalah Python , diikuti oleh r . Python adalah bahasa skrip tujuan umum yang melihat aplikasi di berbagai bidang. R adalah bahasa khusus domain untuk statistik, yang berisi banyak alat statistik umum di luar kotak.

Python sejauh ini merupakan bahasa yang paling populer dalam sains, karena tidak sedikit kemudahan di mana ia dapat digunakan dan ekosistem yang semarak dari paket yang dibuat pengguna. Untuk menginstal paket, ada dua metode utama: PIP (dipanggil sebagai pip install ), manajer paket yang dilengkapi dengan Python, dan Anaconda (dipanggil sebagai conda install ), manajer paket yang kuat yang dapat menginstal paket untuk Python, R, dan dapat mengunduh executable seperti Git.

Tidak seperti R, Python tidak dibangun dari bawah ke atas dengan ilmu data dalam pikiran, tetapi ada banyak perpustakaan pihak ketiga untuk menebus ini. Daftar paket yang jauh lebih lengkap dapat ditemukan nanti dalam dokumen ini, tetapi keempat paket ini adalah serangkaian pilihan yang baik untuk memulai perjalanan sains data Anda dengan: scikit-learn adalah paket sains data tujuan umum yang mengimplementasikan algoritma yang paling populer-ini juga mencakup dokumentasi yang kaya, tutorial, dan contoh model yang diterapkannya. Bahkan jika Anda lebih suka menulis implementasi Anda sendiri, Scikit-Learn adalah referensi yang berharga untuk kacang-dan-baut di balik banyak algoritma umum yang akan Anda temukan. Dengan panda, seseorang dapat mengumpulkan dan menganalisis data mereka ke dalam format tabel yang nyaman. Numpy menyediakan alat yang sangat cepat untuk operasi matematika, dengan fokus pada vektor dan matriks. Seeborn, itu sendiri berdasarkan paket matplotlib, adalah cara cepat untuk menghasilkan visualisasi yang indah dari data Anda, dengan banyak default bagus yang tersedia di luar kotak, serta galeri yang menunjukkan cara menghasilkan banyak visualisasi umum dari data Anda.

Ketika memulai perjalanan Anda untuk menjadi ilmuwan data, pilihan bahasa tidak terlalu penting, dan baik Python dan R memiliki pro dan kontra mereka. Pilih bahasa yang Anda sukai, dan periksa salah satu kursus gratis yang telah kami daftarkan di bawah ini!

Dunia nyata

^ back to top ^

Ilmu data adalah alat yang ampuh yang digunakan di berbagai bidang untuk menyelesaikan masalah dunia nyata dengan mengekstraksi wawasan dan pola dari data yang kompleks.

Bencana

^ back to top ^

Deprem-ML Aya: Açık Yazılım Ağı (+25K pengembang) sedang berusaha membantu respons bencana menggunakan kecerdasan buatan. Semuanya open-source afet.org.

Sumber daya pelatihan

^ back to top ^

Bagaimana Anda mempelajari ilmu data? Dengan melakukan ilmu data, tentu saja! Oke, oke - itu mungkin tidak terlalu membantu ketika Anda pertama kali memulai. Di bagian ini, kami telah mendaftarkan beberapa sumber belajar, dalam urutan kasar dari komitmen paling sedikit hingga terbesar - tutorial, kursus online terbuka besar -besaran (MOOC), program intensif, dan perguruan tinggi.

Tutorial

^ back to top ^

1000 proyek ilmu data yang dapat Anda jalankan di browser dengan Ipython.
#tidytuesday Proyek data mingguan yang ditujukan untuk ekosistem R.
Ilmu Data Jalan Anda
Pyspark Cheatsheet
Pembelajaran mesin, ilmu data dan pembelajaran mendalam dengan python
Cara memberi label data
Panduan Anda untuk Alokasi Dirichlet Laten
Lebih dari 1000 Kursus Online Ilmu Data di Classpert Online Search Engine
Tutorial kode sumber dari buku algoritma genetika dengan python oleh Clinton Sheppard
Tutorial untuk memulai pemrosesan sinyal untuk pembelajaran mesin
Tutorial Penyebaran Realtime tentang Penyebaran Model Seri-Waktu Python.
Python untuk Ilmu Data: Panduan Pemula
Rencana studi minimum yang layak untuk wawancara pembelajaran mesin
Memahami dan Mengetahui Rekayasa Pembelajaran Mesin dengan Membangun Proyek Solid
12 Proyek Ilmu Data Gratis Untuk Berlatih Python dan Panda
CV/Resume Terbaik untuk Freshers Ilmu Data
Memahami Kursus Ilmu Data di Java
Pertanyaan Wawancara Analisis Data (Pemula untuk Tingkat Lanjut)
100+ pertanyaan dan jawaban wawancara sains data teratas

Kursus gratis

^ back to top ^

Ilmuwan Data dengan R
Ilmuwan Data dengan Python
Kursus Algoritma Genetika OCW
AI Expert Roadmap - Roadmap untuk Menjadi Pakar Kecerdasan Buatan
Optimasi Cembung - Optimalisasi Cembung (Dasar -dasar Analisis Cembung; Kuat -Kuiter, Program Linier dan Kuadratik, Pemrograman Semidefinit, Minimax, Volume Ekstrem, dan Masalah Lainnya; Kondisi Optimalitas, Teori Dualitas ...)
Skillcombo - Ilmu Data - 1000+ kursus ilmu data online gratis
Pembelajaran dari Data - Pengantar Pembelajaran Mesin Meliputi Teori Dasar, Algoritma dan Aplikasi
Kaggle - Pelajari tentang Ilmu Data, Pembelajaran Mesin, Python dll
ML Observability Fundamentals - Pelajari cara memantau dan menyebabkan masalah produksi ML.
Bobot & Bias MLOPS Efektif: Pengembangan Model-Kursus Gratis dan Sertifikasi untuk Membangun Mesin End-to-End Menggunakan W&B
Python untuk Pembelajaran Mesin - Mulailah perjalanan Anda ke pembelajaran mesin dengan Python, salah satu bahasa pemrograman paling kuat.
Python untuk Ilmu Data oleh Scaler - Kursus ini dirancang untuk memberdayakan pemula dengan keterampilan penting untuk unggul di dunia yang didorong oleh data saat ini. Kurikulum komprehensif akan memberi Anda dasar yang kuat dalam statistik, pemrograman, visualisasi data, dan pembelajaran mesin.
MLSYS-NYU-2022-Slide, skrip, dan materi untuk pembelajaran mesin dalam kursus keuangan di NYU Tandon, 2022.
Kereta Hands-on dan Deploy ML-Kursus langsung untuk melatih dan menggunakan API tanpa server yang memprediksi harga crypto.
LLMOPS: Membangun aplikasi dunia nyata dengan model bahasa besar - Belajar membangun perangkat lunak modern dengan LLM menggunakan alat dan teknik terbaru di lapangan.
Teknik yang cepat untuk model visi - Belajar memicu model visi komputer mutakhir dengan bahasa alami, titik koordinat, kotak pembatas, masker segmentasi, dan bahkan gambar lain dalam kursus gratis ini dari deeplearning.ai.
Kursus Ilmu Data oleh IBM - Sumber Daya Gratis dan Pelajari Apa itu Ilmu Data dan bagaimana ia digunakan di berbagai industri.

MOOC

^ back to top ^

Pengantar Coursera untuk Ilmu Data
Ilmu Data - 9 Langkah Kursus, Spesialisasi di Coursera
Data Mining - Kursus 5 Langkah, Spesialisasi di Coursera
Pembelajaran Mesin - Kursus 5 Langkah, Spesialisasi di Coursera
CS 109 Ilmu Data
OpenIntro
CS 171 Visualisasi
Penambangan Proses: Ilmu Data sedang beraksi
Oxford Deep Learning
Oxford Deep Learning - Video
Pembelajaran Mesin Oxford
UBC Machine Learning - Video
Spesialisasi Ilmu Data
Spesialisasi Big Data Coursera
Pemikiran Statistik untuk Ilmu Data dan Analisis oleh EDX
AI Kelas Kognitif oleh IBM
Udacity - Pembelajaran mendalam
Keras Bergerak
Program Profesional Microsoft untuk Ilmu Data
COMP3222/COMP6246 - Teknologi Pembelajaran Mesin
CS 231 - Jaringan saraf konvolusional untuk pengakuan visual
Coursera TensorFlow dalam Praktek
Spesialisasi pembelajaran mendalam Coursera
365 Kursus Ilmu Data
Spesialisasi Pemrosesan Bahasa Alami Coursera
Spesialisasi Gan Coursera
Ilmu Data Codecademy
Linear Aljabar - Kursus Aljabar Linier oleh Gilbert Strang
Visi 2020 Aljabar Linier (G. Strang)
Kursus Python untuk Data Science Foundation
Ilmu Data: Statistik & Pembelajaran Mesin
Teknik Pembelajaran Mesin untuk Produksi (MLOPS)
Spesialisasi Sistem Rekomendasi dari University of Minnesota adalah spesialisasi tingkat menengah/lanjutan yang berfokus pada sistem rekomendasi pada platform Coursera.
Program Profesional Intelijen Buatan Stanford
Ilmuwan Data dengan Python
Pemrograman dengan Julia
Program Pembelajaran Ilmu & Pembelajaran Mesin Scaler
Pohon Keterampilan Ilmu Data
Ilmu Data untuk Pemula - Pelajari dengan AI Tutor
Pembelajaran Mesin untuk Pemula - Belajar dengan AI Tutor

Program intensif

^ back to top ^

Perguruan tinggi

^ back to top ^

Daftar perguruan tinggi dan universitas yang menawarkan gelar dalam ilmu data.
Gelar Ilmu Data @ Berkeley
Gelar Ilmu Data @ UVA
Gelar Ilmu Data @ Wisconsin
BS dalam Ilmu & Aplikasi Data
MS di Sistem Informasi Komputer @ Universitas Boston
MS dalam analisis bisnis @ ASU online
MS dalam Ilmu Data Terapan @ Syracuse
Manajemen MS & Ilmu Data @ Leuphana
Master of Data Science @ Melbourne University
MSC dalam Ilmu Data @ University of Edinburgh
Master of Management Analytics @ Queen's University
Master of Data Science @ Illinois Institute of Technology
Master of Applied Data Science @ The University of Michigan
Ilmu Data Master dan Kecerdasan Buatan @ Eindhoven University of Technology
Gelar Master dalam Ilmu Data dan Teknik Komputer @ Universitas Granada

Kotak alat sains data

^ back to top ^

Bagian ini adalah kumpulan paket, alat, algoritma, dan item berguna lainnya di dunia ilmu data.

Algoritma

^ back to top ^

Ini adalah beberapa pembelajaran mesin dan algoritma dan model penambangan data membantu Anda memahami data Anda dan mendapatkan makna darinya.

Tiga jenis sistem pembelajaran mesin

Berdasarkan pelatihan dengan pengawasan manusia
Berdasarkan pembelajaran secara bertahap
Berdasarkan perbandingan titik data dan deteksi pola

Perbandingan

DataCompy - DataCompy adalah paket untuk membandingkan dua DataFrames PANDAS.

Pembelajaran yang diawasi

Regresi
Regresi linier
Kotak terkecil biasa
Regresi logistik
Regresi bertahap
Splines regresi adaptif multivariat
Regresi Softmax
Diperkirakan smoothing scatterplot lokal
Klasifikasi
- tetangga K-nearest
- Mendukung mesin vektor
- Pohon Keputusan
- Algoritma ID3
- Algoritma C4.5
Pembelajaran Ensemble
- Meningkatkan
- Menumpuk
- Mengantongi
- Hutan acak
- Adaboost

Pembelajaran tanpa pengawasan

Kekelompokan
- Clustering hierchical
- K-means
- Pengelompokan berbasis kepadatan
- Pengelompokan fuzzy
- Model campuran
Pengurangan dimensi
- Analisis Komponen Utama (PCA)
- t-sne; Embedding tetangga stokastik yang didistribusikan
- Analisis faktor
- Alokasi Dirichlet Laten (LDA)
Jaringan saraf
Peta pengorganisasian diri
Teori resonansi adaptif
Model Markov Tersembunyi (HMM)

Pembelajaran semi-diawasi

S3VM
Kekelompokan
Model generatif
Pemisahan dengan kepadatan rendah
Laplacian regularisasi
Pendekatan heuristik

Pembelajaran Penguatan

Q Belajar
Algoritma Sarsa (negara-aksi-reward-state-action)
Pembelajaran perbedaan temporal

Algoritma penambangan data

C4.5
K-means
SVM (mesin vektor dukungan)
Apriori
EM (maksimalisasi ekspektasi)
PageRank
Adaboost
Knn (tetangga K-Nearest)
Bayes yang naif
CART (Pohon Klasifikasi dan Regresi)

Arsitektur pembelajaran yang mendalam

Perceptron multilayer
Convolutional Neural Network (CNN)
Recurrent Neural Network (RNN)
Mesin Boltzmann
Autoencoder
Generative Adversarial Network (GAN)
Peta yang diatur sendiri
Transformator
Bidang acak bersyarat (CRF)
Desain Sistem ML)

Paket Pembelajaran Mesin Umum

^ back to top ^

scikit-learn
Scikit-multilearn
sklearn-expertsys
fitur scikit
scikit-rebate
seqlearn
Sklearn-Bayes
sklearn-crfsuite
Sklearn-Deap
SIGOPT_SKLEARN
SKLEARN-EVALUASI
SCIKIT-IMAGE
scikit-opt
scikit-posthocs
pystruct
Shogun
xlearn
cuml
kausalml
mlpack
MLXTEND
modal
Sparkit-learn
hyperlearn
dlib
iModel
RuleFit
Pygam
DeepChecks
SCIKIT-SURVIVAL
dapat ditafsirkan
Xgboost
Lightgbm
Catboost
Jax

Paket pembelajaran yang mendalam

Ekosistem Pytorch

Pytorch
Torchvision
Torchtext
Torchaudio
menyalakan
Pytorchnet
Pytoune
Skorch
Pyvarinf
pytorch_geometric
Gpytorch
piro
Katalisator
pytorch_tabular
Yolov3
Yolov5
Yolov8

Ekosistem Tensorflow

Tensorflow
Tensorlayer
Tflearn
Sonet
Tensorpack
Trf
Polyaxon
Neupy
tfdeploy
TensorFlow-Upstream
Lipat Tensorflow
Tensorlm
Tensorlight
Mesh tensorflow
Ludwig
Agen TF
Tensorforce

Ekosistem Keras

Keras
KERAS-KONTRIB
Hyperas
Elephas
Hera
Spektral
Qkeras
keras-rl
Talos

Alat visualisasi

^ back to top ^

Altair
addepar
amcharts
anychart
bokeh
Komet
Slemma
cartodb
Kubus
d3plus
Dokumen berbasis data (D3JS)
dygraphs
Echarts
pameran
Gephi
ggplot2
Lem
Galeri Google Chart
Highcarts
import.io
jqplot
Matplotlib
NVD3
Netron
OpenRefine
plot.ly
mentah
Resseract Lite
Yg keturunan dr laut
Techanjs
Timeline
VarianCecharts
Vida
Vizzu
Penengkar
R2D3
Networkx
Redash
C3
TensorWatch
Geomap
Dasbor

Alat lain -lain

^ back to top ^

Link	Keterangan
Proses Siklus Hidup Sains Data	Proses siklus hidup sains data adalah proses untuk mengambil tim ilmu data dari IDEA untuk menghargai berulang kali dan berkelanjutan. Proses ini didokumentasikan dalam repo ini
REPO Template Siklat Siklus Ilmu Data	Repositori Template untuk Proyek Siklus Hidup Ilmu Data
RexMex	Perpustakaan Metrik Rekomendasi Tujuan Umum untuk Evaluasi yang Adil.
Chemicalx	Perpustakaan pembelajaran mendalam berbasis Pytorch untuk penilaian pasangan obat.
Temporal geometris Pytorch	Pembelajaran Representasi pada Grafik Dinamis.
Bola kecil bulu	Perpustakaan grafik pengambilan sampel untuk NetworkX dengan scikit-learn seperti API.
Klub karate	Perpustakaan ekstensi pembelajaran mesin tanpa pengawasan untuk NetworkX dengan scikit-learn seperti API.
ML Workspace	Ide berbasis web all-in-one untuk pembelajaran mesin dan ilmu data. Ruang kerja digunakan sebagai wadah Docker dan dimuat sebelumnya dengan berbagai perpustakaan ilmu data populer (misalnya, TensorFlow, Pytorch) dan alat dev (misalnya, Jupyter, VS Code)
Neptunus.ai	Platform ramah-komunitas yang mendukung para ilmuwan data dalam membuat dan berbagi model pembelajaran mesin. Neptunus memfasilitasi kerja tim, manajemen infrastruktur, perbandingan model dan reproduktifitas.
Steppy	Perpustakaan Python yang ringan untuk eksperimen pembelajaran mesin yang cepat dan dapat direproduksi. Memperkenalkan antarmuka yang sangat sederhana yang memungkinkan desain pipa pembelajaran mesin bersih.
Steppy-Toolkit	Koleksi jaringan saraf, transformator, dan model yang dikuratori yang membuat pembelajaran mesin Anda bekerja lebih cepat dan lebih efektif.
DataLab dari Google	Mudah mengeksplorasi, memvisualisasikan, menganalisis, dan mengubah data menggunakan bahasa yang akrab, seperti Python dan SQL, secara interaktif.
Sandbox Hortonworks	adalah lingkungan Hadoop pribadi yang portabel yang dilengkapi dengan selusin tutorial Hadoop interaktif.
R	adalah lingkungan perangkat lunak gratis untuk komputasi dan grafik statistik.
Tidyverse	adalah kumpulan paket R yang dipendek yang dirancang untuk ilmu data. Semua paket berbagi filosofi desain, tata bahasa, dan struktur data yang mendasarinya.
Rstudio	IDE - Antarmuka pengguna yang kuat untuk R. Ini gratis dan open source, dan berfungsi pada Windows, Mac, dan Linux.
Python - Panda - Anaconda	Distribusi python siap-perusahaan yang sepenuhnya bebas untuk pemrosesan data skala besar, analitik prediktif, dan komputasi ilmiah
PANDAS GUI	PANDAS GUI
Scikit-learn	Pembelajaran Mesin dalam Python
Numpy	Numpy sangat mendasar untuk komputasi ilmiah dengan Python. Ini mendukung array dan matriks multi-dimensi yang besar dan mencakup bermacam-macam fungsi matematika tingkat tinggi untuk beroperasi pada array ini.
Vaex	Vaex adalah perpustakaan Python yang memungkinkan Anda memvisualisasikan kumpulan data besar dan menghitung statistik dengan kecepatan tinggi.
SCIPY	SCIPY bekerja dengan array numpy dan memberikan rutinitas yang efisien untuk integrasi dan optimasi numerik.
Kotak alat sains data	Kursus Coursera
Kotak alat sains data	Blog
Platform Ilmu Data Wolfram	Ambil numerik, tekstual, gambar, GIS atau data lain dan berikan perlakuan Wolfram, melakukan spektrum penuh analisis dan visualisasi ilmu data dan secara otomatis menghasilkan laporan interaktif yang kaya-semuanya didukung oleh bahasa Wolfram berbasis pengetahuan yang revolusioner.
Datadog	Solusi, kode, dan DevOps untuk ilmu data skala tinggi.
Perbedaan	Membangun visualisasi data yang kuat untuk web tanpa menulis javascript
Kit Pengembangan Layang -layang	Kit Pengembangan Perangkat Lunak KITE (Lisensi Apache, Versi 2.0), atau Kite singkat, adalah satu set perpustakaan, alat, contoh, dan dokumentasi yang berfokus pada membuatnya lebih mudah untuk membangun sistem di atas ekosistem Hadoop.
Laboratorium Data Domino	Jalankan, skala, bagikan, dan sebarkan model Anda - tanpa infrastruktur atau pengaturan apa pun.
Baku Apache	Platform untuk pemrosesan data yang efisien, terdistribusi, dan umum.
Apache Hama	Apache Hama adalah proyek open source tingkat atas Apache, yang memungkinkan Anda melakukan analitik canggih di luar MapReduce.
Weka	Weka adalah kumpulan algoritma pembelajaran mesin untuk tugas penambangan data.
Oktaf	GNU Octave adalah bahasa yang ditafsirkan tingkat tinggi, terutama dimaksudkan untuk perhitungan numerik. (MATLAB GRATIS)
Apache Spark	Komputasi Cluster Lightning-Fast
Kabut Hidrosfer	Layanan untuk mengekspos pekerjaan analitik Apache Spark dan model pembelajaran mesin sebagai layanan web realtime, batch atau reaktif.
Mekanika Data	Platform Ilmu Data dan Teknik yang Membuat Apache Memicu lebih banyak pengembang dan hemat biaya.
Caffe	Kerangka belajar yang mendalam
Obor	Kerangka Komputasi Ilmiah untuk Luajit
Kerangka pembelajaran mendalam berbasis Python Nervana	Intel® Nervana ™ Reference Deep Learning Framework berkomitmen untuk kinerja terbaik di semua perangkat keras.
Skale	Pemrosesan Data Terdistribusi Kinerja Tinggi di NodeJS
Aerosolve	Paket pembelajaran mesin yang dibangun untuk manusia.
Kerangka kerja intel	Intel® Deep Learning Framework
DataWrapper	Platform visualisasi data sumber terbuka yang membantu setiap orang untuk membuat grafik yang sederhana, benar dan dapat disematkan. Juga di github.com
Aliran tensor	TensorFlow adalah pustaka perangkat lunak open source untuk intelijen mesin
Toolkit Bahasa Alami	Toolkit pengantar namun kuat untuk pemrosesan dan klasifikasi bahasa alami
Lab Anotasi	Platform no-code ujung ke ujung gratis untuk anotasi teks dan pelatihan/penyetelan model DL. Dukungan out-of-the-box untuk pengakuan entitas yang disebutkan, klasifikasi, ekstraksi relasi dan status penegasan model NLP. Dukungan tak terbatas untuk pengguna, tim, proyek, dokumen.
nlp-toolkit untuk node.js	Modul ini mencakup beberapa prinsip dan implementasi NLP dasar. Fokus utamanya adalah kinerja. Ketika kami berurusan dengan sampel atau data pelatihan di NLP, kami dengan cepat kehabisan memori. Oleh karena itu setiap implementasi dalam modul ini ditulis sebagai aliran untuk hanya menyimpan data itu dalam memori yang saat ini diproses pada setiap langkah.
Julia	Bahasa pemrograman dinamis tingkat tinggi dan berkinerja tinggi untuk komputasi teknis
Ijulia	Backend bahasa Julia dikombinasikan dengan lingkungan interaktif Jupyter
Apache Zeppelin	Buku catatan berbasis web yang memungkinkan analisis data interaktif yang didorong oleh data dan dokumen kolaboratif dengan SQL, Scala dan banyak lagi
FeatureTools	Kerangka kerja open source untuk rekayasa fitur otomatis yang ditulis dalam python
Optimus	Pembersihan, pra-pemrosesan, rekayasa fitur, analisis data eksplorasi dan ML mudah dengan backend pyspark.
Albumentation	Perpustakaan augmentasi augmentasi gambar cepat dan kerangka kerja yang mengimplementasikan beragam teknik augmentasi. Mendukung klasifikasi, segmentasi, dan deteksi di luar kotak. Digunakan untuk memenangkan sejumlah kompetisi pembelajaran mendalam di Kaggle, Topcoder dan mereka yang merupakan bagian dari lokakarya CVPR.
Dvc	Sistem Kontrol Versi Ilmu Data Open-Source. Ini membantu melacak, mengatur, dan membuat proyek ilmu data dapat direproduksi. Dalam skenario yang sangat mendasar ini membantu mengontrol versi dan berbagi data besar dan file model.
Lambdo	adalah mesin alur kerja yang secara signifikan menyederhanakan analisis data dengan menggabungkan dalam satu analisis pipa (i) Rekayasa fitur dan pembelajaran mesin (II) Pelatihan model dan prediksi (III) Populasi tabel dan evaluasi kolom.
Pesta	Toko fitur untuk manajemen, penemuan, dan akses fitur pembelajaran mesin. Pesta memberikan tampilan data fitur yang konsisten untuk pelatihan model dan pemertian model.
Polyaxon	Platform untuk pembelajaran mesin yang dapat direproduksi dan dapat diskalakan serta pembelajaran yang mendalam.
Lighttag	Alat anotasi teks untuk tim
Ubiai	Alat anotasi teks yang mudah digunakan untuk tim dengan fitur anotasi otomatis yang paling komprehensif. Mendukung NER, Hubungan dan Klasifikasi Dokumen serta Anotasi OCR untuk Pelabelan Faktur
Kereta	Manajer Eksperimen Magis Otomatis, Kontrol Versi & DevOps untuk AI
Hopsworks	Platform pembelajaran mesin intensif data open-source dengan toko fitur. Menyeret dan mengelola fitur untuk akses online (cluster MySQL) dan offline (Apache Hive), melatih dan melayani model pada skala.
Mindsdb	MindSDB adalah kerangka kerja Automl yang dapat dijelaskan untuk pengembang. Dengan MindSDB Anda dapat membangun, melatih, dan menggunakan model ML canggih sesederhana satu baris kode.
Lightwood	Kerangka kerja berbasis Pytorch yang memecah masalah pembelajaran mesin menjadi blok yang lebih kecil yang dapat direkatkan bersama dengan tujuan untuk membangun model prediktif dengan satu baris kode.
AWS Data Wrangler	Paket Python open-source yang memperluas kekuatan pustaka Pandas ke AWS menghubungkan DataFrames dan layanan terkait data AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon ESDM, dll).
Amazon Rekognition	AWS Rekognition adalah layanan yang memungkinkan pengembang bekerja dengan Amazon Web Services menambahkan analisis gambar ke aplikasi mereka. Katalog aset, mengotomatiskan alur kerja, dan mengekstrak makna dari media dan aplikasi Anda.
Amazon Textract	Ekstrak teks, tulisan tangan, dan data yang dicetak secara otomatis dari dokumen apa pun.
Amazon Lookout for Vision	Cacat produk spot menggunakan visi komputer untuk mengotomatisasi inspeksi kualitas. Identifikasi komponen produk yang hilang, kerusakan kendaraan dan struktur, dan penyimpangan untuk kontrol kualitas komprehensif.
Amazon Codeguru	Mengotomatiskan ulasan kode dan mengoptimalkan kinerja aplikasi dengan rekomendasi bertenaga ML.
CML	Toolkit open source untuk menggunakan integrasi berkelanjutan dalam proyek sains data. Secara otomatis melatih dan menguji model di lingkungan seperti produksi dengan tindakan github & gitlab ci, dan laporan visual autogenerate tentang permintaan pull/gabungan.
Dask	Perpustakaan Python open source ke transisi tanpa rasa sakit kode analitik Anda ke sistem komputasi terdistribusi (data besar)
Statsmodels	Statistik inferensial berbasis Python, kerangka kerja pengujian hipotesis dan regresi
Gensim	Perpustakaan open-source untuk pemodelan topik teks bahasa alami
Spacy	Alat pemrosesan bahasa alami yang berkinerja
Studio Grid	Grid Studio adalah aplikasi spreadsheet berbasis web dengan integrasi penuh bahasa pemrograman Python.
Buku Pegangan Ilmu Data Python	Buku Pegangan Ilmu Data Python: Teks Lengkap di Jupyter Notebooks
Shapley	Kerangka kerja berbasis data untuk mengukur nilai pengklasifikasi dalam ansambel pembelajaran mesin.
Dagshub	Platform yang dibangun di atas alat open source untuk data, model, dan manajemen pipa.
Catatan dalam	Jenis notebook sains data baru. Jupyter-kompatibel, dengan kolaborasi real-time dan berjalan di cloud.
Valohai	Platform MLOPS yang menangani orkestrasi mesin, reproduktifitas dan penyebaran otomatis.
PYMC3	Perpustakaan Python untuk pemrograman probabalis (Inferensi Bayesian dan Pembelajaran Mesin)
Pystan	Antarmuka Python ke Stan (Inferensi dan Pemodelan Bayesian)
Hmmlearn	Pembelajaran tanpa pengawasan dan kesimpulan dari model Markov yang tersembunyi
Genius Chaos	Mesin analitik bertenaga ML untuk deteksi outlier/anomali dan analisis akar penyebab
Nimblox	Platform Full-Stack MLOPS yang dirancang untuk membantu para ilmuwan data dan praktisi pembelajaran mesin di seluruh dunia menemukan, membuat, dan meluncurkan aplikasi multi-cloud dari browser web mereka.
TOWHEE	Perpustakaan Python yang membantu Anda menyandikan data yang tidak terstruktur ke dalam embeddings.
Lineapy	Pernah frustrasi dengan membersihkan buku catatan Jupyter yang panjang dan berantakan? Dengan Lineapy, perpustakaan Python open source, dibutuhkan hanya dua baris kode untuk mengubah kode pengembangan yang berantakan menjadi jaringan pipa produksi.
Envd	?
Jelajahi Perpustakaan Ilmu Data	Mesin pencari? Alat untuk menemukan & menemukan daftar pustaka populer & baru, penulis top, kit proyek tren, diskusi, tutorial & sumber belajar
Mlem	? Versi dan sebarkan model ML Anda mengikuti prinsip -prinsip GITOPS
Mlflow	Kerangka kerja MLOPS untuk mengelola model ML di seluruh siklus hidup mereka
CleanLab	Perpustakaan Python untuk AI yang berpusat pada data dan secara otomatis mendeteksi berbagai masalah dalam dataset ML
Autogluon	Automl untuk dengan mudah menghasilkan prediksi yang akurat untuk data gambar, teks, tabel, seri waktu, dan multi-modal
ARIZE AI	ARIZE AI Community Tier Observability Tool untuk memantau model pembelajaran mesin dalam masalah produksi dan penyebab root seperti kualitas data dan penyimpangan kinerja.
Aureo.io	Aureo.io adalah platform kode rendah yang berfokus pada membangun kecerdasan buatan. Ini memberi pengguna kemampuan untuk membuat pipa, otomatisasi, dan mengintegrasikannya dengan model kecerdasan buatan - semua dengan data dasar mereka.
ERD Lab	Alat Hubungan Entitas Cloud Entitas (ERD) GRATIS Dibuat untuk pengembang.
Arize-Phoenix	MLOPS dalam notebook - Buka wawasan, masalah permukaan, monitor, dan selaraskan model Anda.
Komet	Platform MLOPS dengan pelacakan percobaan, manajemen produksi model, registri model, dan garis keturunan data lengkap untuk mendukung alur kerja ML Anda dari pelatihan langsung hingga produksi.
Opik	Evaluasi, menguji, dan mengirimkan aplikasi LLM di seluruh DEV dan siklus hidup produksi Anda.
Sintis	Lingkungan kolaboratif bertenaga AI untuk penelitian. Temukan makalah yang relevan, buat koleksi untuk mengelola daftar pustaka, dan merangkum konten - semuanya di satu tempat
Teeplot	Alat alur kerja untuk secara otomatis mengatur output visualisasi data
Streamlit	Kerangka kerja aplikasi untuk pembelajaran mesin dan proyek sains data
Gradio	Buat komponen UI yang dapat disesuaikan di sekitar model pembelajaran mesin
Bobot & Bias	Pelacakan Eksperimen, Versi Dataset, dan Manajemen Model
Dvc	Sistem kontrol versi open-source untuk proyek pembelajaran mesin
Optuna	Kerangka Perangkat Lunak Optimasi Hyperparameter Otomatis
Tune Ray	Perpustakaan tuning hyperparameter scalable
Airflow Apache	Platform untuk penulis secara terprogram, jadwal, dan memantau alur kerja
Prefek	Sistem manajemen alur kerja untuk tumpukan data modern
Kedro	Kerangka Python Sumber Terbuka untuk Membuat Kode Ilmu Data yang Dapat Dipelihara dan Dapat Dipelihara
Hamilton	Perpustakaan ringan untuk penulis dan mengelola transformasi data yang andal
Bentuk	Pendekatan Teoritis Game untuk menjelaskan output dari model pembelajaran mesin apa pun
KAPUR	Menjelaskan prediksi setiap pengklasifikasi pembelajaran mesin
flyte	Platform otomatisasi alur kerja untuk pembelajaran mesin
dbt	Alat pembuatan data
Bentuk	Pendekatan Teoritis Game untuk menjelaskan output dari model pembelajaran mesin apa pun
KAPUR	Menjelaskan prediksi setiap pengklasifikasi pembelajaran mesin

Sastra dan Media

^ back to top ^

Bagian ini mencakup beberapa bahan bacaan tambahan, saluran untuk ditonton, dan pembicaraan untuk didengarkan.

Buku

^ back to top ^

Ilmu Data dari awal: Prinsip pertama dengan Python
Kecerdasan Buatan dengan Python - TutorialSpoint
Pembelajaran mesin dari awal
Pembelajaran Mesin Probabilistik: Pendahuluan
Panduan Komprehensif untuk Pembelajaran Mesin
Cara Memimpin dalam Ilmu Data - Akses Awal
Bertarung churn dengan data
Ilmu Data pada Skala dengan Python dan Dask
Buku Pegangan Ilmu Data Python
The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists
Think Like a Data Scientist
Introducing Data Science
Practical Data Science with R
Everyday Data Science & (cheaper PDF version)
Exploring Data Science - free eBook sampler
Exploring the Data Jungle - free eBook sampler
Classic Computer Science Problems in Python
Math for Programmers Early access
R in Action, Third Edition Early Access
Data Science Bookcamp Early access
Data Science Thinking: The Next Scientific, Technological and Economic Revolution
Applied Data Science: Lessons Learned for the Data-Driven Business
The Data Science Handbook
Essential Natural Language Processing - Early access
Mining Massive Datasets - free e-book comprehended by an online course
Pandas in Action - Early access
Genetic Algorithms and Genetic Programming
Advances in Evolutionary Algorithms - Free Download
Genetic Programming: New Approaches and Successful Applications - Free Download
Evolutionary Algorithms - Free Download
Advances in Genetic Programming, Vol. 3 - Free Download
Global Optimization Algorithms: Theory and Application - Free Download
Genetic Algorithms and Evolutionary Computation - Free Download
Convex Optimization - Convex Optimization book by Stephen Boyd - Free Download
Data Analysis with Python and PySpark - Early Access
R for Data Science
Build a Career in Data Science
Machine Learning Bookcamp - Early access
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition
Effective Data Science Infrastructure
Practical MLOps: How to Get Ready for Production Models
Data Analysis with Python and PySpark
Regression, a Friendly guide - Early Access
Streaming Systems: The What, Where, When, and How of Large-Scale Data Processing
Data Science at the Command Line: Facing the Future with Time-Tested Tools
Machine Learning - CIn UFPE
Machine Learning with Python - Tutorialspoint
Deep Learning
Designing Cloud Data Platforms - Early Access
An Introduction to Statistical Learning with Applications in R
The Elements of Statistical Learning: Data Mining, Inference, and Prediction
Deep Learning with PyTorch
Neural Networks and Deep Learning
Deep Learning Cookbook
Introduction to Machine Learning with Python
Artificial Intelligence: Foundations of Computational Agents, 2nd Edition - Free HTML version
The Quest for Artificial Intelligence: A History of Ideas and Achievements - Free Download
Graph Algorithms for Data Science - Early Access
Data Mesh in Action - Early Access
Julia for Data Analysis - Early Access
Casual Inference for Data Science - Early Access
Regular Expression Puzzles and AI Coding Assistants by David Mertz
Dive into Deep Learning
Data for All
Interpretable Machine Learning: A Guide for Making Black Box Models Explainable - Free GitHub version
Foundations of Data Science Free Download
Comet for DataScience: Enhance your ability to manage and optimize the life cycle of your data science project
Software Engineering for Data Scientists - Early Access
Julia for Data Science - Early Access
An Introduction to Statistical Learning - Download Page
Machine Learning For Absolute Beginners
Unifying Business, Data, and Code: Designing Data Products with JSON Schema

Book Deals (Affiliated) ?

eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All

Journals, Publications and Magazines

^ back to top ^

ICML - International Conference on Machine Learning
GECCO - The Genetic and Evolutionary Computation Conference (GECCO)
epjdatascience
Journal of Data Science - an international journal devoted to applications of statistical methods at large
Big Data Research
Journal of Big Data
Big Data & Society
Data Science Journal
datatau.com/news - Like Hacker News, but for data
Data Science Trello Board
Medium Data Science Topic - Data Science related publications on medium
Towards Data Science Genetic Algorithm Topic -Genetic Algorithm related Publications towards Data Science
all AI news - The AI/ML/Big Data news aggregator platform

Newsletters

^ back to top ^

AI Digest. A weekly newsletter to keep up to date with AI, machine learning, and data science. Arsip.
DataTalks.Club. A weekly newsletter about data-related things. Arsip.
The Analytics Engineering Roundup. A newsletter about data science. Arsip.

Bloggers

^ back to top ^

Wes McKinney - Wes McKinney Archives.
Matthew Russell - Mining The Social Web.
Greg Reda - Greg Reda Personal Blog
Kevin Davenport - Kevin Davenport Personal Blog
Julia Evans - Recurse Center alumna
Hakan Kardas - Personal Web Page
Sean J. Taylor - Personal Web Page
Drew Conway - Personal Web Page
Hilary Mason - Personal Web Page
Noah Iliinsky - Personal Blog
Matt Harrison - Personal Blog
Vamshi Ambati - AllThings Data Sciene
Prash Chan - Tech Blog on Master Data Management And Every Buzz Surrounding It
Clare Corthell - The Open Source Data Science Masters
Paul Miller Based in the UK and working globally, Cloud of Data's consultancy services help clients understand the implications of taking data and more to the Cloud.
Data Science London Data Science London is a non-profit organization dedicated to the free, open, dissemination of data science. We are the largest data science community in Europe. We are more than 3,190 data scientists and data geeks in our community.
Datawrangling by Peter Skomoroch. MACHINE LEARNING, DATA MINING, AND MORE
Quora Data Science - Data Science Questions and Answers from experts
Siah a PhD student at Berkeley
Louis Dorard a technology guy with a penchant for the web and for data, big and small
Machine Learning Mastery about helping professional programmers confidently apply machine learning algorithms to address complex problems.
Daniel Forsyth - Personal Blog
Data Science Weekly - Weekly News Blog
Revolution Analytics - Data Science Blog
R Bloggers - R Bloggers
The Practical Quant Big data
Yet Another Data Blog Yet Another Data Blog
Spenczar a data scientist at Twitch . I handle the whole data pipeline, from tracking to model-building to reporting.
KD Nuggets Data Mining, Analytics, Big Data, Data, Science not a blog a portal
Meta Brown - Personal Blog
Data Scientist is building the data scientist culture.
WhatSTheBigData is some of, all of, or much more than the above and this blog explores its impact on information technology, the business world, government agencies, and our lives.
Tevfik Kosar - Magnus Notitia
New Data Scientist How a Social Scientist Jumps into the World of Big Data
Harvard Data Science - Thoughts on Statistical Computing and Visualization
Data Science 101 - Learning To Be A Data Scientist
Kaggle Past Solutions
DataScientistJourney
NYC Taxi Visualization Blog
Learning Lover
Dataists
Data-Mania
Data-Magnum
P-value - Musings on data science, machine learning, and stats.
datascopeanalytics
Digital transformation
datascientistjourney
Data Mania Blog - The File Drawer - Chris Said's science blog
Emilio Ferrara's web page
DataNews
Reddit TextMining
Periscopic
Hilary Parker
Data Stories
Data Science Lab
Meaning of
Adventures in Data Land
DATA MINERS BLOG
Dataclysm
FlowingData - Visualization and Statistics
Calculated Risk
O'reilly Learning Blog
Dominodatalab
i am trask - A Machine Learning Craftsmanship Blog
Vademecum of Practical Data Science - Handbook and recipes for data-driven solutions of real-world problems
Dataconomy - A blog on the newly emerging data economy
Springboard - A blog with resources for data science learners
Analytics Vidhya - A full-fledged website about data science and analytics study material.
Occam's Razor - Focused on Web Analytics.
Data School - Data science tutorials for beginners!
Colah's Blog - Blog for understanding Neural Networks!
Sebastian's Blog - Blog for NLP and transfer learning!
Distill - Dedicated to clear explanations of machine learning!
Chris Albon's Website - Data Science and AI notes
Andrew Carr - Data Science with Esoteric programming languages
floydhub - Blog for Evolutionary Algorithms
Jingles - Review and extract key concepts from academic papers
nbshare - Data Science notebooks
Deep and Shallow - All things Deep and Shallow in Data Science
Loic Tetrel - Data science blog
Chip Huyen's Blog - ML Engineering, MLOps, and the use of ML in startups
Maria Khalusova - Data science blog
Aditi Rastogi - ML,DL,Data Science blog
Santiago Basulto - Data Science with Python
Akhil Soni - ML, DL and Data Science
Akhil Soni - ML, DL and Data Science

Presentations

^ back to top ^

How to Become a Data Scientist
Introduction to Data Science
Intro to Data Science for Enterprise Big Data
How to Interview a Data Scientist
How to Share Data with a Statistician
The Science of a Great Career in Data Science
What Does a Data Scientist Do?
Building Data Start-Ups: Fast, Big, and Focused
How to win data science competitions with Deep Learning
Full-Stack Data Scientist

Podcasts

^ back to top ^

AI at Home
AI Today
Adversarial Learning
Becoming a Data Scientist
Chai time Data Science
Data Crunch
Data Engineering Podcast
Data Science at Home
Data Science Mixer
Data Skeptic
Data Stories
Datacast
DataFramed
DataTalks.Club
Keturunan gradien
Learning Machines 101
Let's Data (Brazil)
Linear Digressions
Not So Standard Deviations
O'Reilly Data Show Podcast
Partially Derivative
Superdatascience
The Data Engineering Show
The Radical AI Podcast
The Robot Brains Podcast
What's The Point
How AI Built This
The Analytics Engineering Podcast

YouTube Videos & Channels

^ back to top ^

What is machine learning?
Andrew Ng: Deep Learning, Self-Taught Learning and Unsupervised Feature Learning
Data36 - Data Science for Beginners by Tomi Mester
Deep Learning: Intelligence from Big Data
Interview with Google's AI and Deep Learning 'Godfather' Geoffrey Hinton
Introduction to Deep Learning with Python
What is machine learning, and how does it work?
Data School - Data Science Education
Neural Nets for Newbies by Melanie Warrick (May 2015)
Neural Networks video series by Hugo Larochelle
Google DeepMind co-founder Shane Legg - Machine Super Intelligence
Data Science Primer
Data Science with Genetic Algorithms
Data Science for Beginners
DataTalks.Club
Mildlyoverfitted - Tutorials on intermediate ML/DL topics
mlops.community - Interviews of industry experts about production ML
ML Street Talk - Unabashedly technical and non-commercial, so you will hear no annoying pitches.
Neural networks by 3Blue1Brown
Neural networks from scratch by Sentdex
Manning Publications YouTube channel
Ask Dr Chong: How to Lead in Data Science - Part 1
Ask Dr Chong: How to Lead in Data Science - Part 2
Ask Dr Chong: How to Lead in Data Science - Part 3
Ask Dr Chong: How to Lead in Data Science - Part 4
Ask Dr Chong: How to Lead in Data Science - Part 5
Ask Dr Chong: How to Lead in Data Science - Part 6
Regression Models: Applying simple Poisson regression
Deep Learning Architectures
Time Series Modelling and Analysis

Mensosialisasikan

^ back to top ^

Below are some Social Media links. Connect with other data scientists!

Facebook Accounts
Twitter Accounts
Telegram Channels
Slack Communities
GitHub Groups
Data Science Competitions

Facebook Accounts

^ back to top ^

Data
Big Data Scientist
Data Science Day
Data Science Academy
Facebook Data Science Page
Data Science London
Data Science Technology and Corporation
Data Science - Closed Group
Center for Data Science
Big data hadoop NOSQL Hive Hbase
Analytics, Data Mining, Predictive Modeling, Artificial Intelligence
Big Data Analytics using R
Big Data Analytics with R and Hadoop
Big Data Learnings
Big Data, Data Science, Data Mining & Statistics
BigData/Hadoop Expert
Data Mining / Machine Learning / AI
Data Mining/Big Data - Social Network Ana
Vademecum of Practical Data Science
Veri Bilimi Istanbul
The Data Science Blog

Twitter Accounts

^ back to top ^

Twitter	Keterangan
Big Data Combine	Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
Big Data Mania	Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015)
Big Data Science	Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
Charlie Greenbacker	Director of Data Science at @ExploreAltamira
Chris Said	Data scientist at Twitter
Clare Corthell	Dev, Design, Data Science @mattermark #hackerei
DADI Charles-Abner	#datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
Data Science Central	Data Science Central is the industry's single resource for Big Data practitioners.
Data Science London	Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data
Data Science Renee	Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist
Data Science Report	Mission is to help guide & advance careers in Data Science & Analytics
Data Science Tips	Tips and Tricks for Data Scientists around the world! #datascience #bigdata
Data Vizzard	DataViz, Security, Military
DataScienceX
deeplearning4j
DJ Patil	White House Data Chief, VP @ RelateIQ.
Domino Data Lab
Drew Conway	Data nerd, hacker, student of conflict.
Emilio Ferrara	#Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
Erin Bartolo	Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
Greg Reda	Working @ GrubHub about data and pandas
Gregory Piatetsky	KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
Hadley Wickham	Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University.
Hakan Kardas	Data Scientist
Hilary Mason	Data Scientist in Residence at @accel.
Jeff Hammerbacher	ReTweeting about data science
John Myles White	Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
Juan Miguel Lavista	Principal Data Scientist @ Microsoft Data Science Team
Julia Evans	Hacker - Pandas - Data Analyze
Kenneth Cukier	The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/).
Kevin Davenport	Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/
Kevin Markham	Data science instructor, and founder of Data School
Kim Rees	Interactive data visualization and tools. Data flaneur.
Kirk Borne	DataScientist, PhD Astrophysicist, Top #BigData Influencer.
Linda Regber	Data storyteller, visualizations.
Luis Rei	PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
Mark Stevenson	Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science
Matt Harrison	Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening.
Matthew Russell	Mining the Social Web.
Mert Nuhoğlu	Data Scientist at BizQualify, Developer
Monica Rogati	Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
Noah Iliinsky	Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419
Paul Miller	Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
Peter Skomoroch	Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
Prash Chan	Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
Quora Data Science	Quora's data science topic
R-Bloggers	Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists.
Rand Hindi
Randy Olson	Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
Recep Erol	Data Science geek @ UALR
Ryan Orban	Data scientist, genetic origamist, hardware aficionado
Sean J. Taylor	Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
Silvia K. Spiva	#DataScience at Cisco
Harsh B. Gupta	Data Scientist at BBVA Compass
Spencer Nelson	Data nerd
Talha Oz	Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist
Tasos Skarlatidis	Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
Terry Timko	InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
Tony Baer	IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
Tony Ojeda	Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
Vamshi Ambati	Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
Wes McKinney	Pandas (Python Data Analysis library).
WileyEd	Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast
WNYC Data News Team	The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work.
Alexey Grigorev	Data science author
İlker Arslan	Data science author. Shares mostly about Julia programming
TIDAK BISA DIHINDARI	AI & Data Science Start-up Company based in England, UK

Telegram Channels

^ back to top ^

Open Data Science – First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former.
Loss function porn — Beautiful posts on DS/ML theme with video or graphic visualization.
Machinelearning – Daily ML news.

Slack Communities

atas

DataTalks.Club
Women Who Code - Data Science

GitHub Groups

Berkeley Institute for Data Science

Data Science Competitions

Some data mining competition platforms

Kaggle
DrivenData
Analytics Vidhya
InnoCentive
Microprediction

Seru

Infographic
Kumpulan data
Komik

Infographics

^ back to top ^

Pratinjau	Keterangan
	Key differences of a data scientist vs. data engineer
	A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img)
	Mindmap on required skills (img)
	Swami Chandrasekaran made a Curriculum via Metro map.
	by @kzawadz via twitter
	By Data Science Central
	Data Science Wars: R vs Python
	How to select statistical or machine learning techniques
	Choosing the Right Estimator
	The Data Science Industry: Who Does What
	Data Science ~~Venn~~ Euler Diagram
	Different Data Science Skills and Roles from this article by Springboard
	A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons.

Kumpulan data

^ back to top ^

Academic Torrents
ADS-B Exchange - Specific datasets for aircraft and Automatic Dependent Surveillance-Broadcast (ADS-B) sources.
hadoopilluminated.com
data.gov - The home of the US Government's open data
United States Census Bureau
usgovxml.com
enigma.com - Navigate the world of public data - Quickly search and analyze billions of public records published by governments, companies and organizations.
datahub.io
aws.amazon.com/datasets
datacite.org
The official portal for European data
NASDAQ:DATA - Nasdaq Data Link A premier source for financial, economic and alternative datasets.
figshare.com
GeoLite Legacy Downloadable Databases
Quora's Big Datasets Answer
Public Big Data Sets
Kaggle Datasets
A Deep Catalog of Human Genetic Variation
A community-curated database of well-known people, places, and things
Google Public Data
World Bank Data
NYC Taxi data
Open Data Philly Connecting people with data for Philadelphia
grouplens.org Sample movie (with ratings), book and wiki datasets
UC Irvine Machine Learning Repository - contains data sets good for machine learning
research-quality data sets by Hilary Mason
National Centers for Environmental Information
ClimateData.us (related: US Climate Resilience Toolkit)
r/datasets
MapLight - provides a variety of data free of charge for uses that are freely available to the general public. Click on a data set below to learn more
GHDx - Institute for Health Metrics and Evaluation - a catalog of health and demographic datasets from around the world and including IHME results
St. Louis Federal Reserve Economic Data - FRED
New Zealand Institute of Economic Research – Data1850
Open Data Sources
UNICEF Data
undata
NASA SocioEconomic Data and Applications Center - SEDAC
The GDELT Project
Sweden, Statistics
StackExchange Data Explorer - an open source tool for running arbitrary queries against public data from the Stack Exchange network.
SocialGrep - a collection of open Reddit datasets.
San Fransisco Government Open Data
IBM Asset Dataset
Open data Index
Public Git Archive
GHTorrent
Microsoft Research Open Data
Open Government Data Platform India
Google Dataset Search (beta)
NAYN.CO Turkish News with categories
COVID-19
Covid-19 Google
Enron Email Dataset
5000 Images of Clothes
IBB Open Portal
The Humanitarian Data Exchange

Komik

^ back to top ^

Comic compilation
Cartoons
Data Science Cartoons
Data Science: The XKCD Edition

Other Awesome Lists

Other amazingly awesome lists can be found in the awesome-awesomeness
Awesome Machine Learning
lists
awesome-dataviz
awesome-python
Data Science IPython Notebooks.
awesome-r
awesome-datasets
awesome-Machine Learning & Deep Learning Tutorials
Awesome Data Science Ideas
Machine Learning for Software Engineers
Community Curated Data Science Resources
Awesome Machine Learning On Source Code
Awesome Community Detection
Awesome Graph Classification
Awesome Decision Tree Papers
Awesome Fraud Detection Papers
Awesome Gradient Boosting Papers
Awesome Computer Vision Models
Awesome Monte Carlo Tree Search
Glossary of common statistics and ML terms
100 NLP Papers
Awesome Game Datasets
Data Science Interviews Questions
Awesome Explainable Graph Reasoning
Top Data Science Interview Questions
Awesome Drug Synergy, Interaction and Polypharmacy Prediction
Deep Learning Interview Questions
Top Future Trends in Data Science in 2023
How Generative AI Is Changing Creative Work
What is generative AI?
Top 100+ Machine Learning Interview Questions (Beginner to Advanced)

Hobi

Awesome Music Production

Memperluas