
Repositori ilmu data open-source untuk belajar dan berlaku untuk memecahkan masalah dunia nyata.
Ini adalah jalur pintas untuk mulai mempelajari ilmu data . Ikuti saja langkah -langkah untuk menjawab pertanyaan, "Apa itu ilmu data dan apa yang harus saya pelajari untuk mempelajari ilmu data?"
| Sponsor | Melempar |
|---|---|
| --- | Jadilah yang pertama mensponsori! [email protected] |
^ back to top ^
Ilmu data adalah salah satu topik terpanas di komputer dan lahan pertanian internet saat ini. Orang -orang telah mengumpulkan data dari aplikasi dan sistem hingga saat ini dan sekarang adalah waktu untuk menganalisisnya. Langkah selanjutnya adalah menghasilkan saran dari data dan membuat prediksi tentang masa depan. Di sini Anda dapat menemukan pertanyaan terbesar untuk ilmu data dan ratusan jawaban dari para ahli.
| Link | Pratinjau |
|---|---|
| Apa itu Ilmu Data @ O'Reilly | Ilmuwan data menggabungkan kewirausahaan dengan kesabaran, kesediaan untuk membangun produk data secara bertahap, kemampuan untuk mengeksplorasi, dan kemampuan untuk mengulangi solusi. Mereka secara inheren interdisipliner. Mereka dapat menangani semua aspek masalah, dari pengumpulan data awal dan pengkondisian data hingga menarik kesimpulan. Mereka dapat berpikir di luar kotak untuk menghasilkan cara -cara baru untuk melihat masalah, atau bekerja dengan masalah yang sangat luas: "Berikut banyak data, apa yang dapat Anda buat darinya?" |
| Apa itu Ilmu Data @ Quora | Ilmu data adalah kombinasi dari sejumlah aspek data seperti teknologi, pengembangan algoritma, dan gangguan data untuk mempelajari data, menganalisisnya, dan menemukan solusi inovatif untuk masalah sulit. Pada dasarnya ilmu data adalah tentang menganalisis data dan mengemudi untuk pertumbuhan bisnis dengan menemukan cara kreatif. |
| Pekerjaan terseksi abad ke -21 | Ilmuwan data saat ini mirip dengan "Quants" Wall Street pada 1980 -an dan 1990 -an. Pada masa itu orang -orang dengan latar belakang dalam fisika dan matematika dialirkan ke bank investasi dan dana lindung nilai, di mana mereka dapat merancang algoritma dan strategi data yang sama sekali baru. Kemudian berbagai universitas mengembangkan program master dalam rekayasa keuangan, yang mengaduk -aduk bakat generasi kedua yang lebih mudah diakses oleh perusahaan arus utama. Pola itu diulang kemudian pada 1990 -an dengan insinyur pencari, yang keterampilannya yang langka segera diajarkan dalam program ilmu komputer. |
| Wikipedia | Ilmu data adalah bidang interdisipliner yang menggunakan metode ilmiah, proses, algoritma dan sistem untuk mengekstraksi pengetahuan dan wawasan dari banyak data struktural dan tidak terstruktur. Ilmu data terkait dengan penambangan data, pembelajaran mesin, dan data besar. |
| Bagaimana menjadi ilmuwan data | Ilmuwan data adalah penulis data besar, mengumpulkan dan menganalisis set besar data terstruktur dan tidak terstruktur. Peran ilmuwan data menggabungkan ilmu komputer, statistik, dan matematika. Mereka menganalisis, memproses, dan memodelkan data kemudian menafsirkan hasil untuk membuat rencana yang dapat ditindaklanjuti untuk perusahaan dan organisasi lain. |
| Sejarah #dataccience yang sangat singkat | Kisah tentang bagaimana data para ilmuwan menjadi seksi sebagian besar adalah kisah tentang penggabungan disiplin statistik yang matang dengan yang sangat muda-sains komputer. Istilah "ilmu data" baru -baru ini muncul baru -baru ini untuk secara khusus menunjuk profesi baru yang diharapkan untuk memahami penyimpanan besar data besar. Tetapi memahami data memiliki sejarah panjang dan telah dibahas oleh para ilmuwan, ahli statistik, pustakawan, ilmuwan komputer dan lainnya selama bertahun -tahun. Garis waktu berikut melacak evolusi istilah "ilmu data" dan penggunaannya, berupaya mendefinisikannya, dan istilah terkait. |
| Sumber Daya Pengembangan Perangkat Lunak untuk Ilmuwan Data | Ilmuwan data berkonsentrasi untuk memahami data melalui analisis eksplorasi, statistik, dan model. Pengembang perangkat lunak menerapkan seperangkat pengetahuan yang terpisah dengan alat yang berbeda. Meskipun fokus mereka mungkin tampak tidak terkait, tim sains data dapat memperoleh manfaat dari mengadopsi praktik terbaik pengembangan perangkat lunak. Kontrol Versi, Pengujian Otomatis, dan Keterampilan DEV lainnya membantu membuat kode dan alat yang dapat direproduksi dan siap-produksi. |
| Peta jalan ilmuwan data | Ilmu data adalah pilihan karier yang sangat baik di dunia yang digerakkan data saat ini di mana sekitar 328,77 juta terabyte data dihasilkan setiap hari. Dan angka ini hanya meningkat dari hari ke hari, yang pada gilirannya meningkatkan permintaan bagi para ilmuwan data terampil yang dapat memanfaatkan data ini untuk mendorong pertumbuhan bisnis. |
| Menavigasi jalan Anda untuk menjadi ilmuwan data | _Data Science adalah salah satu karier paling dalam permintaan saat ini. Dengan bisnis yang semakin mengandalkan data untuk membuat keputusan, kebutuhan akan data yang terampil para ilmuwan telah berkembang pesat. Baik itu perusahaan teknologi, organisasi kesehatan, atau bahkan lembaga pemerintah, ilmuwan data memainkan peran penting dalam mengubah data mentah menjadi wawasan yang berharga. Tetapi bagaimana Anda menjadi ilmuwan data, terutama jika Anda baru memulai? _ |
^ back to top ^
Meskipun tidak sepenuhnya diperlukan, memiliki bahasa pemrograman adalah keterampilan penting untuk menjadi efektif sebagai ilmuwan data. Saat ini, bahasa yang paling populer adalah Python , diikuti oleh r . Python adalah bahasa skrip tujuan umum yang melihat aplikasi di berbagai bidang. R adalah bahasa khusus domain untuk statistik, yang berisi banyak alat statistik umum di luar kotak.
Python sejauh ini merupakan bahasa yang paling populer dalam sains, karena tidak sedikit kemudahan di mana ia dapat digunakan dan ekosistem yang semarak dari paket yang dibuat pengguna. Untuk menginstal paket, ada dua metode utama: PIP (dipanggil sebagai pip install ), manajer paket yang dilengkapi dengan Python, dan Anaconda (dipanggil sebagai conda install ), manajer paket yang kuat yang dapat menginstal paket untuk Python, R, dan dapat mengunduh executable seperti Git.
Tidak seperti R, Python tidak dibangun dari bawah ke atas dengan ilmu data dalam pikiran, tetapi ada banyak perpustakaan pihak ketiga untuk menebus ini. Daftar paket yang jauh lebih lengkap dapat ditemukan nanti dalam dokumen ini, tetapi keempat paket ini adalah serangkaian pilihan yang baik untuk memulai perjalanan sains data Anda dengan: scikit-learn adalah paket sains data tujuan umum yang mengimplementasikan algoritma yang paling populer-ini juga mencakup dokumentasi yang kaya, tutorial, dan contoh model yang diterapkannya. Bahkan jika Anda lebih suka menulis implementasi Anda sendiri, Scikit-Learn adalah referensi yang berharga untuk kacang-dan-baut di balik banyak algoritma umum yang akan Anda temukan. Dengan panda, seseorang dapat mengumpulkan dan menganalisis data mereka ke dalam format tabel yang nyaman. Numpy menyediakan alat yang sangat cepat untuk operasi matematika, dengan fokus pada vektor dan matriks. Seeborn, itu sendiri berdasarkan paket matplotlib, adalah cara cepat untuk menghasilkan visualisasi yang indah dari data Anda, dengan banyak default bagus yang tersedia di luar kotak, serta galeri yang menunjukkan cara menghasilkan banyak visualisasi umum dari data Anda.
Ketika memulai perjalanan Anda untuk menjadi ilmuwan data, pilihan bahasa tidak terlalu penting, dan baik Python dan R memiliki pro dan kontra mereka. Pilih bahasa yang Anda sukai, dan periksa salah satu kursus gratis yang telah kami daftarkan di bawah ini!
^ back to top ^
Ilmu data adalah alat yang ampuh yang digunakan di berbagai bidang untuk menyelesaikan masalah dunia nyata dengan mengekstraksi wawasan dan pola dari data yang kompleks.
^ back to top ^
^ back to top ^
Bagaimana Anda mempelajari ilmu data? Dengan melakukan ilmu data, tentu saja! Oke, oke - itu mungkin tidak terlalu membantu ketika Anda pertama kali memulai. Di bagian ini, kami telah mendaftarkan beberapa sumber belajar, dalam urutan kasar dari komitmen paling sedikit hingga terbesar - tutorial, kursus online terbuka besar -besaran (MOOC), program intensif, dan perguruan tinggi.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Bagian ini adalah kumpulan paket, alat, algoritma, dan item berguna lainnya di dunia ilmu data.
^ back to top ^
Ini adalah beberapa pembelajaran mesin dan algoritma dan model penambangan data membantu Anda memahami data Anda dan mendapatkan makna darinya.
^ back to top ^
^ back to top ^
^ back to top ^
| Link | Keterangan |
|---|---|
| Proses Siklus Hidup Sains Data | Proses siklus hidup sains data adalah proses untuk mengambil tim ilmu data dari IDEA untuk menghargai berulang kali dan berkelanjutan. Proses ini didokumentasikan dalam repo ini |
| REPO Template Siklat Siklus Ilmu Data | Repositori Template untuk Proyek Siklus Hidup Ilmu Data |
| RexMex | Perpustakaan Metrik Rekomendasi Tujuan Umum untuk Evaluasi yang Adil. |
| Chemicalx | Perpustakaan pembelajaran mendalam berbasis Pytorch untuk penilaian pasangan obat. |
| Temporal geometris Pytorch | Pembelajaran Representasi pada Grafik Dinamis. |
| Bola kecil bulu | Perpustakaan grafik pengambilan sampel untuk NetworkX dengan scikit-learn seperti API. |
| Klub karate | Perpustakaan ekstensi pembelajaran mesin tanpa pengawasan untuk NetworkX dengan scikit-learn seperti API. |
| ML Workspace | Ide berbasis web all-in-one untuk pembelajaran mesin dan ilmu data. Ruang kerja digunakan sebagai wadah Docker dan dimuat sebelumnya dengan berbagai perpustakaan ilmu data populer (misalnya, TensorFlow, Pytorch) dan alat dev (misalnya, Jupyter, VS Code) |
| Neptunus.ai | Platform ramah-komunitas yang mendukung para ilmuwan data dalam membuat dan berbagi model pembelajaran mesin. Neptunus memfasilitasi kerja tim, manajemen infrastruktur, perbandingan model dan reproduktifitas. |
| Steppy | Perpustakaan Python yang ringan untuk eksperimen pembelajaran mesin yang cepat dan dapat direproduksi. Memperkenalkan antarmuka yang sangat sederhana yang memungkinkan desain pipa pembelajaran mesin bersih. |
| Steppy-Toolkit | Koleksi jaringan saraf, transformator, dan model yang dikuratori yang membuat pembelajaran mesin Anda bekerja lebih cepat dan lebih efektif. |
| DataLab dari Google | Mudah mengeksplorasi, memvisualisasikan, menganalisis, dan mengubah data menggunakan bahasa yang akrab, seperti Python dan SQL, secara interaktif. |
| Sandbox Hortonworks | adalah lingkungan Hadoop pribadi yang portabel yang dilengkapi dengan selusin tutorial Hadoop interaktif. |
| R | adalah lingkungan perangkat lunak gratis untuk komputasi dan grafik statistik. |
| Tidyverse | adalah kumpulan paket R yang dipendek yang dirancang untuk ilmu data. Semua paket berbagi filosofi desain, tata bahasa, dan struktur data yang mendasarinya. |
| Rstudio | IDE - Antarmuka pengguna yang kuat untuk R. Ini gratis dan open source, dan berfungsi pada Windows, Mac, dan Linux. |
| Python - Panda - Anaconda | Distribusi python siap-perusahaan yang sepenuhnya bebas untuk pemrosesan data skala besar, analitik prediktif, dan komputasi ilmiah |
| PANDAS GUI | PANDAS GUI |
| Scikit-learn | Pembelajaran Mesin dalam Python |
| Numpy | Numpy sangat mendasar untuk komputasi ilmiah dengan Python. Ini mendukung array dan matriks multi-dimensi yang besar dan mencakup bermacam-macam fungsi matematika tingkat tinggi untuk beroperasi pada array ini. |
| Vaex | Vaex adalah perpustakaan Python yang memungkinkan Anda memvisualisasikan kumpulan data besar dan menghitung statistik dengan kecepatan tinggi. |
| SCIPY | SCIPY bekerja dengan array numpy dan memberikan rutinitas yang efisien untuk integrasi dan optimasi numerik. |
| Kotak alat sains data | Kursus Coursera |
| Kotak alat sains data | Blog |
| Platform Ilmu Data Wolfram | Ambil numerik, tekstual, gambar, GIS atau data lain dan berikan perlakuan Wolfram, melakukan spektrum penuh analisis dan visualisasi ilmu data dan secara otomatis menghasilkan laporan interaktif yang kaya-semuanya didukung oleh bahasa Wolfram berbasis pengetahuan yang revolusioner. |
| Datadog | Solusi, kode, dan DevOps untuk ilmu data skala tinggi. |
| Perbedaan | Membangun visualisasi data yang kuat untuk web tanpa menulis javascript |
| Kit Pengembangan Layang -layang | Kit Pengembangan Perangkat Lunak KITE (Lisensi Apache, Versi 2.0), atau Kite singkat, adalah satu set perpustakaan, alat, contoh, dan dokumentasi yang berfokus pada membuatnya lebih mudah untuk membangun sistem di atas ekosistem Hadoop. |
| Laboratorium Data Domino | Jalankan, skala, bagikan, dan sebarkan model Anda - tanpa infrastruktur atau pengaturan apa pun. |
| Baku Apache | Platform untuk pemrosesan data yang efisien, terdistribusi, dan umum. |
| Apache Hama | Apache Hama adalah proyek open source tingkat atas Apache, yang memungkinkan Anda melakukan analitik canggih di luar MapReduce. |
| Weka | Weka adalah kumpulan algoritma pembelajaran mesin untuk tugas penambangan data. |
| Oktaf | GNU Octave adalah bahasa yang ditafsirkan tingkat tinggi, terutama dimaksudkan untuk perhitungan numerik. (MATLAB GRATIS) |
| Apache Spark | Komputasi Cluster Lightning-Fast |
| Kabut Hidrosfer | Layanan untuk mengekspos pekerjaan analitik Apache Spark dan model pembelajaran mesin sebagai layanan web realtime, batch atau reaktif. |
| Mekanika Data | Platform Ilmu Data dan Teknik yang Membuat Apache Memicu lebih banyak pengembang dan hemat biaya. |
| Caffe | Kerangka belajar yang mendalam |
| Obor | Kerangka Komputasi Ilmiah untuk Luajit |
| Kerangka pembelajaran mendalam berbasis Python Nervana | Intel® Nervana ™ Reference Deep Learning Framework berkomitmen untuk kinerja terbaik di semua perangkat keras. |
| Skale | Pemrosesan Data Terdistribusi Kinerja Tinggi di NodeJS |
| Aerosolve | Paket pembelajaran mesin yang dibangun untuk manusia. |
| Kerangka kerja intel | Intel® Deep Learning Framework |
| DataWrapper | Platform visualisasi data sumber terbuka yang membantu setiap orang untuk membuat grafik yang sederhana, benar dan dapat disematkan. Juga di github.com |
| Aliran tensor | TensorFlow adalah pustaka perangkat lunak open source untuk intelijen mesin |
| Toolkit Bahasa Alami | Toolkit pengantar namun kuat untuk pemrosesan dan klasifikasi bahasa alami |
| Lab Anotasi | Platform no-code ujung ke ujung gratis untuk anotasi teks dan pelatihan/penyetelan model DL. Dukungan out-of-the-box untuk pengakuan entitas yang disebutkan, klasifikasi, ekstraksi relasi dan status penegasan model NLP. Dukungan tak terbatas untuk pengguna, tim, proyek, dokumen. |
| nlp-toolkit untuk node.js | Modul ini mencakup beberapa prinsip dan implementasi NLP dasar. Fokus utamanya adalah kinerja. Ketika kami berurusan dengan sampel atau data pelatihan di NLP, kami dengan cepat kehabisan memori. Oleh karena itu setiap implementasi dalam modul ini ditulis sebagai aliran untuk hanya menyimpan data itu dalam memori yang saat ini diproses pada setiap langkah. |
| Julia | Bahasa pemrograman dinamis tingkat tinggi dan berkinerja tinggi untuk komputasi teknis |
| Ijulia | Backend bahasa Julia dikombinasikan dengan lingkungan interaktif Jupyter |
| Apache Zeppelin | Buku catatan berbasis web yang memungkinkan analisis data interaktif yang didorong oleh data dan dokumen kolaboratif dengan SQL, Scala dan banyak lagi |
| FeatureTools | Kerangka kerja open source untuk rekayasa fitur otomatis yang ditulis dalam python |
| Optimus | Pembersihan, pra-pemrosesan, rekayasa fitur, analisis data eksplorasi dan ML mudah dengan backend pyspark. |
| Albumentation | Perpustakaan augmentasi augmentasi gambar cepat dan kerangka kerja yang mengimplementasikan beragam teknik augmentasi. Mendukung klasifikasi, segmentasi, dan deteksi di luar kotak. Digunakan untuk memenangkan sejumlah kompetisi pembelajaran mendalam di Kaggle, Topcoder dan mereka yang merupakan bagian dari lokakarya CVPR. |
| Dvc | Sistem Kontrol Versi Ilmu Data Open-Source. Ini membantu melacak, mengatur, dan membuat proyek ilmu data dapat direproduksi. Dalam skenario yang sangat mendasar ini membantu mengontrol versi dan berbagi data besar dan file model. |
| Lambdo | adalah mesin alur kerja yang secara signifikan menyederhanakan analisis data dengan menggabungkan dalam satu analisis pipa (i) Rekayasa fitur dan pembelajaran mesin (II) Pelatihan model dan prediksi (III) Populasi tabel dan evaluasi kolom. |
| Pesta | Toko fitur untuk manajemen, penemuan, dan akses fitur pembelajaran mesin. Pesta memberikan tampilan data fitur yang konsisten untuk pelatihan model dan pemertian model. |
| Polyaxon | Platform untuk pembelajaran mesin yang dapat direproduksi dan dapat diskalakan serta pembelajaran yang mendalam. |
| Lighttag | Alat anotasi teks untuk tim |
| Ubiai | Alat anotasi teks yang mudah digunakan untuk tim dengan fitur anotasi otomatis yang paling komprehensif. Mendukung NER, Hubungan dan Klasifikasi Dokumen serta Anotasi OCR untuk Pelabelan Faktur |
| Kereta | Manajer Eksperimen Magis Otomatis, Kontrol Versi & DevOps untuk AI |
| Hopsworks | Platform pembelajaran mesin intensif data open-source dengan toko fitur. Menyeret dan mengelola fitur untuk akses online (cluster MySQL) dan offline (Apache Hive), melatih dan melayani model pada skala. |
| Mindsdb | MindSDB adalah kerangka kerja Automl yang dapat dijelaskan untuk pengembang. Dengan MindSDB Anda dapat membangun, melatih, dan menggunakan model ML canggih sesederhana satu baris kode. |
| Lightwood | Kerangka kerja berbasis Pytorch yang memecah masalah pembelajaran mesin menjadi blok yang lebih kecil yang dapat direkatkan bersama dengan tujuan untuk membangun model prediktif dengan satu baris kode. |
| AWS Data Wrangler | Paket Python open-source yang memperluas kekuatan pustaka Pandas ke AWS menghubungkan DataFrames dan layanan terkait data AWS (Amazon Redshift, AWS Glue, Amazon Athena, Amazon ESDM, dll). |
| Amazon Rekognition | AWS Rekognition adalah layanan yang memungkinkan pengembang bekerja dengan Amazon Web Services menambahkan analisis gambar ke aplikasi mereka. Katalog aset, mengotomatiskan alur kerja, dan mengekstrak makna dari media dan aplikasi Anda. |
| Amazon Textract | Ekstrak teks, tulisan tangan, dan data yang dicetak secara otomatis dari dokumen apa pun. |
| Amazon Lookout for Vision | Cacat produk spot menggunakan visi komputer untuk mengotomatisasi inspeksi kualitas. Identifikasi komponen produk yang hilang, kerusakan kendaraan dan struktur, dan penyimpangan untuk kontrol kualitas komprehensif. |
| Amazon Codeguru | Mengotomatiskan ulasan kode dan mengoptimalkan kinerja aplikasi dengan rekomendasi bertenaga ML. |
| CML | Toolkit open source untuk menggunakan integrasi berkelanjutan dalam proyek sains data. Secara otomatis melatih dan menguji model di lingkungan seperti produksi dengan tindakan github & gitlab ci, dan laporan visual autogenerate tentang permintaan pull/gabungan. |
| Dask | Perpustakaan Python open source ke transisi tanpa rasa sakit kode analitik Anda ke sistem komputasi terdistribusi (data besar) |
| Statsmodels | Statistik inferensial berbasis Python, kerangka kerja pengujian hipotesis dan regresi |
| Gensim | Perpustakaan open-source untuk pemodelan topik teks bahasa alami |
| Spacy | Alat pemrosesan bahasa alami yang berkinerja |
| Studio Grid | Grid Studio adalah aplikasi spreadsheet berbasis web dengan integrasi penuh bahasa pemrograman Python. |
| Buku Pegangan Ilmu Data Python | Buku Pegangan Ilmu Data Python: Teks Lengkap di Jupyter Notebooks |
| Shapley | Kerangka kerja berbasis data untuk mengukur nilai pengklasifikasi dalam ansambel pembelajaran mesin. |
| Dagshub | Platform yang dibangun di atas alat open source untuk data, model, dan manajemen pipa. |
| Catatan dalam | Jenis notebook sains data baru. Jupyter-kompatibel, dengan kolaborasi real-time dan berjalan di cloud. |
| Valohai | Platform MLOPS yang menangani orkestrasi mesin, reproduktifitas dan penyebaran otomatis. |
| PYMC3 | Perpustakaan Python untuk pemrograman probabalis (Inferensi Bayesian dan Pembelajaran Mesin) |
| Pystan | Antarmuka Python ke Stan (Inferensi dan Pemodelan Bayesian) |
| Hmmlearn | Pembelajaran tanpa pengawasan dan kesimpulan dari model Markov yang tersembunyi |
| Genius Chaos | Mesin analitik bertenaga ML untuk deteksi outlier/anomali dan analisis akar penyebab |
| Nimblox | Platform Full-Stack MLOPS yang dirancang untuk membantu para ilmuwan data dan praktisi pembelajaran mesin di seluruh dunia menemukan, membuat, dan meluncurkan aplikasi multi-cloud dari browser web mereka. |
| TOWHEE | Perpustakaan Python yang membantu Anda menyandikan data yang tidak terstruktur ke dalam embeddings. |
| Lineapy | Pernah frustrasi dengan membersihkan buku catatan Jupyter yang panjang dan berantakan? Dengan Lineapy, perpustakaan Python open source, dibutuhkan hanya dua baris kode untuk mengubah kode pengembangan yang berantakan menjadi jaringan pipa produksi. |
| Envd | ? |
| Jelajahi Perpustakaan Ilmu Data | Mesin pencari? Alat untuk menemukan & menemukan daftar pustaka populer & baru, penulis top, kit proyek tren, diskusi, tutorial & sumber belajar |
| Mlem | ? Versi dan sebarkan model ML Anda mengikuti prinsip -prinsip GITOPS |
| Mlflow | Kerangka kerja MLOPS untuk mengelola model ML di seluruh siklus hidup mereka |
| CleanLab | Perpustakaan Python untuk AI yang berpusat pada data dan secara otomatis mendeteksi berbagai masalah dalam dataset ML |
| Autogluon | Automl untuk dengan mudah menghasilkan prediksi yang akurat untuk data gambar, teks, tabel, seri waktu, dan multi-modal |
| ARIZE AI | ARIZE AI Community Tier Observability Tool untuk memantau model pembelajaran mesin dalam masalah produksi dan penyebab root seperti kualitas data dan penyimpangan kinerja. |
| Aureo.io | Aureo.io adalah platform kode rendah yang berfokus pada membangun kecerdasan buatan. Ini memberi pengguna kemampuan untuk membuat pipa, otomatisasi, dan mengintegrasikannya dengan model kecerdasan buatan - semua dengan data dasar mereka. |
| ERD Lab | Alat Hubungan Entitas Cloud Entitas (ERD) GRATIS Dibuat untuk pengembang. |
| Arize-Phoenix | MLOPS dalam notebook - Buka wawasan, masalah permukaan, monitor, dan selaraskan model Anda. |
| Komet | Platform MLOPS dengan pelacakan percobaan, manajemen produksi model, registri model, dan garis keturunan data lengkap untuk mendukung alur kerja ML Anda dari pelatihan langsung hingga produksi. |
| Opik | Evaluasi, menguji, dan mengirimkan aplikasi LLM di seluruh DEV dan siklus hidup produksi Anda. |
| Sintis | Lingkungan kolaboratif bertenaga AI untuk penelitian. Temukan makalah yang relevan, buat koleksi untuk mengelola daftar pustaka, dan merangkum konten - semuanya di satu tempat |
| Teeplot | Alat alur kerja untuk secara otomatis mengatur output visualisasi data |
| Streamlit | Kerangka kerja aplikasi untuk pembelajaran mesin dan proyek sains data |
| Gradio | Buat komponen UI yang dapat disesuaikan di sekitar model pembelajaran mesin |
| Bobot & Bias | Pelacakan Eksperimen, Versi Dataset, dan Manajemen Model |
| Dvc | Sistem kontrol versi open-source untuk proyek pembelajaran mesin |
| Optuna | Kerangka Perangkat Lunak Optimasi Hyperparameter Otomatis |
| Tune Ray | Perpustakaan tuning hyperparameter scalable |
| Airflow Apache | Platform untuk penulis secara terprogram, jadwal, dan memantau alur kerja |
| Prefek | Sistem manajemen alur kerja untuk tumpukan data modern |
| Kedro | Kerangka Python Sumber Terbuka untuk Membuat Kode Ilmu Data yang Dapat Dipelihara dan Dapat Dipelihara |
| Hamilton | Perpustakaan ringan untuk penulis dan mengelola transformasi data yang andal |
| Bentuk | Pendekatan Teoritis Game untuk menjelaskan output dari model pembelajaran mesin apa pun |
| KAPUR | Menjelaskan prediksi setiap pengklasifikasi pembelajaran mesin |
| flyte | Platform otomatisasi alur kerja untuk pembelajaran mesin |
| dbt | Alat pembuatan data |
| Bentuk | Pendekatan Teoritis Game untuk menjelaskan output dari model pembelajaran mesin apa pun |
| KAPUR | Menjelaskan prediksi setiap pengklasifikasi pembelajaran mesin |
^ back to top ^
Bagian ini mencakup beberapa bahan bacaan tambahan, saluran untuk ditonton, dan pembicaraan untuk didengarkan.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| Keterangan | |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| TIDAK BISA DIHINDARI | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
atas
Some data mining competition platforms
^ back to top ^
| Pratinjau | Keterangan |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Data Science | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^