Kurikulum Pembelajaran Mesin
Pembelajaran mesin adalah cabang kecerdasan buatan yang didedikasikan untuk membuat mesin belajar dari data pengamatan tanpa diprogram secara eksplisit.
Pembelajaran mesin dan AI tidak sama. Pembelajaran mesin adalah instrumen dalam AI Symphony - komponen AI. Jadi apa itu pembelajaran mesin - atau ML - tepatnya? Ini adalah kemampuan bagi suatu algoritma untuk belajar dari data sebelumnya untuk menghasilkan perilaku. ML adalah mesin pengajaran untuk membuat keputusan dalam situasi yang belum pernah mereka lihat.
Kurikulum ini dibuat untuk memandu Anda belajar pembelajaran mesin, merekomendasikan alat, dan membantu Anda merangkul gaya hidup ML dengan menyarankan media untuk diikuti. Saya memperbaruinya secara teratur untuk menjaga kesegaran dan menyingkirkan konten yang sudah ketinggalan zaman dan alat yang sudah usang.
Pembelajaran mesin secara umum
Pelajari bagian ini untuk memahami konsep -konsep mendasar dan mengembangkan intuisi sebelum menjadi lebih dalam.
Sebuah program komputer dikatakan belajar dari pengalaman E sehubungan dengan beberapa kelas T dan ukuran kinerja P jika kinerjanya pada tugas -tugas di T , yang diukur dengan P , meningkat dengan pengalaman E .
- Elemen ai sekelompok kursus mudah yang mengajar AI dan pembelajaran mesin
- COMS W4995 Applied Machine Learning Spring 2020 Video dan slide kursus ML terapan dari Columbia University.
- Kursus Pembelajaran Mesin Occuppy oleh Fast.ai
- Kursus Kecelakaan Pembelajaran Mesin Dengan TensorFlow API Google Puasa dan Praktis Pengantar untuk Pembelajaran Mesin
- Intro to Machine Learning - Udacity Hands on Scikit -Learn (Python) Pemrograman Pembelajaran tentang Konsep Inti ML
- Pembelajaran Mesin: Diawasi, tidak diawasi & Penguatan - Udacity 2 instruktur itu lucu
- Penguasaan Pembelajaran Mesin Disetel dengan cermat
- Spesialisasi Andrew Ng di Coursera yang direkomendasikan untuk orang -orang yang ingin mengetahui detail algoritma ML di bawah tenda, memahami matematika yang cukup untuk menjadi berbahaya dan melakukan penugasan pengkodean di Python
- Resep ML - Daftar Putar YouTube Sebuah konten konkret yang dapat dirancang dengan sangat baik untuk Pendahuluan ML
- Pembelajaran Mesin Adalah Fun Part 1 Pendekatan Sederhana untuk Pembelajaran Mesin untuk Orang Non-Math
- Pembelajaran Mesin dengan Python - Daftar Putar YouTube
- Pembelajaran Mesin Kerinduan oleh Andrew Ng
- Mendaratkan Pekerjaan Data: Kursus ini merupakan pedoman yang berpendapat dan praktis bagi orang -orang yang ingin fokus pada pendaratan pekerjaan. Misalnya, mereka menyarankan bahwa mengetahui cara kerja pohon keputusan sudah cukup baik, Anda tidak perlu tahu bagaimana semua model bekerja, yang benar! Tetapi saran ini sebagian besar untuk data tabel.
- Pembelajaran Mesin Tanpa Server Bangun Layanan Prediksi Tanpa Server Machine Learning Anda sendiri
- MLOPS Efektif: Pengembangan Model Kursus gratis berdasarkan bobot & bias dengan sertifikasi
- Matematika untuk Pembelajaran Mesin dan Kursus Matematika Spesialisasi Ilmu Data oleh Coursera
Buku
- Pembelajaran mesin dengan pytorch dan scikit-learn oleh Sebastian Raschka
- Pembelajaran mesin langsung dengan scikit-learn, keras, dan tensorflow, edisi ke-2 oleh Aurélien Géron adalah buku terlaris karena itu bagus.
- https://github.com/fastai/fastbook buku fastai, diterbitkan sebagai jupyter notebooks
- https://www.deeeplearningbook.org/ Matematika Buku Berat Oleh Ian Goodfellow dan Yoshua Bengio dan Aaron Courville
- https://christophm.github.io/interpretable-ml-book/ panduan untuk membuat model kotak hitam bisa dijelaskan
- https://themlbook.com/ Buku Pembelajaran Mesin Seratus Pangkalan Oleh Andriy Burkov
Pembelajaran Penguatan
Membangun mesin yang merasakan lingkungan dan kemudian memilih kebijakan (tindakan) terbaik untuk dilakukan di negara bagian mana pun untuk memaksimalkan hadiah skalar jangka panjang yang diharapkan adalah tujuan pembelajaran penguatan.
- Openai Spinning Up Ini adalah sumber daya pendidikan yang diproduksi oleh Openai yang membuatnya lebih mudah untuk belajar tentang pembelajaran penguatan yang dalam (Deep RL).
- Pembelajaran Penguatan Dasar Seri Pengantar untuk Penguatan Pembelajaran (RL) dengan tutorial langkah demi langkah yang komprehensif.
- Topik Lanjutan: RL 2015 (COMPM050/COMPGI13) oleh David Silver (pria di belakang Alphago)
- Buku Pendahuluan oleh Richard S. Sutton dan Andrew G. Barto
- Pembelajaran Penguatan yang mendalam: pong dari piksel
- Kuliah 10: Pembelajaran Penguatan - YouTube
- Makalah survei
- Pembelajaran Penguatan Deep: Tutorial - OpenAi
- CS 294: Pembelajaran Penguatan Deep, Musim Semi 2017
Pembelajaran yang mendalam
Deep Learning adalah cabang pembelajaran mesin di mana jaringan saraf buatan (DNN) - algoritma yang terinspirasi oleh cara neuron bekerja di otak - menemukan pola dalam data mentah dengan menggabungkan beberapa lapisan neuron buatan. Ketika lapisan meningkat, demikian juga kemampuan jaringan saraf untuk mempelajari konsep yang semakin abstrak.
Jenis DNN paling sederhana adalah multilayer perceptron (MLP).

- The Little Book of Deep Learning Buku ini adalah pengantar singkat untuk pembelajaran mendalam bagi pembaca dengan latar belakang STEM, yang awalnya dirancang untuk dibaca di layar telepon. Ini didistribusikan di bawah lisensi Creative Commons non-komersial dan diunduh hampir 250.000 kali dalam sebulan setelah rilis publik.
- Tumpukan penuh pembelajaran mendalam belajar pembelajaran tingkat produksi dari para praktisi terkemuka
- Deeplearning.ai sekelompok kursus yang diajarkan oleh Andrew ng di Coursera; Ini adalah sekuel kursus pembelajaran mesin di Coursera.
- Intro ke Deep Learning dengan Pytorch A Course oleh Facebook AI on Udacity
- Pengantar yang ramah untuk Jaringan Pembelajaran Deep and Neural
- Tinker taman bermain jaringan saraf dengan jaringan saraf sederhana yang dirancang untuk membantu Anda memvisualisasikan proses pembelajaran
- Pembelajaran mendalam Demystified - YouTube Jelaskan inspirasi pembelajaran mendalam dari neuron nyata ke jaringan saraf buatan
- Pelajari TensorFlow dan Deep Learning, tanpa Ph.D. Kursus 3 jam ini (Video + Slide) ini menawarkan pengantar cepat untuk fundamental pembelajaran dalam, dengan beberapa TensorFlow dilemparkan ke tawar-menawar.
- Panduan untuk Pembelajaran mendalam oleh Yn^2 Panduan Matematika yang Dikuratori untuk Pembelajaran yang mendalam
- Kursus Pembelajaran Deep Praktis untuk Coders di Fast.ai yang Diajarkan oleh Jeremy Howard (pesaing #1 Kaggle 2 tahun berjalan, dan pendiri Enlitic)
- Pembelajaran mendalam - Udacity yang direkomendasikan untuk pelajar visual yang tahu beberapa ML, kursus ini memberikan ide -ide level tinggi pembelajaran mendalam, detail intuitif padat yang dimasukkan dalam waktu singkat, Anda akan menggunakan TensorFlow di dalam kursus
- Sekolah Musim Panas Pembelajaran Depat, Montreal 2015
- Kelas Neural Networks - Daftar Putar YouTube
- http://neuralnetworksanddeeplearning.com/index.html Buku online langsung untuk intuisi matematika pembelajaran yang mendalam, saya dapat mengatakan bahwa setelah Anda menyelesaikan ini, Anda akan dapat menjelaskan pembelajaran yang mendalam dengan detail yang baik.
- Kebun Binatang Jaringan Saraf Banyak model jaringan saraf yang harus Anda ketahui (saya tahu tentang setengahnya jadi jangan khawatir bahwa Anda tidak tahu banyak karena kebanyakan dari mereka tidak populer atau berguna di masa kini)
- Intro ke TensorFlow untuk pembelajaran mendalam yang diajarkan di Udacity
- Primer • AI Berikut adalah pilihan artikel yang dipetik dengan tangan tentang fundamental/konsep AI yang mencakup seluruh proses membangun jaring saraf untuk melatih mereka untuk mengevaluasi hasil. Ada juga penjelasan arsitektur transformator yang sangat rinci.
- Model Difusi Wajah Memeluk Kursus mempelajari teori, melatih model dari awal, dan menggunakannya untuk menghasilkan gambar dan audio.
- Dasar -dasar Pembelajaran Depat oleh Lightning.ai dengan Sebastian Raschka
Jaringan saraf konvolusional
DNN yang bekerja dengan data grid seperti bentuk gelombang suara, gambar dan video lebih baik daripada DNN biasa. Mereka didasarkan pada asumsi bahwa unit input terdekat lebih terkait daripada unit yang jauh. Mereka juga menggunakan invarian terjemahan. Misalnya, diberi gambar, mungkin berguna untuk mendeteksi jenis tepi yang sama di mana -mana pada gambar. Mereka kadang -kadang disebut konvnet atau CNNs .
- Bagaimana Kerja Jaringan Saraf Convolutional - Penjelasan Teknis YouTube Termasuk Operasi Pooling, Relu, Lapisan Terhubung Sepenuhnya, Optimalisasi Menggunakan Keturunan Gradient
- Jaringan saraf yang mengubah segalanya - ComputerPhile
- Panduan Pemula untuk Memahami Jaringan Saraf Konvolusional
- Pembelajaran yang mendalam untuk visi komputer (Andrej Karparthy, Openai) Ini adalah video convolutional net saya yang paling favorit. Andrej menjelaskan Convnet secara detail menjawab semua pertanyaan aneh yang mungkin dimiliki seseorang. Misalnya, sebagian besar artikel hanya berbicara tentang konvolusi dalam gambar skala abu -abu, tetapi ia menjelaskan konvolusi dalam gambar dengan saluran warna juga. Dia juga berbicara tentang kekhawatiran dan asumsi yang dilakukan Convnets. Ini adalah kuliah yang bagus!
- Memahami jaringan saraf melalui visualisasi yang mendalam menjelaskan cara memvisualisasikan konvnet menggunakan berbagai teknik
Jaringan saraf berulang
DNN yang memiliki negara bagian. Mereka juga memahami urutan yang panjangnya bervariasi. Mereka kadang -kadang disebut RNN .
- http://karpathy.github.io/2015/05/21/rnn-effectivity/
- http://cilah.github.io/posts/2015-08-understanding-lstms/
- http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-trnns/
Praktik terbaik
- Aturan Pembelajaran Mesin: Praktik Terbaik Untuk Rekayasa ML Ini adalah dokumen oleh Martin Zinkevich tentang praktik terbaik Google dalam pembelajaran mesin.
- Resep untuk melatih jaringan saraf Andrej's BlogPost tentang cara melatih diri Anda untuk menjadi insinyur pembelajaran mesin paranoid.
- Cara men -debug jaringan saraf. Manual.
- Tinjauan Algoritma Optimalisasi Keturunan Gradien
- Deep Learning Tuning Playbook Sebuah buku pedoman untuk secara sistematis memaksimalkan kinerja model pembelajaran yang mendalam.
Peralatan
Perpustakaan dan kerangka kerja yang berguna untuk pembelajaran mesin praktis
Kerangka kerja
Blok bangunan pembeli mesin
- Perpustakaan Pembelajaran Mesin Umum Scikit-Learn, Abstraksi Tingkat Tinggi, Disesuaikan untuk Pemula
- Tensorflow; Tensorflow yang luar biasa; Kerangka kerja grafik komputasi yang dibangun oleh Google, memiliki papan visualisasi yang bagus, mungkin kerangka kerja paling populer saat ini untuk melakukan pembelajaran yang mendalam
- Keras: Pembelajaran yang mendalam untuk manusia Keras adalah API pembelajaran mendalam yang ditulis dalam Python, berjalan di atas TensorFlow. Ini masih raja abstraksi tingkat tinggi untuk pembelajaran yang mendalam. UPDATE: Keras sekarang tersedia untuk TensorFlow, Jax dan Pytorch!
- Tensor Pytorch dan jaringan saraf dinamis di Python dengan akselerasi GPU yang kuat. Ini biasa digunakan oleh peneliti mutakhir termasuk Openai.
- Petir kerangka belajar yang mendalam untuk melatih, menggunakan, dan mengirimkan produk AI dengan cepat. (Dulu disebut Pytorch Lightning)
- Jax adalah Autograd dan XLA, disatukan untuk penelitian pembelajaran mesin berkinerja tinggi.
- OneFlow adalah kerangka pembelajaran yang mendalam yang dirancang untuk menjadi ramah pengguna, dapat diskalakan dan efisien.
- Apache MXNET (Inkubasi) untuk pembelajaran mendalam Apache MXNET adalah kerangka pembelajaran mendalam yang dirancang untuk efisiensi dan fleksibilitas. Ini memungkinkan Anda untuk mencampur pemrograman simbolik dan imperatif untuk memaksimalkan efisiensi dan produktivitas.
- Chainer Kerangka kerja yang fleksibel dari jaringan saraf untuk pembelajaran yang mendalam
- VowPal Wabbit adalah sistem pembelajaran mesin yang mendorong perbatasan pembelajaran mesin dengan teknik seperti online, hashing, allreduce, pengurangan, pembelajaran2Search, aktif, dan pembelajaran interaktif. Ada fokus khusus pada pembelajaran penguatan dengan beberapa algoritma bandit kontekstual yang diimplementasikan dan pinjaman sifat online untuk masalah dengan baik.
- H2O adalah platform dalam memori untuk pembelajaran mesin yang didistribusikan dan dapat diskalakan.
- Jaringan saraf grafik spektral dengan keras dan tensorflow 2.
- Ivy adalah transpiler ML dan kerangka kerja, saat ini mendukung Jax, Tensorflow, Pytorch dan Numpy. Ivy menyatukan semua kerangka kerja ML? Mengaktifkan Anda tidak hanya untuk menulis kode yang dapat digunakan dengan kerangka kerja ini sebagai backend, tetapi juga untuk mengonversi fungsi, model atau perpustakaan apa pun yang ditulis di salah satu dari mereka ke kerangka kerja pilihan Anda!
Tidak ada pengkodean
- Ludwig Ludwig adalah kotak alat yang memungkinkan pengguna untuk melatih dan menguji model pembelajaran yang mendalam tanpa perlu menulis kode. Dibangun di atas TensorFlow.
Meningkatkan gradien
Model yang banyak digunakan dalam kompetisi karena kinerja generalisasi yang luar biasa.
- https://github.com/dmlc/xgboost gradien ekstrim boostting
- https://github.com/microsoft/lightgbm alternatif ringan dibandingkan dengan xgboost
- https://github.com/catboost/catboost gradien cepat, scalable, dan meningkatkan kinerja di perpustakaan pohon keputusan, digunakan untuk peringkat, klasifikasi, regresi, dan tugas pembelajaran mesin lainnya untuk Python, R, Java, C ++. Mendukung perhitungan pada CPU dan GPU.
- https://github.com/tensorflow/decision-forests Tensorflow Decision Forests (TF-DF) adalah kumpulan algoritma canggih untuk pelatihan, melayani dan interpretasi model hutan keputusan.
- Pytorch/TensorFlow Implementasi kertas tabnet. Baca Lebih Lanjut: Tabnet Saldes Penjelasan dan Kinerja Model pada Data Tabular, tetapi dapatkah itu mencabut model pohon yang ditingkatkan?
Inferensi deret waktu
Data deret waktu memerlukan proses ekstraksi fitur unik agar mereka dapat digunakan di sebagian besar model pembelajaran mesin karena sebagian besar model memerlukan data untuk berada dalam format tabel. Atau Anda dapat menggunakan arsitektur model khusus yang menargetkan seri waktu misalnya LSTM, TCN, dll.
- https://github.com/Timeseriesai/tsai Time Series Timeseries Deep Learning Pytorch Fastai-Pembelajaran mendalam canggih dengan seri waktu dan sekuens di Pytorch/Fastai. Bacaan lebih lanjut: Tsai - Pembelajaran Mesin Seni State for Time Series, Bagian 1.
- https://github.com/alan-turing-institute/sktime Kerangka kerja terpadu untuk pembelajaran mesin dengan seri waktu
- https://github.com/sktime/sktime-dl paket ekstensi untuk pembelajaran mendalam dengan tensorflow/keras untuk sktime
- https://github.com/tslearne-team/tslearn/ toolkit pembelajaran mesin yang didedikasikan untuk data staf-time
- https://github.com/blue-honder/tsfresh ekstraksi otomatis fitur yang relevan dari seri waktu
- https://github.com/johannfaouzi/pyts paket python untuk klasifikasi seri waktu
- https://github.com/facebook/prophet Tool untuk menghasilkan perkiraan berkualitas tinggi untuk data seri waktu yang memiliki musiman berganda dengan pertumbuhan linier atau non-linear.
- https://github.com/philipperemy/keras-tcn keras jaringan konvolusional temporal
- Roket: Klasifikasi seri waktu yang sangat cepat dan akurat menggunakan kernel konvolusional acak; Minirocket: Transformasi deterministik yang sangat cepat (hampir) untuk klasifikasi seri waktu; 2 teknik ini adalah untuk mengekstraksi fitur seri waktu. Baca lebih lanjut: Rocket: Klasifikasi Seri Waktu Cepat dan Akurat
Siklus hidup
Perpustakaan yang membantu Anda mengembangkan/men -debug/menggunakan model dalam produksi (MLOPS). Ada lebih banyak untuk ML daripada melatih model.
- https://huggingface.co/ Sama seperti GitHub, tetapi untuk menyimpan model ML, dataset, dan aplikasi (mereka menyebut aplikasi sebagai spasi). Mereka memiliki perpustakaan untuk Anda menggunakan model/kumpulan data mereka dengan mudah dalam kode Anda. Penyimpanan gratis dan tidak terbatas untuk proyek publik dan pribadi.
- https://wandb.ai/ membangun model yang lebih baik lebih cepat dengan pelacakan eksperimen, versi dataset, dan manajemen model
- https://github.com/flyteorg/flyte flyte memudahkan untuk membuat alur kerja yang bersamaan, dapat diskalakan, dan dapat dipelihara untuk pembelajaran mesin dan pemrosesan data.
- https://github.com/allegroai/clearml rangkaian alat-magis otomatis untuk merampingkan alur kerja ML Anda. Manajer Eksperimen, ML-OPS dan Manajemen Data
- https://github.com/quantumblacklabs/kedro kerangka kerja Python untuk membuat kode sains data yang dapat direproduksi, dapat dipelihara, dan modular.
- https://github.com/determined-ai/Determined ditentukan adalah platform pelatihan pembelajaran mendalam sumber terbuka yang membuat model bangunan cepat dan mudah. Saya menggunakannya terutama untuk menyetel hiperparameter.
- https://github.com/iterative/CML Continuous Machine Learning (CML) adalah perpustakaan open-source untuk mengimplementasikan integrasi & pengiriman kontinu (CI/CD) dalam proyek pembelajaran mesin. Gunakan untuk mengotomatisasi bagian alur kerja pengembangan Anda, termasuk pelatihan dan evaluasi model, membandingkan eksperimen ML di seluruh riwayat proyek Anda, dan memantau perubahan set data.
- https://github.com/creme-ml/creme python library untuk pembelajaran mesin online . Semua alat di perpustakaan dapat diperbarui dengan satu pengamatan sekaligus, dan karenanya dapat digunakan untuk belajar dari data streaming.
- https://github.com/aimhubio/aim cara super-mudah untuk merekam, mencari dan membandingkan 1000-an pelatihan ML berjalan
- https://github.com/netflix/metaflow Metaflow adalah perpustakaan Python yang ramah manusia yang membantu para ilmuwan dan insinyur membangun dan mengelola proyek ilmu data kehidupan nyata. Metaflow awalnya dikembangkan di Netflix.
- MLFLOW MLFLOW (saat ini dalam beta) adalah platform open source untuk mengelola siklus hidup ML, termasuk eksperimen, reproduktifitas dan penyebaran. Saat ini menawarkan tiga komponen: pelacakan MLFLOW, proyek MLFLOW, model MLFLOW.
- Floydhub A Heroku untuk Pembelajaran yang mendalam (Anda fokus pada model, mereka akan digunakan)
- Comet.ml Comet memungkinkan para ilmuwan dan tim data untuk melacak, membandingkan, menjelaskan, dan mengoptimalkan eksperimen dan model di seluruh siklus hidup model. Dari pelatihan hingga produksi
- https://neptune.ai/ Kelola semua metadata bangunan model Anda di satu tempat
- https://github.com/fastai/nbdev membuat proyek python yang menyenangkan menggunakan jupyter notebooks
- https://rapids.ai/ Ilmu data di GPU
- https://github.com/datarevenue-berlin/openmlops
- https://github.com/jacopotagliabue/you-dont-need-a-bigger-boat tidak benar-benar alat, tetapi panduan tentang cara menyusun banyak alat bersama dalam bisnis skala yang masuk akal dunia nyata.
- https://www.modular.com/ Perusahaan dengan tujuan ambisius untuk mendesain ulang infrastruktur AI dari bawah ke atas. Mereka memperkenalkan bahasa baru yang disebut Mojo yang merupakan superset Python.
Cloud GPU
Ingatlah bahwa ini adalah daftar yang bertentangan. Ada Bazillions penyedia cloud di luar sana. Saya tidak akan mencantumkan semuanya. Saya hanya akan membuat daftar orang -orang yang saya kenal dan saya pikir baik.
- https://lightning.ai/ Lightning Studio memungkinkan Anda untuk membuang laptop kelas atas untuk mengembangkan model pembelajaran mesin. Cukup tulis kode di cloud menggunakan vscode dan gunakan GPU mereka untuk pelatihan atau inferensi. Lightning Studio mirip dengan github codespaces tetapi dengan GPU.
- https://modal.com/ Modal memungkinkan Anda menjalankan atau menggunakan model pembelajaran mesin, pekerjaan komputasi paralel yang besar, antrian tugas, aplikasi web, dan banyak lagi, tanpa infrastruktur Anda sendiri.
- https://www.runpod.io/ hemat lebih dari 80% di GPU. Sewa GPU menjadi mudah dengan Jupyter untuk Pytorch, TensorFlow atau kerangka kerja AI lainnya. Saya sudah menggunakannya sebelumnya. Cukup mudah digunakan.
- https://replicate.com/ run dan fine-tune model open-source. Menyebarkan model khusus pada skala menggunakan COG. Semua dengan satu baris kode.
- https://bentoml.com/ Bentoml adalah platform bagi insinyur perangkat lunak untuk membangun produk AI. Menyebarkan menggunakan paket bentoml.
- https://www.baseten.co/ inferensi model cepat dan terukur di cloud menggunakan truss
- https://lambdalabs.com/ cloud GPU dibangun untuk pembelajaran mendalam. Akses instan ke harga terbaik untuk Cloud GPU di pasaran. Tidak ada komitmen atau negosiasi yang diperlukan. Hemat lebih dari 73% vs AWS, Azure, dan GCP. Dikonfigurasi untuk pembelajaran mendalam dengan pytorch, tensorflow, jupyter
- https://www.beam.cloud/ On-Demand GPU Compute: Latih dan Menyebarkan Aplikasi AI dan LLM dengan aman pada GPU tanpa server, tanpa mengelola infrastruktur
Penyimpanan data
- https://github.com/huggingface/datasets/ Paket untuk memuat, preprocessing dan berbagi set data.
- https://github.com/activeloopai/deeplake Data Lake untuk pembelajaran mendalam. Bangun, Kelola, Permintaan, Versi, & Visualisasikan Dataset. Streaming data waktu nyata ke pytorch/tensorflow.
- https://github.com/determined-ai/yogadl pendekatan yang lebih baik untuk pemuatan data untuk pembelajaran mendalam. Caching Api-Transparent to Disk, GCS, atau S3.
- https://github.com/google/ml_collections ML Collections adalah perpustakaan koleksi Python yang dirancang untuk kasing penggunaan ML. Ini berisi ConfigDict, struktur data "seperti dikt" dengan akses titik ke elemen bersarang. Seharusnya digunakan sebagai cara utama untuk mengekspresikan konfigurasi eksperimen dan model.
Perselisihan data
Pembersihan data dan augmentasi data
- https://github.com/cgnorthcutt/cleanlab kesalahan pelabelan bersih dari dataset
- https://github.com/aleju/imgaug Image augmentation Library yang mendukung konversi keypoints menjadi heatmaps
- https://github.com/albu/albumentations Library augmentasi gambar tercepat
- https://github.com/mdbloice/augmentor augmentation gambar yang mudah digunakan untuk tugas klasifikasi (tidak dapat menambah keypoints)
- https://github.com/faceBookresearch/augly perpustakaan augmentasi data untuk audio, gambar, teks, dan video.
Orkestrasi Data
- https://github.com/prefecthq/prefect
- https://github.com/dagster-io/dagster
- https://github.com/ploomber/ploomber ploomber adalah cara tercepat untuk membangun pipa data ⚡️. Gunakan editor favorit Anda (Jupyter, VScode, Pycharm) untuk mengembangkan secara interaktif dan menggunakan ☁️ tanpa perubahan kode (Kubernetes, Airflow, AWS Batch, dan Slurm).
- https://github.com/orchest/orchest membangun pipa data, cara mudah menggunakan UI yang ramah pengguna
Visualisasi Data
- https://github.com/gradio-app/gradio Buat UI untuk model pembelajaran mesin Anda di Python dalam 3 menit. UI adalah aplikasi web yang dapat dibagikan kepada siapa pun, bahkan orang-orang non-teknis. Salah satu fitur yang saya sukai adalah komponen contoh. Ini menunjukkan kepada Anda dengan sangat baik bahwa aplikasi ini untuk kasus penggunaan pembelajaran mesin.
- https://github.com/streamlit/streamlit streamlit mengubah skrip data menjadi aplikasi web yang dapat dibagikan dalam hitungan menit. Semua dalam Python. Semuanya gratis. Tidak diperlukan pengalaman front -end.
- https://github.com/oegedijk/explainerdashboard dengan cepat membangun dasbor AI yang dapat dijelaskan yang menunjukkan cara kerja dalam model pembelajaran mesin yang disebut "BlackBox".
- https://github.com/lux-org/lux hanya dengan mencetak DataFrame dalam buku catatan Jupyter, Lux merekomendasikan serangkaian visualisasi yang menyoroti tren dan pola yang menarik dalam dataset.
- https://github.com/slundberg/shap shap (penjelasan aditif shapley) adalah pendekatan teoretis game untuk menjelaskan output dari model pembelajaran mesin apa pun.
- https://github.com/comet-ml/kangas kangas adalah alat untuk mengeksplorasi, menganalisis, dan memvisualisasikan data multimedia skala besar. Ini memberikan API Python langsung untuk mencatat tabel data besar, bersama dengan antarmuka visual yang intuitif untuk melakukan kueri kompleks terhadap dataset Anda.
Penyetelan hiperparameter
Sebelum Anda mulai, silakan baca posting blog ini untuk memahami motivasi pencarian secara umum: https://www.determined.ai/blog/stop-doing-iterative-model-development
Buka mata Anda untuk pengembangan yang digerakkan oleh pencarian. Itu akan mengubah Anda. Manfaat utama adalah bahwa tidak akan ada kemunduran. Hanya kemajuan dan peningkatan yang diizinkan. Bayangkan bekerja dan berkembang setiap hari, alih -alih mundur ke belakang karena solusi baru Anda tidak berhasil. Kemajuan yang dijamin inilah yang akan dilakukan oleh pengembangan yang digerakkan oleh pencarian kepada Anda. Oleskan ke segala sesuatu dalam optimasi, bukan hanya pembelajaran mesin.
Preferensi utama saya ditentukan, ray tune, dan optuna karena paralelisasi (tuning terdistribusi pada banyak mesin), fleksibilitas (dapat mengoptimalkan tujuan sewenang -wenang dan memungkinkan parameter dataset untuk disetel), perpustakaan/algoritma tutorial (EG Hyperband, BOHB, TPE, PBT, PBT.
- https://github.com/determined-ai/Determined ditentukan adalah platform pelatihan pembelajaran mendalam sumber terbuka yang membuat model bangunan cepat dan mudah. IMO, yang terbaik untuk menghitung dengan murah model pembelajaran yang mendalam karena akan melatih banyak zaman pada model yang memiliki metrik yang menjanjikan dan model stop awal yang tidak. Mereka mendukung AWS dan sebagian besar layanan cloud sebagai warga negara kelas satu. Mereka juga mendukung instance preemptible , yang sekali lagi, murah. Saat Anda menyelesaikan pelatihan, semua instance GPU secara otomatis ditutup. Jika Anda ingin menghemat uang untuk pelatihan skala besar, lanjutkan dengan tekad.
- https://docs.ray.io/en/master/tune/index.html ray tune adalah perpustakaan Python untuk eksekusi percobaan dan penyetelan hiperparameter pada skala apa pun. Jika Anda mencari tuning terdistribusi, Ray Tune mungkin adalah kerangka kerja paling serius di luar sana.
- https://github.com/optuna/optuna Kerangka perangkat lunak optimasi hiperparameter otomatis (Framework Agnostik, define-by-run)
- https://github.com/pyhopper/pyhopper pyhopper adalah pengoptimal hiperparameter, dibuat khusus untuk masalah dimensi tinggi yang timbul dalam penelitian pembelajaran mesin dan bisnis. Orang ini mengklaim bahwa ini 10x lebih cepat dari Optuna. Apakah klaim ini benar? Kami tidak bisa tahu sampai kami mencoba!
- https://github.com/keras-team/keras-tuner Optimalisasi hiperparameter yang mudah digunakan dan terdistribusi untuk keras; Baca artikelnya di sini
- https://github.com/autonomio/talos Hyperparameter Optimization untuk keras, tensorflow (tf.keras) dan pytorch
- https://github.com/maxpumperla/hyperas keras + hyperopt: pembungkus yang sangat sederhana untuk optimasi hiperparameter yang nyaman
- https://github.com/fmfn/bayesianoptimization Implementasi Python dari optimasi global dengan proses Gaussian.
- https://github.com/hyperopt/hyperopt
- https://github.com/msu-coinlab/pymoo optimasi multi-objektif dalam python
- https://github.com/google/vizier Open Source Vizier: Optimalisasi Black-Box yang andal dan fleksibel. OSS Vizier adalah layanan berbasis Python untuk optimasi dan penelitian kotak hitam, berdasarkan Google Vizier, salah satu layanan tuning hyperparameter pertama yang dirancang untuk bekerja pada skala.
Automl
Buat mesin belajar tanpa tugas yang membosankan dari rekayasa fitur, pemilihan model, dan penyetelan hiperparameter yang harus Anda lakukan sendiri. Biarkan mesin melakukan pembelajaran mesin untuk Anda!
Secara pribadi jika saya memiliki dataset tabular, saya akan mencoba flaml dan mljar terlebih dahulu, terutama jika Anda ingin membuat sesuatu bekerja dengan cepat. Jika Anda ingin mencoba kerangka kerja meningkatkan gradien seperti XGBoost, LightGBM, Catboost, dll tetapi Anda tidak tahu mana yang paling cocok, saya sarankan Anda untuk mencoba Automl terlebih dahulu karena secara internal itu akan mencoba kerangka kerja meningkatkan gradien yang disebutkan sebelumnya.
- Kerangka OpenSource Automl Terbaik pada tahun 2021 Sebuah artikel tentang medium yang berisi daftar kerangka kerja OpenSource Automl yang dikuratori.
- https://github.com/dabl/dabl Analisis Data Baseline Library; Latih dengan cepat model sederhana untuk digunakan sebagai garis dasar kinerja
- https://www.automl.org/ temukan daftar pustaka dan penelitian automl yang dikuratori
- https://github.com/jhfjhfj1/autokeras saat menulis (24 Agustus 2018), perpustakaan ini cukup prematur karena hanya dapat melakukan klasifikasi.
- https://github.com/automl/auto-sklearn/ tidak berjalan di windows, Anda perlu menginstal wsl (subsistem windows untuk linux) untuk menggunakannya
- https://github.com/epistasislab/tpot menjalankan ribuan pipa pembelajaran mesin dan mengeluarkan kode untuk Anda
- https://github.com/climbsrocks/auto_ml Baca apa yang penulis pikirkan tentang perbandingan antara TPOT dan Auto-SkLearn
- https://github.com/microsoft/flaml Fast and Lightweight Automl dengan algoritma optimasi ekonomis yang hemat biaya.
- https://github.com/mljar/mljar-supervised paket python pembelajaran mesin otomatis yang berfungsi dengan data tabel. Saya suka itu menghasilkan laporan visualisasi (dalam mode menjelaskan) dan fitur tambahan untuk Anda misalnya fitur emas dan fitur K-Means.
- https://github.com/awslabs/autogluon automl untuk teks, gambar, dan data tabel. Tapi itu tidak mendukung Windows (per 11 Oktober 2021).
- https://github.com/autoviml/auto_viml auto_viml dirancang untuk membangun model yang dapat ditafsirkan dengan kinerja tinggi dengan variabel paling sedikit yang diperlukan.
Arsitektur model
Arsitektur yang canggih di bidangnya.
- https://github.com/rwightman/pytorch-image-models Model gambar pytorch, skrip, bobot pretrained-resnet, resnext, efisiensi, lebih efisienNetv2, nfnet, vision transformer, mixnet, mobileNet-v3/v2, regnet, dpn, dpn, dpn, dpn, dpn, dpn, dpn, dpn, dpn, cpn, cpn, cpnet, cps. Ini biasanya disebut
timm . - https://modelzoo.co/ Model Zoo
- https://github.com/tensorflow/models
- Magenta: Musik dan generasi seni dengan kecerdasan mesin
- https://github.com/phillipi/pix2pix gambar-ke-image terjemahan menggunakan jaring permusuhan bersyarat; Port tensorflow pix2pix; Tonton presentasi karya ini: Belajar melihat tanpa guru
- WAV2LETTER Facebook AI Research's Otomatis Toolkit Pengenalan Otomatis
- https://github.com/huggingface/transformers state-of-the-art Process bahasa alami untuk TensorFlow 2.0 dan Pytorch
- https://github.com/huggingface/diffusers? Diffusers: Model Difusi Canggih untuk Generasi Gambar dan Audio di Pytorch
- https://bigscience.huggingface.co/blog/bloom Buka model bahasa besar dari BigScience llm. Artikel
- https://github.com/hpcaitech/colossalai artikel
- https://stability.ai/blog/stable-diffusion-public-release difusi stabil adalah model yang dapat menghasilkan gambar berkualitas tinggi dari deskripsi teks singkat. Berikut adalah utas Twitter pendek yang menjelaskan mengapa ini bekerja dengan sangat baik. Dan di sini ada utas yang berisi sumber daya untuk mempelajari lebih lanjut tentang model difusi.
Teknik yang cepat
Model bahasa besar (LLM) seperti GPT-3 sangat kuat, tetapi mereka perlu diminta untuk menghasilkan output yang diinginkan. Di sinilah Prompt Engineering masuk. Prompt Engineering adalah proses merancang petunjuk yang dapat digunakan untuk menghasilkan output yang diinginkan.
- https://github.com/hwchase17/langchain Ini adalah paket Python untuk membangun aplikasi dengan LLM melalui komposabilitas.
- https://dust.tt/ alat berbasis web untuk merancang dan menggunakan aplikasi model bahasa besar.
- https://github.com/jerryjliu/gpt_index GPT Index adalah proyek yang terdiri dari serangkaian struktur data yang dibuat menggunakan LLMS dan dapat dilintasi menggunakan LLMS untuk menjawab kueri.
- https://github.com/xpitfire/symbolicai/ Perpustakaan pemrograman yang dapat dibedakan: Membangun aplikasi dengan llms pada intinya melalui API simbolik kami memanfaatkan kekuatan pemrograman klasik dan berbeda yang dapat dibedakan dalam Python.
Blog & vlog yang bagus untuk diikuti
- https://www.pyimagesearch.com/ Blog yang sering diperbarui tentang Opencv dan Deep Learning
- http://cilah.github.io/ penjelasan yang bagus dengan visualisasi yang indah
- https://karpathy.github.io/ Dia telah mengajar beberapa kursus tentang jaring yang dalam dan dulu bekerja di Tesla sebagai Direktur AI.
- http://ruder.io Sebastian Ruder's Deep Learning and NLP Blog
- http://www.wildml.com/
- https://machinelearningmastery.com/ berisi banyak konten dan situs web yang indah
- Daftar putar YouTube Sirajology banyak pengantar singkat yang lucu untuk ML
- Dua Makalah Dua Menit di Daftar Putar Belajar yang Dalam
- Distill.pub Media Modern untuk Menyajikan Penelitian dalam Pembelajaran Mesin
- Monitor Pembelajaran Deep Deeplearn.org; Berita tentang makalah dan tweet pembelajaran yang mendalam
- Blog Datarevenue tentang MLOPS kebanyakan
- https://www.youtube.com/c/andrejkarpathy Andrej Karparthy membuat saluran YouTube baru setelah ia meninggalkan tim Tesla Autopilot untuk mengajar orang cara menerapkan jaringan saraf dalam gaya "dieja".
- https://e2eml.school/blog.html blog pembelajaran mesin end-to-end yang mencakup banyak topik secara detail misalnya cara kerja Transformers.
- https://jalammar.github.io/ memvisualisasikan pembelajaran mesin satu konsep pada satu waktu. Blognya berisi penjelasan bergambar tentang konsep ML seperti transformator atau difusi stabil.
- Radek Osmulski Blog Dia menulis blog tentang teknik dan strategi DL yang dapat Anda manfaatkan untuk belajar lebih cepat.
Orang yang berdampak
- Geoffrey Hinton, ia telah disebut Godfather of Deep Learning dengan memperkenalkan 2 teknik merevolusi (Relu dan Dropout) dengan murid -muridnya. Teknik -teknik ini menyelesaikan masalah gradien dan generalisasi yang hilang dari jaringan saraf yang dalam.
- Yann Lecun, ia menemukan CNN (Convolutional Neural Networks), jenis jaringan yang sangat populer di kalangan pengembang visi komputer saat ini. Saat ini bekerja di meta.
- Yoshua Bengio another serious professor at Deep Learning, you can watch his TEDx talk here (2017)
- Andrew Ng he discovered that GPUs make deep learning faster. He taught 2 famous online courses, Machine Learning and Deep Learning specialization at Coursera. particular type of RNN)
- Jeff Dean, a Google Brain engineer, watch his TEDx Talk
- Ian Goodfellow, he invented GANs (Generative Adversarial Networks), is an OpenAI engineer
- David Silver this is the guy behind AlphaGo and Artari reinforcement learning game agents at DeepMind
- Demis Hassabis CEO of DeepMind, has given a lot of talks about AlphaGo and Reinforcement Learning achievements they have
- Andrej Karparthy he teaches convnet classes, wrote ConvNetJS, and produces a lot of content for DL community, he also writes a blog (see Nice Blogs & Vlogs to Follow section)
- Pedro Domingos he wrote the book The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World , watch his TEDx talk here
- Emad Mostaque he is the founder of stability.ai, a company that releases many open source AI models including Stable Diffusion
- Sam Altman he is the president of OpenAI, a company that releases ChatGPT
Cutting-Edge Research Publishers
Steal the most recent techniques introduced by smart computer scientists (could be you).
- http://www.arxiv-sanity.com/ Arxiv Sanity Preserver
- https://research.facebook.com/ai/
- http://research.google.com/pubs/MachineIntelligence.html
- https://deepmind.com/research/ Research of DeepMind company
- https://www.openai.com/
- https://www.openai.com/requests-for-research/
- State of the art performance on each ML task
- State-of-the-art result for all Machine Learning Problems
- https://stability.ai/ is releasing a lot of open source high-quality models.
- https://twitter.com/ai__pub AI papers and AI research explained, for technical people.
- https://twitter.com/_akhaliq is a Twitter account that tweets the latest research papers in the field of AI.
Practitioner Community
- https://www.kaggle.com
- https://gym.openai.com
- https://universe.openai.com/
- /r/MachineLearning
- https://www.facebook.com/groups/DeepNetGroup/
Thoughtful Insights for Future Research
- Why AI is Harder Than We Think
- The Consciousness Prior by Yoshua Bengio
- What Can't Deep Learning Do? a list of problems that deep learning faces
- Pedro Domingos: "The Master Algorithm" - Talks at Google
- The AI Revolution: The Road to Superintelligence
- https://ai100.stanford.edu/2016-report
- Why does Deep Learning work so well? - The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe
- These are three of the biggest problems facing today's AI
- Four Questions For: Geoff Hinton Geoff Hinton is referred to as "godfather of neural networks"
- What product breakthroughs will recent advances in deep learning enable? - Quora
- Liquid Neural Networks
Uncategorized
- Artificial Intelligence: A Modern Approach (Online Book)
- The Principles of Modern Game AI
- Scipy Lecture Notes
- https://www.youtube.com/user/aicourses
- The Fundamentals of Neuroscience learn how our brain works so that you can discover new deep learning breakthrough
- Bayesian Methods for Hackers An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of view. All in pure Python ;)
Other Big Lists
- https://github.com/ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide This guide is designated to anybody with basic programming knowledge or a computer science background interested in becoming a Research Scientist with on Deep Learning and NLP.
- https://www.mrdbourke.com/ml-resources/ Machine Learning Courses & Resources recommendation by Daniel Bourke
- List of MLOps Courses and Books by Damien Benveniste on Facebook
- https://github.com/collections/machine-learning
- https://github.com/topics/machine-learning
- https://github.com/topics/mlops
- https://github.com/GokuMohandas/MadeWithML Join 30K+ developers in learning how to responsibly deliver value with ML.
- https://papers.labml.ai/papers/daily
- https://github.com/alirezadir/Production-Level-Deep-Learning
- https://github.com/jindongwang/transferlearning
- https://github.com/kmario23/deep-learning-drizzle
- https://github.com/ZuzooVn/machine-learning-for-software-engineers
- https://github.com/josephmisiti/awesome-machine-learning
- https://github.com/ujjwalkarn/Machine-Learning-Tutorials
- https://github.com/terryum/awesome-deep-learning-papers
- https://github.com/ChristosChristofidis/awesome-deep-learning
- https://github.com/Developer-Y/cs-video-courses#machine-learning
- Deep Learning Resources by Jeremy D. Jackson
- https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap
- https://github.com/aikorea/awesome-rl Awesome Reinforcement Learning
- https://github.com/artix41/awesome-transfer-learning Awesome Transfer Learning
- https://github.com/heejkoo/Awesome-Diffusion-Models Awesome Diffusion Models
- https://github.com/Renumics/awesome-open-data-centric-ai Data-centric AI is the practice of systematically engineering the data used to build AI systems.
- https://github.com/labmlai/annotated_deep_learning_paper_implementations
- https://github.com/ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code
I am confused, too many links, where do I start?
If you are a beginner and want to get started with my suggestions, please read this issue: #4
Penafian
From now on, this list is going to be compact and opinionated towards my own real-world ML journey and I will put only content that I think are truly beneficial for me and most people. All the materials and tools that are not good enough (in any aspect) will be gradually removed to combat information overload, including:
- too difficult materials without much intuition; impractical content
- too much theory without real-world practice
- low-quality and unstructured materials
- courses that I don't consider to enroll myself
- knowledge or tools that are too niche and not many people can use it in their works eg deepdream or unsupervised domain adaptation (because you can Google it if you want to use it in your work).
- tools that are beaten by other tools; not being state-of-the-art anymore
- commercial tools that look like it can die any time soon
- projects that are outdated or not maintained anymore
NOTE : There is no particular rank for each link. The order in which they appear does not convey any meaning and should not be treated differently.
How to contribute to this list
- Fork this repository, then apply your change.
- Make a pull request and tag me if you want.
- Itu saja. If your edition is useful, I'll merge it.
Or you can just submit a new issue containing the resource you want me to include if you don't have time to send a pull request.
The resource you want to include should be free to study.