Unduh machine learning curriculum - Unduh Kode Sumber machine learning curriculum

machine learning curriculum

ular piton

1.0.0

Unduh

Kurikulum Pembelajaran Mesin

Pembelajaran mesin adalah cabang kecerdasan buatan yang didedikasikan untuk membuat mesin belajar dari data pengamatan tanpa diprogram secara eksplisit.

Pembelajaran mesin dan AI tidak sama. Pembelajaran mesin adalah instrumen dalam AI Symphony - komponen AI. Jadi apa itu pembelajaran mesin - atau ML - tepatnya? Ini adalah kemampuan bagi suatu algoritma untuk belajar dari data sebelumnya untuk menghasilkan perilaku. ML adalah mesin pengajaran untuk membuat keputusan dalam situasi yang belum pernah mereka lihat.

Kurikulum ini dibuat untuk memandu Anda belajar pembelajaran mesin, merekomendasikan alat, dan membantu Anda merangkul gaya hidup ML dengan menyarankan media untuk diikuti. Saya memperbaruinya secara teratur untuk menjaga kesegaran dan menyingkirkan konten yang sudah ketinggalan zaman dan alat yang sudah usang.

Pembelajaran mesin secara umum

Pelajari bagian ini untuk memahami konsep -konsep mendasar dan mengembangkan intuisi sebelum menjadi lebih dalam.

Sebuah program komputer dikatakan belajar dari pengalaman E sehubungan dengan beberapa kelas T dan ukuran kinerja P jika kinerjanya pada tugas -tugas di T , yang diukur dengan P , meningkat dengan pengalaman E .

Elemen ai sekelompok kursus mudah yang mengajar AI dan pembelajaran mesin
COMS W4995 Applied Machine Learning Spring 2020 Video dan slide kursus ML terapan dari Columbia University.
Kursus Pembelajaran Mesin Occuppy oleh Fast.ai
Kursus Kecelakaan Pembelajaran Mesin Dengan TensorFlow API Google Puasa dan Praktis Pengantar untuk Pembelajaran Mesin
Intro to Machine Learning - Udacity Hands on Scikit -Learn (Python) Pemrograman Pembelajaran tentang Konsep Inti ML
Pembelajaran Mesin: Diawasi, tidak diawasi & Penguatan - Udacity 2 instruktur itu lucu
Penguasaan Pembelajaran Mesin Disetel dengan cermat
Spesialisasi Andrew Ng di Coursera yang direkomendasikan untuk orang -orang yang ingin mengetahui detail algoritma ML di bawah tenda, memahami matematika yang cukup untuk menjadi berbahaya dan melakukan penugasan pengkodean di Python
Resep ML - Daftar Putar YouTube Sebuah konten konkret yang dapat dirancang dengan sangat baik untuk Pendahuluan ML
Pembelajaran Mesin Adalah Fun Part 1 Pendekatan Sederhana untuk Pembelajaran Mesin untuk Orang Non-Math
Pembelajaran Mesin dengan Python - Daftar Putar YouTube
Pembelajaran Mesin Kerinduan oleh Andrew Ng
Mendaratkan Pekerjaan Data: Kursus ini merupakan pedoman yang berpendapat dan praktis bagi orang -orang yang ingin fokus pada pendaratan pekerjaan. Misalnya, mereka menyarankan bahwa mengetahui cara kerja pohon keputusan sudah cukup baik, Anda tidak perlu tahu bagaimana semua model bekerja, yang benar! Tetapi saran ini sebagian besar untuk data tabel.
Pembelajaran Mesin Tanpa Server Bangun Layanan Prediksi Tanpa Server Machine Learning Anda sendiri
MLOPS Efektif: Pengembangan Model Kursus gratis berdasarkan bobot & bias dengan sertifikasi
Matematika untuk Pembelajaran Mesin dan Kursus Matematika Spesialisasi Ilmu Data oleh Coursera

Buku

Pembelajaran mesin dengan pytorch dan scikit-learn oleh Sebastian Raschka
Pembelajaran mesin langsung dengan scikit-learn, keras, dan tensorflow, edisi ke-2 oleh Aurélien Géron adalah buku terlaris karena itu bagus.
https://github.com/fastai/fastbook buku fastai, diterbitkan sebagai jupyter notebooks
https://www.deeeplearningbook.org/ Matematika Buku Berat Oleh Ian Goodfellow dan Yoshua Bengio dan Aaron Courville
https://christophm.github.io/interpretable-ml-book/ panduan untuk membuat model kotak hitam bisa dijelaskan
https://themlbook.com/ Buku Pembelajaran Mesin Seratus Pangkalan Oleh Andriy Burkov

Pembelajaran Penguatan

Membangun mesin yang merasakan lingkungan dan kemudian memilih kebijakan (tindakan) terbaik untuk dilakukan di negara bagian mana pun untuk memaksimalkan hadiah skalar jangka panjang yang diharapkan adalah tujuan pembelajaran penguatan.

Openai Spinning Up Ini adalah sumber daya pendidikan yang diproduksi oleh Openai yang membuatnya lebih mudah untuk belajar tentang pembelajaran penguatan yang dalam (Deep RL).
Pembelajaran Penguatan Dasar Seri Pengantar untuk Penguatan Pembelajaran (RL) dengan tutorial langkah demi langkah yang komprehensif.
Topik Lanjutan: RL 2015 (COMPM050/COMPGI13) oleh David Silver (pria di belakang Alphago)
Buku Pendahuluan oleh Richard S. Sutton dan Andrew G. Barto
Pembelajaran Penguatan yang mendalam: pong dari piksel
Kuliah 10: Pembelajaran Penguatan - YouTube
Makalah survei
Pembelajaran Penguatan Deep: Tutorial - OpenAi
CS 294: Pembelajaran Penguatan Deep, Musim Semi 2017

Pembelajaran yang mendalam

Deep Learning adalah cabang pembelajaran mesin di mana jaringan saraf buatan (DNN) - algoritma yang terinspirasi oleh cara neuron bekerja di otak - menemukan pola dalam data mentah dengan menggabungkan beberapa lapisan neuron buatan. Ketika lapisan meningkat, demikian juga kemampuan jaringan saraf untuk mempelajari konsep yang semakin abstrak.

Jenis DNN paling sederhana adalah multilayer perceptron (MLP).

The Little Book of Deep Learning Buku ini adalah pengantar singkat untuk pembelajaran mendalam bagi pembaca dengan latar belakang STEM, yang awalnya dirancang untuk dibaca di layar telepon. Ini didistribusikan di bawah lisensi Creative Commons non-komersial dan diunduh hampir 250.000 kali dalam sebulan setelah rilis publik.
Tumpukan penuh pembelajaran mendalam belajar pembelajaran tingkat produksi dari para praktisi terkemuka
Deeplearning.ai sekelompok kursus yang diajarkan oleh Andrew ng di Coursera; Ini adalah sekuel kursus pembelajaran mesin di Coursera.
Intro ke Deep Learning dengan Pytorch A Course oleh Facebook AI on Udacity
Pengantar yang ramah untuk Jaringan Pembelajaran Deep and Neural
Tinker taman bermain jaringan saraf dengan jaringan saraf sederhana yang dirancang untuk membantu Anda memvisualisasikan proses pembelajaran
Pembelajaran mendalam Demystified - YouTube Jelaskan inspirasi pembelajaran mendalam dari neuron nyata ke jaringan saraf buatan
Pelajari TensorFlow dan Deep Learning, tanpa Ph.D. Kursus 3 jam ini (Video + Slide) ini menawarkan pengantar cepat untuk fundamental pembelajaran dalam, dengan beberapa TensorFlow dilemparkan ke tawar-menawar.
Panduan untuk Pembelajaran mendalam oleh Yn^2 Panduan Matematika yang Dikuratori untuk Pembelajaran yang mendalam
Kursus Pembelajaran Deep Praktis untuk Coders di Fast.ai yang Diajarkan oleh Jeremy Howard (pesaing #1 Kaggle 2 tahun berjalan, dan pendiri Enlitic)
Pembelajaran mendalam - Udacity yang direkomendasikan untuk pelajar visual yang tahu beberapa ML, kursus ini memberikan ide -ide level tinggi pembelajaran mendalam, detail intuitif padat yang dimasukkan dalam waktu singkat, Anda akan menggunakan TensorFlow di dalam kursus
Sekolah Musim Panas Pembelajaran Depat, Montreal 2015
Kelas Neural Networks - Daftar Putar YouTube
http://neuralnetworksanddeeplearning.com/index.html Buku online langsung untuk intuisi matematika pembelajaran yang mendalam, saya dapat mengatakan bahwa setelah Anda menyelesaikan ini, Anda akan dapat menjelaskan pembelajaran yang mendalam dengan detail yang baik.
Kebun Binatang Jaringan Saraf Banyak model jaringan saraf yang harus Anda ketahui (saya tahu tentang setengahnya jadi jangan khawatir bahwa Anda tidak tahu banyak karena kebanyakan dari mereka tidak populer atau berguna di masa kini)
Intro ke TensorFlow untuk pembelajaran mendalam yang diajarkan di Udacity
Primer • AI Berikut adalah pilihan artikel yang dipetik dengan tangan tentang fundamental/konsep AI yang mencakup seluruh proses membangun jaring saraf untuk melatih mereka untuk mengevaluasi hasil. Ada juga penjelasan arsitektur transformator yang sangat rinci.
Model Difusi Wajah Memeluk Kursus mempelajari teori, melatih model dari awal, dan menggunakannya untuk menghasilkan gambar dan audio.
Dasar -dasar Pembelajaran Depat oleh Lightning.ai dengan Sebastian Raschka

Jaringan saraf konvolusional

DNN yang bekerja dengan data grid seperti bentuk gelombang suara, gambar dan video lebih baik daripada DNN biasa. Mereka didasarkan pada asumsi bahwa unit input terdekat lebih terkait daripada unit yang jauh. Mereka juga menggunakan invarian terjemahan. Misalnya, diberi gambar, mungkin berguna untuk mendeteksi jenis tepi yang sama di mana -mana pada gambar. Mereka kadang -kadang disebut konvnet atau CNNs .

Bagaimana Kerja Jaringan Saraf Convolutional - Penjelasan Teknis YouTube Termasuk Operasi Pooling, Relu, Lapisan Terhubung Sepenuhnya, Optimalisasi Menggunakan Keturunan Gradient
Jaringan saraf yang mengubah segalanya - ComputerPhile
Panduan Pemula untuk Memahami Jaringan Saraf Konvolusional
Pembelajaran yang mendalam untuk visi komputer (Andrej Karparthy, Openai) Ini adalah video convolutional net saya yang paling favorit. Andrej menjelaskan Convnet secara detail menjawab semua pertanyaan aneh yang mungkin dimiliki seseorang. Misalnya, sebagian besar artikel hanya berbicara tentang konvolusi dalam gambar skala abu -abu, tetapi ia menjelaskan konvolusi dalam gambar dengan saluran warna juga. Dia juga berbicara tentang kekhawatiran dan asumsi yang dilakukan Convnets. Ini adalah kuliah yang bagus!
Memahami jaringan saraf melalui visualisasi yang mendalam menjelaskan cara memvisualisasikan konvnet menggunakan berbagai teknik

Jaringan saraf berulang

DNN yang memiliki negara bagian. Mereka juga memahami urutan yang panjangnya bervariasi. Mereka kadang -kadang disebut RNN .

http://karpathy.github.io/2015/05/21/rnn-effectivity/
http://cilah.github.io/posts/2015-08-understanding-lstms/
http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-trnns/

Praktik terbaik

Aturan Pembelajaran Mesin: Praktik Terbaik Untuk Rekayasa ML Ini adalah dokumen oleh Martin Zinkevich tentang praktik terbaik Google dalam pembelajaran mesin.
Resep untuk melatih jaringan saraf Andrej's BlogPost tentang cara melatih diri Anda untuk menjadi insinyur pembelajaran mesin paranoid.
Cara men -debug jaringan saraf. Manual.
Tinjauan Algoritma Optimalisasi Keturunan Gradien
Deep Learning Tuning Playbook Sebuah buku pedoman untuk secara sistematis memaksimalkan kinerja model pembelajaran yang mendalam.

Peralatan

Perpustakaan dan kerangka kerja yang berguna untuk pembelajaran mesin praktis

Kerangka kerja

Blok bangunan pembeli mesin

Perpustakaan Pembelajaran Mesin Umum Scikit-Learn, Abstraksi Tingkat Tinggi, Disesuaikan untuk Pemula
Tensorflow; Tensorflow yang luar biasa; Kerangka kerja grafik komputasi yang dibangun oleh Google, memiliki papan visualisasi yang bagus, mungkin kerangka kerja paling populer saat ini untuk melakukan pembelajaran yang mendalam
Keras: Pembelajaran yang mendalam untuk manusia Keras adalah API pembelajaran mendalam yang ditulis dalam Python, berjalan di atas TensorFlow. Ini masih raja abstraksi tingkat tinggi untuk pembelajaran yang mendalam. UPDATE: Keras sekarang tersedia untuk TensorFlow, Jax dan Pytorch!
Tensor Pytorch dan jaringan saraf dinamis di Python dengan akselerasi GPU yang kuat. Ini biasa digunakan oleh peneliti mutakhir termasuk Openai.
Petir kerangka belajar yang mendalam untuk melatih, menggunakan, dan mengirimkan produk AI dengan cepat. (Dulu disebut Pytorch Lightning)
Jax adalah Autograd dan XLA, disatukan untuk penelitian pembelajaran mesin berkinerja tinggi.
OneFlow adalah kerangka pembelajaran yang mendalam yang dirancang untuk menjadi ramah pengguna, dapat diskalakan dan efisien.
Apache MXNET (Inkubasi) untuk pembelajaran mendalam Apache MXNET adalah kerangka pembelajaran mendalam yang dirancang untuk efisiensi dan fleksibilitas. Ini memungkinkan Anda untuk mencampur pemrograman simbolik dan imperatif untuk memaksimalkan efisiensi dan produktivitas.
Chainer Kerangka kerja yang fleksibel dari jaringan saraf untuk pembelajaran yang mendalam
VowPal Wabbit adalah sistem pembelajaran mesin yang mendorong perbatasan pembelajaran mesin dengan teknik seperti online, hashing, allreduce, pengurangan, pembelajaran2Search, aktif, dan pembelajaran interaktif. Ada fokus khusus pada pembelajaran penguatan dengan beberapa algoritma bandit kontekstual yang diimplementasikan dan pinjaman sifat online untuk masalah dengan baik.
H2O adalah platform dalam memori untuk pembelajaran mesin yang didistribusikan dan dapat diskalakan.
Jaringan saraf grafik spektral dengan keras dan tensorflow 2.
Ivy adalah transpiler ML dan kerangka kerja, saat ini mendukung Jax, Tensorflow, Pytorch dan Numpy. Ivy menyatukan semua kerangka kerja ML? Mengaktifkan Anda tidak hanya untuk menulis kode yang dapat digunakan dengan kerangka kerja ini sebagai backend, tetapi juga untuk mengonversi fungsi, model atau perpustakaan apa pun yang ditulis di salah satu dari mereka ke kerangka kerja pilihan Anda!

Tidak ada pengkodean

Ludwig Ludwig adalah kotak alat yang memungkinkan pengguna untuk melatih dan menguji model pembelajaran yang mendalam tanpa perlu menulis kode. Dibangun di atas TensorFlow.

Meningkatkan gradien

Model yang banyak digunakan dalam kompetisi karena kinerja generalisasi yang luar biasa.

https://github.com/dmlc/xgboost gradien ekstrim boostting
https://github.com/microsoft/lightgbm alternatif ringan dibandingkan dengan xgboost
https://github.com/catboost/catboost gradien cepat, scalable, dan meningkatkan kinerja di perpustakaan pohon keputusan, digunakan untuk peringkat, klasifikasi, regresi, dan tugas pembelajaran mesin lainnya untuk Python, R, Java, C ++. Mendukung perhitungan pada CPU dan GPU.
https://github.com/tensorflow/decision-forests Tensorflow Decision Forests (TF-DF) adalah kumpulan algoritma canggih untuk pelatihan, melayani dan interpretasi model hutan keputusan.
Pytorch/TensorFlow Implementasi kertas tabnet. Baca Lebih Lanjut: Tabnet Saldes Penjelasan dan Kinerja Model pada Data Tabular, tetapi dapatkah itu mencabut model pohon yang ditingkatkan?

Inferensi deret waktu

Data deret waktu memerlukan proses ekstraksi fitur unik agar mereka dapat digunakan di sebagian besar model pembelajaran mesin karena sebagian besar model memerlukan data untuk berada dalam format tabel. Atau Anda dapat menggunakan arsitektur model khusus yang menargetkan seri waktu misalnya LSTM, TCN, dll.

https://github.com/Timeseriesai/tsai Time Series Timeseries Deep Learning Pytorch Fastai-Pembelajaran mendalam canggih dengan seri waktu dan sekuens di Pytorch/Fastai. Bacaan lebih lanjut: Tsai - Pembelajaran Mesin Seni State for Time Series, Bagian 1.
https://github.com/alan-turing-institute/sktime Kerangka kerja terpadu untuk pembelajaran mesin dengan seri waktu
https://github.com/sktime/sktime-dl paket ekstensi untuk pembelajaran mendalam dengan tensorflow/keras untuk sktime
https://github.com/tslearne-team/tslearn/ toolkit pembelajaran mesin yang didedikasikan untuk data staf-time
https://github.com/blue-honder/tsfresh ekstraksi otomatis fitur yang relevan dari seri waktu
https://github.com/johannfaouzi/pyts paket python untuk klasifikasi seri waktu
https://github.com/facebook/prophet Tool untuk menghasilkan perkiraan berkualitas tinggi untuk data seri waktu yang memiliki musiman berganda dengan pertumbuhan linier atau non-linear.
https://github.com/philipperemy/keras-tcn keras jaringan konvolusional temporal
Roket: Klasifikasi seri waktu yang sangat cepat dan akurat menggunakan kernel konvolusional acak; Minirocket: Transformasi deterministik yang sangat cepat (hampir) untuk klasifikasi seri waktu; 2 teknik ini adalah untuk mengekstraksi fitur seri waktu. Baca lebih lanjut: Rocket: Klasifikasi Seri Waktu Cepat dan Akurat

Siklus hidup

Perpustakaan yang membantu Anda mengembangkan/men -debug/menggunakan model dalam produksi (MLOPS). Ada lebih banyak untuk ML daripada melatih model.

https://huggingface.co/ Sama seperti GitHub, tetapi untuk menyimpan model ML, dataset, dan aplikasi (mereka menyebut aplikasi sebagai spasi). Mereka memiliki perpustakaan untuk Anda menggunakan model/kumpulan data mereka dengan mudah dalam kode Anda. Penyimpanan gratis dan tidak terbatas untuk proyek publik dan pribadi.
https://wandb.ai/ membangun model yang lebih baik lebih cepat dengan pelacakan eksperimen, versi dataset, dan manajemen model
https://github.com/flyteorg/flyte flyte memudahkan untuk membuat alur kerja yang bersamaan, dapat diskalakan, dan dapat dipelihara untuk pembelajaran mesin dan pemrosesan data.
https://github.com/allegroai/clearml rangkaian alat-magis otomatis untuk merampingkan alur kerja ML Anda. Manajer Eksperimen, ML-OPS dan Manajemen Data
https://github.com/quantumblacklabs/kedro kerangka kerja Python untuk membuat kode sains data yang dapat direproduksi, dapat dipelihara, dan modular.
https://github.com/determined-ai/Determined ditentukan adalah platform pelatihan pembelajaran mendalam sumber terbuka yang membuat model bangunan cepat dan mudah. Saya menggunakannya terutama untuk menyetel hiperparameter.
https://github.com/iterative/CML Continuous Machine Learning (CML) adalah perpustakaan open-source untuk mengimplementasikan integrasi & pengiriman kontinu (CI/CD) dalam proyek pembelajaran mesin. Gunakan untuk mengotomatisasi bagian alur kerja pengembangan Anda, termasuk pelatihan dan evaluasi model, membandingkan eksperimen ML di seluruh riwayat proyek Anda, dan memantau perubahan set data.
https://github.com/creme-ml/creme python library untuk pembelajaran mesin online . Semua alat di perpustakaan dapat diperbarui dengan satu pengamatan sekaligus, dan karenanya dapat digunakan untuk belajar dari data streaming.
https://github.com/aimhubio/aim cara super-mudah untuk merekam, mencari dan membandingkan 1000-an pelatihan ML berjalan
https://github.com/netflix/metaflow Metaflow adalah perpustakaan Python yang ramah manusia yang membantu para ilmuwan dan insinyur membangun dan mengelola proyek ilmu data kehidupan nyata. Metaflow awalnya dikembangkan di Netflix.
MLFLOW MLFLOW (saat ini dalam beta) adalah platform open source untuk mengelola siklus hidup ML, termasuk eksperimen, reproduktifitas dan penyebaran. Saat ini menawarkan tiga komponen: pelacakan MLFLOW, proyek MLFLOW, model MLFLOW.
Floydhub A Heroku untuk Pembelajaran yang mendalam (Anda fokus pada model, mereka akan digunakan)
Comet.ml Comet memungkinkan para ilmuwan dan tim data untuk melacak, membandingkan, menjelaskan, dan mengoptimalkan eksperimen dan model di seluruh siklus hidup model. Dari pelatihan hingga produksi
https://neptune.ai/ Kelola semua metadata bangunan model Anda di satu tempat
https://github.com/fastai/nbdev membuat proyek python yang menyenangkan menggunakan jupyter notebooks
https://rapids.ai/ Ilmu data di GPU
https://github.com/datarevenue-berlin/openmlops
https://github.com/jacopotagliabue/you-dont-need-a-bigger-boat tidak benar-benar alat, tetapi panduan tentang cara menyusun banyak alat bersama dalam bisnis skala yang masuk akal dunia nyata.
https://www.modular.com/ Perusahaan dengan tujuan ambisius untuk mendesain ulang infrastruktur AI dari bawah ke atas. Mereka memperkenalkan bahasa baru yang disebut Mojo yang merupakan superset Python.

Cloud GPU

Ingatlah bahwa ini adalah daftar yang bertentangan. Ada Bazillions penyedia cloud di luar sana. Saya tidak akan mencantumkan semuanya. Saya hanya akan membuat daftar orang -orang yang saya kenal dan saya pikir baik.

https://lightning.ai/ Lightning Studio memungkinkan Anda untuk membuang laptop kelas atas untuk mengembangkan model pembelajaran mesin. Cukup tulis kode di cloud menggunakan vscode dan gunakan GPU mereka untuk pelatihan atau inferensi. Lightning Studio mirip dengan github codespaces tetapi dengan GPU.
https://modal.com/ Modal memungkinkan Anda menjalankan atau menggunakan model pembelajaran mesin, pekerjaan komputasi paralel yang besar, antrian tugas, aplikasi web, dan banyak lagi, tanpa infrastruktur Anda sendiri.
https://www.runpod.io/ hemat lebih dari 80% di GPU. Sewa GPU menjadi mudah dengan Jupyter untuk Pytorch, TensorFlow atau kerangka kerja AI lainnya. Saya sudah menggunakannya sebelumnya. Cukup mudah digunakan.
https://replicate.com/ run dan fine-tune model open-source. Menyebarkan model khusus pada skala menggunakan COG. Semua dengan satu baris kode.
https://bentoml.com/ Bentoml adalah platform bagi insinyur perangkat lunak untuk membangun produk AI. Menyebarkan menggunakan paket bentoml.
https://www.baseten.co/ inferensi model cepat dan terukur di cloud menggunakan truss
https://lambdalabs.com/ cloud GPU dibangun untuk pembelajaran mendalam. Akses instan ke harga terbaik untuk Cloud GPU di pasaran. Tidak ada komitmen atau negosiasi yang diperlukan. Hemat lebih dari 73% vs AWS, Azure, dan GCP. Dikonfigurasi untuk pembelajaran mendalam dengan pytorch, tensorflow, jupyter
https://www.beam.cloud/ On-Demand GPU Compute: Latih dan Menyebarkan Aplikasi AI dan LLM dengan aman pada GPU tanpa server, tanpa mengelola infrastruktur

Penyimpanan data

https://github.com/huggingface/datasets/ Paket untuk memuat, preprocessing dan berbagi set data.
https://github.com/activeloopai/deeplake Data Lake untuk pembelajaran mendalam. Bangun, Kelola, Permintaan, Versi, & Visualisasikan Dataset. Streaming data waktu nyata ke pytorch/tensorflow.
https://github.com/determined-ai/yogadl pendekatan yang lebih baik untuk pemuatan data untuk pembelajaran mendalam. Caching Api-Transparent to Disk, GCS, atau S3.
https://github.com/google/ml_collections ML Collections adalah perpustakaan koleksi Python yang dirancang untuk kasing penggunaan ML. Ini berisi ConfigDict, struktur data "seperti dikt" dengan akses titik ke elemen bersarang. Seharusnya digunakan sebagai cara utama untuk mengekspresikan konfigurasi eksperimen dan model.

Perselisihan data

Pembersihan data dan augmentasi data

https://github.com/cgnorthcutt/cleanlab kesalahan pelabelan bersih dari dataset
https://github.com/aleju/imgaug Image augmentation Library yang mendukung konversi keypoints menjadi heatmaps
https://github.com/albu/albumentations Library augmentasi gambar tercepat
https://github.com/mdbloice/augmentor augmentation gambar yang mudah digunakan untuk tugas klasifikasi (tidak dapat menambah keypoints)
https://github.com/faceBookresearch/augly perpustakaan augmentasi data untuk audio, gambar, teks, dan video.

Orkestrasi Data

https://github.com/prefecthq/prefect
https://github.com/dagster-io/dagster
https://github.com/ploomber/ploomber ploomber adalah cara tercepat untuk membangun pipa data ⚡️. Gunakan editor favorit Anda (Jupyter, VScode, Pycharm) untuk mengembangkan secara interaktif dan menggunakan ☁️ tanpa perubahan kode (Kubernetes, Airflow, AWS Batch, dan Slurm).
https://github.com/orchest/orchest membangun pipa data, cara mudah menggunakan UI yang ramah pengguna

Visualisasi Data

https://github.com/gradio-app/gradio Buat UI untuk model pembelajaran mesin Anda di Python dalam 3 menit. UI adalah aplikasi web yang dapat dibagikan kepada siapa pun, bahkan orang-orang non-teknis. Salah satu fitur yang saya sukai adalah komponen contoh. Ini menunjukkan kepada Anda dengan sangat baik bahwa aplikasi ini untuk kasus penggunaan pembelajaran mesin.
https://github.com/streamlit/streamlit streamlit mengubah skrip data menjadi aplikasi web yang dapat dibagikan dalam hitungan menit. Semua dalam Python. Semuanya gratis. Tidak diperlukan pengalaman front -end.
https://github.com/oegedijk/explainerdashboard dengan cepat membangun dasbor AI yang dapat dijelaskan yang menunjukkan cara kerja dalam model pembelajaran mesin yang disebut "BlackBox".
https://github.com/lux-org/lux hanya dengan mencetak DataFrame dalam buku catatan Jupyter, Lux merekomendasikan serangkaian visualisasi yang menyoroti tren dan pola yang menarik dalam dataset.
https://github.com/slundberg/shap shap (penjelasan aditif shapley) adalah pendekatan teoretis game untuk menjelaskan output dari model pembelajaran mesin apa pun.
https://github.com/comet-ml/kangas kangas adalah alat untuk mengeksplorasi, menganalisis, dan memvisualisasikan data multimedia skala besar. Ini memberikan API Python langsung untuk mencatat tabel data besar, bersama dengan antarmuka visual yang intuitif untuk melakukan kueri kompleks terhadap dataset Anda.

Penyetelan hiperparameter

Sebelum Anda mulai, silakan baca posting blog ini untuk memahami motivasi pencarian secara umum: https://www.determined.ai/blog/stop-doing-iterative-model-development

Buka mata Anda untuk pengembangan yang digerakkan oleh pencarian. Itu akan mengubah Anda. Manfaat utama adalah bahwa tidak akan ada kemunduran. Hanya kemajuan dan peningkatan yang diizinkan. Bayangkan bekerja dan berkembang setiap hari, alih -alih mundur ke belakang karena solusi baru Anda tidak berhasil. Kemajuan yang dijamin inilah yang akan dilakukan oleh pengembangan yang digerakkan oleh pencarian kepada Anda. Oleskan ke segala sesuatu dalam optimasi, bukan hanya pembelajaran mesin.

Preferensi utama saya ditentukan, ray tune, dan optuna karena paralelisasi (tuning terdistribusi pada banyak mesin), fleksibilitas (dapat mengoptimalkan tujuan sewenang -wenang dan memungkinkan parameter dataset untuk disetel), perpustakaan/algoritma tutorial (EG Hyperband, BOHB, TPE, PBT, PBT.

https://github.com/determined-ai/Determined ditentukan adalah platform pelatihan pembelajaran mendalam sumber terbuka yang membuat model bangunan cepat dan mudah. IMO, yang terbaik untuk menghitung dengan murah model pembelajaran yang mendalam karena akan melatih banyak zaman pada model yang memiliki metrik yang menjanjikan dan model stop awal yang tidak. Mereka mendukung AWS dan sebagian besar layanan cloud sebagai warga negara kelas satu. Mereka juga mendukung instance preemptible , yang sekali lagi, murah. Saat Anda menyelesaikan pelatihan, semua instance GPU secara otomatis ditutup. Jika Anda ingin menghemat uang untuk pelatihan skala besar, lanjutkan dengan tekad.
https://docs.ray.io/en/master/tune/index.html ray tune adalah perpustakaan Python untuk eksekusi percobaan dan penyetelan hiperparameter pada skala apa pun. Jika Anda mencari tuning terdistribusi, Ray Tune mungkin adalah kerangka kerja paling serius di luar sana.
https://github.com/optuna/optuna Kerangka perangkat lunak optimasi hiperparameter otomatis (Framework Agnostik, define-by-run)
https://github.com/pyhopper/pyhopper pyhopper adalah pengoptimal hiperparameter, dibuat khusus untuk masalah dimensi tinggi yang timbul dalam penelitian pembelajaran mesin dan bisnis. Orang ini mengklaim bahwa ini 10x lebih cepat dari Optuna. Apakah klaim ini benar? Kami tidak bisa tahu sampai kami mencoba!
https://github.com/keras-team/keras-tuner Optimalisasi hiperparameter yang mudah digunakan dan terdistribusi untuk keras; Baca artikelnya di sini
https://github.com/autonomio/talos Hyperparameter Optimization untuk keras, tensorflow (tf.keras) dan pytorch
https://github.com/maxpumperla/hyperas keras + hyperopt: pembungkus yang sangat sederhana untuk optimasi hiperparameter yang nyaman
https://github.com/fmfn/bayesianoptimization Implementasi Python dari optimasi global dengan proses Gaussian.
https://github.com/hyperopt/hyperopt
https://github.com/msu-coinlab/pymoo optimasi multi-objektif dalam python
https://github.com/google/vizier Open Source Vizier: Optimalisasi Black-Box yang andal dan fleksibel. OSS Vizier adalah layanan berbasis Python untuk optimasi dan penelitian kotak hitam, berdasarkan Google Vizier, salah satu layanan tuning hyperparameter pertama yang dirancang untuk bekerja pada skala.

Automl

Buat mesin belajar tanpa tugas yang membosankan dari rekayasa fitur, pemilihan model, dan penyetelan hiperparameter yang harus Anda lakukan sendiri. Biarkan mesin melakukan pembelajaran mesin untuk Anda!

Secara pribadi jika saya memiliki dataset tabular, saya akan mencoba flaml dan mljar terlebih dahulu, terutama jika Anda ingin membuat sesuatu bekerja dengan cepat. Jika Anda ingin mencoba kerangka kerja meningkatkan gradien seperti XGBoost, LightGBM, Catboost, dll tetapi Anda tidak tahu mana yang paling cocok, saya sarankan Anda untuk mencoba Automl terlebih dahulu karena secara internal itu akan mencoba kerangka kerja meningkatkan gradien yang disebutkan sebelumnya.

Kerangka OpenSource Automl Terbaik pada tahun 2021 Sebuah artikel tentang medium yang berisi daftar kerangka kerja OpenSource Automl yang dikuratori.
https://github.com/dabl/dabl Analisis Data Baseline Library; Latih dengan cepat model sederhana untuk digunakan sebagai garis dasar kinerja
https://www.automl.org/ temukan daftar pustaka dan penelitian automl yang dikuratori
https://github.com/jhfjhfj1/autokeras saat menulis (24 Agustus 2018), perpustakaan ini cukup prematur karena hanya dapat melakukan klasifikasi.
https://github.com/automl/auto-sklearn/ tidak berjalan di windows, Anda perlu menginstal wsl (subsistem windows untuk linux) untuk menggunakannya
https://github.com/epistasislab/tpot menjalankan ribuan pipa pembelajaran mesin dan mengeluarkan kode untuk Anda
https://github.com/climbsrocks/auto_ml Baca apa yang penulis pikirkan tentang perbandingan antara TPOT dan Auto-SkLearn
https://github.com/microsoft/flaml Fast and Lightweight Automl dengan algoritma optimasi ekonomis yang hemat biaya.
https://github.com/mljar/mljar-supervised paket python pembelajaran mesin otomatis yang berfungsi dengan data tabel. Saya suka itu menghasilkan laporan visualisasi (dalam mode menjelaskan) dan fitur tambahan untuk Anda misalnya fitur emas dan fitur K-Means.
https://github.com/awslabs/autogluon automl untuk teks, gambar, dan data tabel. Tapi itu tidak mendukung Windows (per 11 Oktober 2021).
https://github.com/autoviml/auto_viml auto_viml dirancang untuk membangun model yang dapat ditafsirkan dengan kinerja tinggi dengan variabel paling sedikit yang diperlukan.

Arsitektur model

Arsitektur yang canggih di bidangnya.

https://github.com/rwightman/pytorch-image-models Model gambar pytorch, skrip, bobot pretrained-resnet, resnext, efisiensi, lebih efisienNetv2, nfnet, vision transformer, mixnet, mobileNet-v3/v2, regnet, dpn, dpn, dpn, dpn, dpn, dpn, dpn, dpn, dpn, cpn, cpn, cpnet, cps. Ini biasanya disebut timm .
https://modelzoo.co/ Model Zoo
https://github.com/tensorflow/models
Magenta: Musik dan generasi seni dengan kecerdasan mesin
https://github.com/phillipi/pix2pix gambar-ke-image terjemahan menggunakan jaring permusuhan bersyarat; Port tensorflow pix2pix; Tonton presentasi karya ini: Belajar melihat tanpa guru
WAV2LETTER Facebook AI Research's Otomatis Toolkit Pengenalan Otomatis
https://github.com/huggingface/transformers state-of-the-art Process bahasa alami untuk TensorFlow 2.0 dan Pytorch
https://github.com/huggingface/diffusers? Diffusers: Model Difusi Canggih untuk Generasi Gambar dan Audio di Pytorch
https://bigscience.huggingface.co/blog/bloom Buka model bahasa besar dari BigScience llm. Artikel
https://github.com/hpcaitech/colossalai artikel
https://stability.ai/blog/stable-diffusion-public-release difusi stabil adalah model yang dapat menghasilkan gambar berkualitas tinggi dari deskripsi teks singkat. Berikut adalah utas Twitter pendek yang menjelaskan mengapa ini bekerja dengan sangat baik. Dan di sini ada utas yang berisi sumber daya untuk mempelajari lebih lanjut tentang model difusi.

Teknik yang cepat

Model bahasa besar (LLM) seperti GPT-3 sangat kuat, tetapi mereka perlu diminta untuk menghasilkan output yang diinginkan. Di sinilah Prompt Engineering masuk. Prompt Engineering adalah proses merancang petunjuk yang dapat digunakan untuk menghasilkan output yang diinginkan.

https://github.com/hwchase17/langchain Ini adalah paket Python untuk membangun aplikasi dengan LLM melalui komposabilitas.
https://dust.tt/ alat berbasis web untuk merancang dan menggunakan aplikasi model bahasa besar.
https://github.com/jerryjliu/gpt_index GPT Index adalah proyek yang terdiri dari serangkaian struktur data yang dibuat menggunakan LLMS dan dapat dilintasi menggunakan LLMS untuk menjawab kueri.
https://github.com/xpitfire/symbolicai/ Perpustakaan pemrograman yang dapat dibedakan: Membangun aplikasi dengan llms pada intinya melalui API simbolik kami memanfaatkan kekuatan pemrograman klasik dan berbeda yang dapat dibedakan dalam Python.

Blog & vlog yang bagus untuk diikuti

https://www.pyimagesearch.com/ Blog yang sering diperbarui tentang Opencv dan Deep Learning
http://cilah.github.io/ penjelasan yang bagus dengan visualisasi yang indah
https://karpathy.github.io/ Dia telah mengajar beberapa kursus tentang jaring yang dalam dan dulu bekerja di Tesla sebagai Direktur AI.
http://ruder.io Sebastian Ruder's Deep Learning and NLP Blog
http://www.wildml.com/
https://machinelearningmastery.com/ berisi banyak konten dan situs web yang indah
Daftar putar YouTube Sirajology banyak pengantar singkat yang lucu untuk ML
Dua Makalah Dua Menit di Daftar Putar Belajar yang Dalam
Distill.pub Media Modern untuk Menyajikan Penelitian dalam Pembelajaran Mesin
Monitor Pembelajaran Deep Deeplearn.org; Berita tentang makalah dan tweet pembelajaran yang mendalam
Blog Datarevenue tentang MLOPS kebanyakan
https://www.youtube.com/c/andrejkarpathy Andrej Karparthy membuat saluran YouTube baru setelah ia meninggalkan tim Tesla Autopilot untuk mengajar orang cara menerapkan jaringan saraf dalam gaya "dieja".
https://e2eml.school/blog.html blog pembelajaran mesin end-to-end yang mencakup banyak topik secara detail misalnya cara kerja Transformers.
https://jalammar.github.io/ memvisualisasikan pembelajaran mesin satu konsep pada satu waktu. Blognya berisi penjelasan bergambar tentang konsep ML seperti transformator atau difusi stabil.
Radek Osmulski Blog Dia menulis blog tentang teknik dan strategi DL yang dapat Anda manfaatkan untuk belajar lebih cepat.

Orang yang berdampak

Geoffrey Hinton, ia telah disebut Godfather of Deep Learning dengan memperkenalkan 2 teknik merevolusi (Relu dan Dropout) dengan murid -muridnya. Teknik -teknik ini menyelesaikan masalah gradien dan generalisasi yang hilang dari jaringan saraf yang dalam.
Yann Lecun, ia menemukan CNN (Convolutional Neural Networks), jenis jaringan yang sangat populer di kalangan pengembang visi komputer saat ini. Saat ini bekerja di meta.
Yoshua Bengio another serious professor at Deep Learning, you can watch his TEDx talk here (2017)
Andrew Ng he discovered that GPUs make deep learning faster. He taught 2 famous online courses, Machine Learning and Deep Learning specialization at Coursera. particular type of RNN)
Jeff Dean, a Google Brain engineer, watch his TEDx Talk
Ian Goodfellow, he invented GANs (Generative Adversarial Networks), is an OpenAI engineer
David Silver this is the guy behind AlphaGo and Artari reinforcement learning game agents at DeepMind
Demis Hassabis CEO of DeepMind, has given a lot of talks about AlphaGo and Reinforcement Learning achievements they have
Andrej Karparthy he teaches convnet classes, wrote ConvNetJS, and produces a lot of content for DL community, he also writes a blog (see Nice Blogs & Vlogs to Follow section)
Pedro Domingos he wrote the book The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World , watch his TEDx talk here
Emad Mostaque he is the founder of stability.ai, a company that releases many open source AI models including Stable Diffusion
Sam Altman he is the president of OpenAI, a company that releases ChatGPT

Cutting-Edge Research Publishers

Steal the most recent techniques introduced by smart computer scientists (could be you).

http://www.arxiv-sanity.com/ Arxiv Sanity Preserver
https://research.facebook.com/ai/
http://research.google.com/pubs/MachineIntelligence.html
https://deepmind.com/research/ Research of DeepMind company
https://www.openai.com/
https://www.openai.com/requests-for-research/
State of the art performance on each ML task
State-of-the-art result for all Machine Learning Problems
https://stability.ai/ is releasing a lot of open source high-quality models.
https://twitter.com/ai__pub AI papers and AI research explained, for technical people.
https://twitter.com/_akhaliq is a Twitter account that tweets the latest research papers in the field of AI.

Practitioner Community

https://www.kaggle.com
https://gym.openai.com
https://universe.openai.com/
/r/MachineLearning
https://www.facebook.com/groups/DeepNetGroup/

Thoughtful Insights for Future Research

Why AI is Harder Than We Think
The Consciousness Prior by Yoshua Bengio
What Can't Deep Learning Do? a list of problems that deep learning faces
Pedro Domingos: "The Master Algorithm" - Talks at Google
The AI Revolution: The Road to Superintelligence
https://ai100.stanford.edu/2016-report
Why does Deep Learning work so well? - The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe
These are three of the biggest problems facing today's AI
Four Questions For: Geoff Hinton Geoff Hinton is referred to as "godfather of neural networks"
What product breakthroughs will recent advances in deep learning enable? - Quora
Liquid Neural Networks

Uncategorized

Artificial Intelligence: A Modern Approach (Online Book)
The Principles of Modern Game AI
Scipy Lecture Notes
https://www.youtube.com/user/aicourses
The Fundamentals of Neuroscience learn how our brain works so that you can discover new deep learning breakthrough
Bayesian Methods for Hackers An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of view. All in pure Python ;)

Other Big Lists

https://github.com/ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide This guide is designated to anybody with basic programming knowledge or a computer science background interested in becoming a Research Scientist with on Deep Learning and NLP.
https://www.mrdbourke.com/ml-resources/ Machine Learning Courses & Resources recommendation by Daniel Bourke
List of MLOps Courses and Books by Damien Benveniste on Facebook
https://github.com/collections/machine-learning
https://github.com/topics/machine-learning
https://github.com/topics/mlops
https://github.com/GokuMohandas/MadeWithML Join 30K+ developers in learning how to responsibly deliver value with ML.
https://papers.labml.ai/papers/daily
https://github.com/alirezadir/Production-Level-Deep-Learning
https://github.com/jindongwang/transferlearning
https://github.com/kmario23/deep-learning-drizzle
https://github.com/ZuzooVn/machine-learning-for-software-engineers
https://github.com/josephmisiti/awesome-machine-learning
https://github.com/ujjwalkarn/Machine-Learning-Tutorials
https://github.com/terryum/awesome-deep-learning-papers
https://github.com/ChristosChristofidis/awesome-deep-learning
https://github.com/Developer-Y/cs-video-courses#machine-learning
Deep Learning Resources by Jeremy D. Jackson
https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap
https://github.com/aikorea/awesome-rl Awesome Reinforcement Learning
https://github.com/artix41/awesome-transfer-learning Awesome Transfer Learning
https://github.com/heejkoo/Awesome-Diffusion-Models Awesome Diffusion Models
https://github.com/Renumics/awesome-open-data-centric-ai Data-centric AI is the practice of systematically engineering the data used to build AI systems.
https://github.com/labmlai/annotated_deep_learning_paper_implementations
https://github.com/ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code

I am confused, too many links, where do I start?

If you are a beginner and want to get started with my suggestions, please read this issue: #4

Penafian

From now on, this list is going to be compact and opinionated towards my own real-world ML journey and I will put only content that I think are truly beneficial for me and most people. All the materials and tools that are not good enough (in any aspect) will be gradually removed to combat information overload, including:

too difficult materials without much intuition; impractical content
too much theory without real-world practice
low-quality and unstructured materials
courses that I don't consider to enroll myself
knowledge or tools that are too niche and not many people can use it in their works eg deepdream or unsupervised domain adaptation (because you can Google it if you want to use it in your work).
tools that are beaten by other tools; not being state-of-the-art anymore
commercial tools that look like it can die any time soon
projects that are outdated or not maintained anymore

NOTE : There is no particular rank for each link. The order in which they appear does not convey any meaning and should not be treated differently.