機械学習カリキュラム
機械学習は、機械が明示的にプログラムされることなく観察データから学習するようにすることに専念する人工知能の分野です。
機械学習とAIは同じではありません。機械学習は、AI交響楽団の楽器であり、AIのコンポーネントです。では、機械学習とは正確には何ですか?これは、動作を生成するために、以前のデータからアルゴリズムを学習する能力です。 MLは、これまで見たことのない状況で決定を下すために機械を教えることです。
このカリキュラムは、機械学習を学び、ツールを推奨し、メディアをフォローすることを提案することでMLライフスタイルを受け入れるのに役立つように導かれます。新鮮さを維持するために定期的に更新し、時代遅れのコンテンツと非推奨ツールを取り除きます。
一般的な機械学習
このセクションを研究して、基本的な概念を理解し、より深く進む前に直感を開発します。
コンピュータープログラムは、 Pで測定されるように、 TのタスクでのパフォーマンスがTのタスクでのパフォーマンスで改善された場合、 Pかのクラスのタスクとパフォーマンスを測定した場合、エクスペリエンスEから学習すると言われていますE
- AIの要素AIと機械学習を教える簡単なコースの束
- COMS W4995 Applied Machine Learning 2020年春のビデオとコロンビア大学のApplied MLコースのスライド。
- fast.aiによる意見のある機械学習コース
- Tensorflow APIを使用した機械学習クラッシュコースGoogleの速い、実用的な機械学習の紹介
- 機械学習へのイントロ - コアMLの概念に関するScikit -Learn(Python)プログラミング学習のUdacity Hands
- 機械学習:監視され、監督なし&強化 - 2人のインストラクターは陽気です
- 機械学習のマスタリーは、特定のアルゴリズムの段階的なガイドを注意深くレイアウトしました
- Andrew NgのCourseraに関する専門化は、フードの下でMLアルゴリズムの詳細を知りたい人に推奨され、Pythonでの課題をコード化するのに十分な数学を理解し、
- MLレシピ-YouTubePlaylist MLのための非常にうまく設計されたコンクリート実用的なコンテンツ
- 機械学習は楽しいですパート1非適切な人々のための機械学習への簡単なアプローチ
- Pythonを使用した機械学習-YouTubeプレイリスト
- Andrew Ngによる機械学習の憧れ
- データジョブの着陸:このコースは、仕事の上陸に集中したい人のための意見的で実用的なガイドラインです。たとえば、彼らは、意思決定ツリーがすでに十分に機能する方法を知っていることを示唆しているので、すべてのモデルがどのように機能するかを知る必要はありません。しかし、このアドバイスは主に表形式のデータに関するものです。
- サーバーレス機械学習独自の機械学習サーバーレス予測サービスを構築する
- 効果的なMLOPS:モデル開発認証を備えたウェイトとバイアスによる無料コース
- Courseraによる機械学習およびデータ科学の専門化数学コースの数学
本
- Sebastian RaschkaによるPytorchとScikit-Learnによる機械学習
- Scikit-Learn、Keras、およびTensorflowを使用した実践的な機械学習、AurélienGéronによる第2版は、それが素晴らしいのでベストセラーの本です。
- https://github.com/fastai/fastbook jupyterノートブックとして公開されたFastai Book
- https://www.deeplearningbook.org/数学ヘビーブックIan GoodfellowとYoshua BengioとAaron Courvilleによる
- https://christophm.github.io/interpretable-ml-book/ブラックボックスモデルを説明可能にするためのガイド
- https://themlbook.com/ Andriy Burkovによる100ページの機械学習本
強化学習
環境を感知し、特定の状態で行う最良のポリシー(アクション)を選択して、予想される長期スカラー報酬を最大化するために最適なポリシー(アクション)を選択することが、強化学習の目標です。
- Openai Spiningこれは、Openaiが作成する教育リソースであり、深い強化学習(Deep RL)について学習しやすくなります。
- 基本的な強化学習包括的なステップバイステップチュートリアルを使用した補強学習(RL)の紹介シリーズ。
- 高度なトピック:RL 2015(compm050/compgi13)by David Silver(Alphagoの背後にある男)
- リチャード・S・サットンとアンドリュー・G・バルトによる紹介本
- 深い補強学習:ピクセルからのポン
- 講義10:強化学習-YouTube
- 調査論文
- 深い補強学習:チュートリアル - Openai
- CS 294:ディープ補強学習、2017年春
深い学習
ディープラーニングは、深い人工ニューラルネットワーク(DNN) - ニューロンが脳で機能する方法に触発されたアルゴリズム - 人工ニューロンの複数の層を組み合わせることにより、生データのパターンを見つける場所である機械学習の枝です。レイヤーが増加するにつれて、ますます抽象的な概念を学習するニューラルネットワークの能力も増加します。
最も単純なDNNは、多層パーセプトロン(MLP)です。

- この本の深い本の本は、元々電話画面で読むように設計された、STEMの背景を持つ読者のための深い学習の簡単な紹介です。非営利のクリエイティブコモンズライセンスの下で配布され、公開された後、その月に250'000回近くでダウンロードされました。
- フルスタックの深い学習学習生産レベルのトッププラクティショナーからの深い学習
- deeplearning.ai CourseraでAndrew Ngが教えたたくさんのコース。 Courseraの機械学習コースの続編です。
- Pytorchを使用した深い学習へのイントロUdacityに関するFacebook AIによるコース
- 深い学習とニューラルネットワークの友好的な紹介
- 学習プロセスを視覚化するのに役立つシンプルなニューラルネットワークを備えたニューラルネットワークの遊び場ティンカー
- Deep Learning Demystified -YouTubeは、実際のニューロンから人工ニューラルネットワークへの深い学習のインスピレーションを説明しています
- 博士号なしで、Tensorflowと深い学習を学ぶこの3時間のコース(ビデオ +スライド)は、開発者に深い学習の基礎をすばやく紹介し、いくつかのTensorflowが掘り出し物に投げ込まれます。
- yn^2による深い学習のガイド^2深い学習へのキュレーション数学ガイド
- Jeremy Howardが教えたFast.aiのCoders Courseの実用的な深い学習(Kaggleの#1ライバル2年のランニング、およびEnliticの創設者)
- ディープラーニング - いくつかのMLを知っている視覚学習者に推奨されるudacityこのコースでは、ディープラーニングの高レベルのアイデアを提供します。
- ディープラーニングサマースクール、モントリオール2015
- ニューラルネットワーククラス - YouTubeプレイリスト
- http://neuralnetworksanddeeplearning.com/index.html深い学習数学の直観のための実践的なオンラインブック、これを終えた後、深い学習を細かく説明できると言えます。
- ニューラルネットワーク動物園あなたが知っておくべきニューラルネットワークモデルの束(私はそれらの半分を知っているので、それらのほとんどが人気がないか、現在有用ではないので、あなたが多くのことを知らないことを心配しないでください)
- Udacityで教えられた深い学習のためのTensorflowの紹介
- プライマー•AIここに、ニューラルネットを構築するプロセス全体をカバーして結果を評価するためにトレーニングするAIの基礎/概念に関する記事の厳選された選択があります。また、非常に詳細なトランスアーキテクチャの説明もあります。
- 顔の拡散モデルコース理論を学び、モデルをゼロから訓練し、それを使用して画像とオーディオを生成します。
- Sebastian RaschkaとのLightning.aiによる深い学習基礎
畳み込みニューラルネットワーク
サウンド波形、画像、ビデオなどのグリッドデータで動作するDNNSは、通常のDNNよりも優れています。それらは、近くの入力ユニットが遠いユニットよりも関連しているという仮定に基づいています。また、翻訳不変性を利用しています。たとえば、画像を考えると、画像上のどこでも同じ種類のエッジを検出すると便利かもしれません。それらは時々コンベネットまたはCNNと呼ばれます。
- 畳み込みニューラルネットワークの仕組み - プーリング操作、リレーション、完全に接続されたレイヤー、勾配降下を使用した最適化などのYouTubeの技術的説明
- すべてを変えるニューラルネットワーク - コンピュータフィール
- 畳み込みニューラルネットワークを理解するための初心者のガイド
- コンピュータービジョンのディープラーニング(Andrej Karparthy、Openai)これは、畳み込みネットの私の最もお気に入りのビデオです。 Andrejは、Convnetを詳細に説明しています。たとえば、ほとんどの記事はグレースケールの画像の畳み込みについてのみ話していますが、彼はカラーチャネルの画像の畳み込みについても説明しています。彼はまた、Convnetsが行う懸念と仮定について語っています。これは素晴らしい講義です!
- 深い視覚化を通じてニューラルネットワークを理解することは、さまざまなテクニックを使用してコンベネットを視覚化する方法を説明しています
再発性ニューラルネットワーク
状態のあるDNN。また、長さが異なるシーケンスも理解しています。それらは時々 RNNと呼ばれます。
- http://karpathy.github.io/2015/05/21/rnn-effectivence/
- http://colah.github.io/posts/2015-08-understanding-lstms/
- http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-intruction-to-rnns/
ベストプラクティス
- 機械学習のルール:MLエンジニアリングのベストプラクティスMartin Zinkevichによる機械学習におけるGoogleのベストプラクティスに関するドキュメントです。
- ニューラルネットワークをトレーニングするためのレシピAndrejのブログ投稿は、妄想的な機械学習エンジニアになるために自分自身を訓練する方法について。
- ニューラルネットワークをデバッグする方法。マニュアル。
- 勾配降下最適化アルゴリズムの概要
- ディープラーニングチューニングプレイブックディープラーニングモデルのパフォーマンスを体系的に最大化するためのプレイブック。
ツール
実用的な機械学習に役立つライブラリとフレームワーク
フレームワーク
機械学習ビルディングブロック
- Scikit-Learn General Machine Learning Library、高レベルの抽象化、初心者向け
- Tensorflow;素晴らしいTensorflow; Googleによって構築された計算グラフフレームワークには、視覚化の優れたボードがあり、おそらく深い学習を行うための最近では最も人気のあるフレームワークがあります
- Keras:人間の深い学習ケラスは、Tensorflowの上で走っているPythonで書かれた深い学習APIです。それはまだ深い学習のための高レベルの抽象化の王です。更新:KerasはTensorflow、Jax、Pytorchで利用できるようになりました!
- PythonのPytorchテンソルと動的なニューラルネットワークは、強力なGPU加速を備えています。これは、Openaiを含む最先端の研究者によって一般的に使用されています。
- AI製品を迅速にトレーニング、展開、および出荷するための深い学習フレームワークを稲妻。 (以前はPytorch Lightningと呼ばれていました)
- JaxはオートグラードとXLAであり、高性能の機械学習研究のために集まっています。
- OneFlowは、使いやすく、スケーラブルで効率的になるように設計された深い学習フレームワークです。
- Apache MXNet(インキュベーション)ディープラーニングのためのApache MXNetは、効率と柔軟性の両方のために設計された深い学習フレームワークです。これにより、シンボリックと命令的なプログラミングを組み合わせて、効率と生産性を最大化できます。
- チェーンアーディープラーニングのためのニューラルネットワークの柔軟なフレームワーク
- Vowpal Wabbitは、オンライン、ハッシュ、AllReduce、削減、Learning2Search、アクティブ、インタラクティブな学習などのテクニックを使用して、機械学習のフロンティアをプッシュする機械学習システムです。いくつかのコンテキストバンディットアルゴリズムが実装され、オンラインの性質が問題に適しているため、強化学習には特に焦点が当てられています。
- H2Oは、分散型のスケーラブルな機械学習のためのメモリのプラットフォームです。
- KerasとTensorflow 2を備えたSpektralグラフニューラルネットワーク2。
- IvyはMLトランスピラーとフレームワークの両方であり、現在Jax、Tensorflow、Pytorch、Numpyをサポートしています。アイビーはすべてのMLフレームワークを統合しますか?これらのフレームワークのいずれかでバックエンドとして使用できるコードを作成するだけでなく、それらのいずれかに記載されている機能、モデル、またはライブラリをお好みのフレームワークに変換することを可能にします!
コーディングなし
- Ludwig Ludwigは、ユーザーがコードを作成する必要なく、深い学習モデルをトレーニングおよびテストできるツールボックスです。 Tensorflowの上に構築されています。
勾配ブースト
卓越した一般化パフォーマンスのために、競技で頻繁に使用されるモデル。
- https://github.com/dmlc/xgboost Extreme Gradient Boosting
- https://github.com/microsoft/lightgbm xgboostと比較して軽量の代替
- https://github.com/catboost/catboostは、Python、R、Java、C ++のランキング、分類、回帰、その他の機械学習タスクに使用される意思決定ツリーライブラリでの高速でスケーラブルな高性能グラデーションブースト。 CPUおよびGPUの計算をサポートします。
- https://github.com/tensorflow/decision-forests tensorflow Decision Forests(TF-DF)は、決定森林モデルのトレーニング、サービス、解釈のための最先端のアルゴリズムのコレクションです。
- Pytorch/Tensorflow Tabnet Paperの実装。さらに読んでください:Tabnetバランスの説明可能性と表形式データのモデルのパフォーマンスですが、ツリーモデルをブーストすることはできますか?
時系列推論
時系列のデータは、ほとんどのモデルがデータを形成するためにデータを必要とするため、ほとんどの機械学習モデルで使用可能になるためにユニークな機能抽出プロセスを必要とします。または、LSTM、TCNなどの時系列をターゲットにする特別なモデルアーキテクチャを使用できます。
- https://github.com/timeseriesai/tsai時系列タイムリーディープラーニングPytorch Fastai- Pytorch/Fastaiの時系列とシーケンスを備えた最先端の深い学習。さらに読む:Tsai - 時系列の最先端の機械学習、パート1。
- https://github.com/alan-turing-institute/sktime時系列との機械学習のための統一されたフレームワーク
- https://github.com/sktime/sktime-dl sktimeのtensorflow/kerasを使用したディープラーニング用の拡張機能パッケージ
- https://github.com/tslearn-team/tslearn/タイムシリーズデータ専用の機械学習ツールキット
- https://github.com/blue-yonder/tsfresh時系列からの関連機能の自動抽出
- https://github.com/johannfaouzi/pyts時系列分類用のPythonパッケージ
- https://github.com/facebook/prophetツールは、線形または非線形の成長を伴う複数の季節性を持つ時系列データの高品質の予測を生成するためのツール。
- https://github.com/philipperemy/keras-tcn keras時間畳み込みネットワーク
- ロケット:ランダムな畳み込みカーネルを使用した非常に高速で正確な時系列分類。 Minirocket:時系列分類のための非常に高速な(ほぼ)決定論的変換。これらの2つの手法は、時系列の機能を抽出するためのものです。さらに読む:ロケット:高速かつ正確な時系列分類
ライフサイクル
モデルの開発/デバッグ/展開に役立つライブラリ(MLOPS)。モデルのトレーニング以上のものがあります。
- https://huggingface.co/ Githubと同じように、しかしMLモデル、データセット、およびアプリを保存するために(アプリをスペースと呼びます)。コードでモデル/データセットを簡単に使用できるライブラリがあります。ストレージは無料で公開プロジェクトとプライベートプロジェクトの両方で無制限です。
- https://wandb.ai/実験追跡、データセットバージョン化、モデル管理により、より良いモデルをより速く構築する
- https://github.com/flyteorg/flyte flyteを使用すると、機械学習とデータ処理のための同時、スケーラブル、保守可能なワークフローを簡単に作成できます。
- https://github.com/allegroai/clearml MLワークフローを合理化するためのツールの自動マジカルスイート。実験マネージャー、ML-OPSおよびデータ管理
- https://github.com/quantumblacklabs/kedroは、再現可能で保守可能なモジュール式データサイエンスコードを作成するためのPythonフレームワークです。
- https://github.com/determined-ai/determined sequededは、建物モデルを迅速かつ簡単にするオープンソースのディープラーニングトレーニングプラットフォームです。私は主にハイパーパラメーターの調整に使用します。
- https://github.com/iterative/cml継続機械学習(CML)は、機械学習プロジェクトで継続的な統合と配信(CI/CD)を実装するためのオープンソースライブラリです。それを使用して、モデルのトレーニングと評価、プロジェクト履歴全体のML実験の比較、変更の変化データセットの監視など、開発ワークフローの一部を自動化します。
- https://github.com/creme-ml/creme Pythonライブラリオンライン機械学習用。ライブラリ内のすべてのツールは、一度に1つの観察結果で更新できます。したがって、ストリーミングデータから学習するために使用できます。
- https://github.com/aimhubio/aim 1000のMLトレーニングランを記録、検索、比較するための非常に簡単な方法
- https://github.com/netflix/metaflow Metaflowは、科学者とエンジニアが実際のデータサイエンスプロジェクトを構築および管理するのに役立つ人間に優しいPythonライブラリです。 MetaflowはもともとNetflixで開発されました。
- MLFLOW MLFLOW(現在ベータ版)は、実験、再現性、展開など、MLライフサイクルを管理するためのオープンソースプラットフォームです。現在、MLFLOW追跡、MLFLOWプロジェクト、MLFLOWモデルの3つのコンポーネントを提供しています。
- floydhub深い学習のためのHeroku(あなたはモデルに焦点を当て、展開します)
- comet.ml cometにより、データサイエンティストとチームは、モデル全体のライフサイクル全体で実験とモデルを追跡、比較、説明、最適化できます。トレーニングから生産まで
- https://neptune.ai/すべてのモデルビルディングメタデータを1つの場所で管理
- https://github.com/fastai/nbdev jupyterノートブックを使用して楽しいPythonプロジェクトを作成します
- https://rapids.ai/ GPUのデータサイエンス
- https://github.com/datarevenue-berlin/openmlops
- https://github.com/jacopotagliabue/you-dont-need-a-bigger-boatは実際にはツールではなく、現実世界の合理的なスケールビジネスで多くのツールを一緒に構成する方法に関するガイドです。
- https://www.modular.com/ AIインフラストラクチャをゼロから再設計するという野心的な目標を持つ会社。彼らは、PythonのスーパーセットであるMojoと呼ばれる新しい言語を紹介します。
GPUクラウド
これは意見のあるリストであることを忘れないでください。数人のクラウドプロバイダーがそこにいます。私はそれらすべてをリストするつもりはありません。私はちょうど私がよく知っているものをリストするつもりです、そして私は良いと思います。
- https://lightning.ai/ Lightning Studioを使用すると、機械学習モデルを開発するためにハイエンドのラップトップを捨てることができます。 vscodeを使用してクラウドにコードを記述し、トレーニングまたは推論にGPUを使用するだけです。 Lightning StudioはGithub CodeSpacesに似ていますが、GPUです。
- https://modal.com/ Modalを使用すると、機械学習モデルを実行または展開できます。ジョブ、タスクキュー、Webアプリなど、独自のインフラストラクチャを使用して並列コンピューティングを行うことができます。
- https://www.runpod.io/ GPUで80%以上を節約します。 GPUレンタルは、Pytorch、Tensorflow、またはその他のAIフレームワークのJupyterで簡単になりました。以前に使用しました。非常に使いやすい。
- https://replicate.com/実行および微調整オープンソースモデル。 COGを使用して、カスタムモデルを規模で展開します。すべて1行のコードが付いています。
- https://bentoml.com/ Bentomlは、ソフトウェアエンジニアがAI製品を構築できるプラットフォームです。 Bentomlパッケージを使用して展開します。
- https://www.baseten.co/トラスを使用したクラウドの高速およびスケーラブルなモデル推論
- https://lambdalabs.com/ GPUクラウドは、深い学習のために構築されています。市場でのクラウドGPUの最高の価格への即時アクセス。コミットメントや交渉は必要ありません。 AWS、Azure、およびGCPを73%以上節約します。 Pytorch、Tensorflow、Jupyterを使用した深い学習用に構成
- https://www.beam.cloud/オンデマンドGPUコンピューティング:インフラストラクチャを管理することなく、サーバーレスGPUでAIおよびLLMアプリケーションを安全に訓練および展開する
データストレージ
- https://github.com/huggingface/datasets/データセットの読み込み、前処理、共有のためのパッケージ。
- https://github.com/activeloopai/deeplake Date Lake for Deep Learning。データセットを構築、管理、クエリ、バージョン、視覚化します。 Pytorch/Tensorflowにリアルタイムでデータをストリーミングします。
- https://github.com/determined-ai/yogadl深い学習のためのデータ読み込みに対するより良いアプローチ。ディスク、GCS、またはS3へのAPI透明キャッシュ。
- https://github.com/google/ml_collections MLコレクションは、MLユースケース向けに設計されたPythonコレクションのライブラリです。ネストされた要素へのドットアクセスを備えた「DICTのような」データ構造であるConfigDictが含まれています。実験とモデルの構成を表現する主な方法として使用されるはずです。
データの争い
データのクリーニングとデータ増強
- https://github.com/cgnorthcutt/cleanlabデータセットのクリーンラベル付けエラー
- https://github.com/aleju/imgaug画像増強ライブラリは、キーポイントをヒートマップに変換することをサポートしています
- https://github.com/albu/albumentations最速の画像増強ライブラリ
- https://github.com/mdbloice/augmentor分類タスクのための使いやすい画像の増強(キーポイントを拡張できません)
- https://github.com/facebookresearch/auglyオーディオ、画像、テキスト、ビデオ用のデータ増強ライブラリ。
データオーケストレーション
- https://github.com/prefecthq/prefect
- https://github.com/dagster-io/dagster
- https://github.com/ploomber/ploomberプルームは、データパイプラインを構築するための最速の方法です。お気に入りの編集者(Jupyter、VSCode、Pycharm)を使用して、インタラクティブな開発を行い、コードの変更(Kubernetes、Airflow、AWS Batch、およびSlurm)なしで☁️を展開します。
- https://github.com/orchest/orchestビルドデータパイプライン、ユーザーフレンドリーUIを使用する簡単な方法
データの視覚化
- https://github.com/gradio-app/gradioは、3分でPythonで機械学習モデル用にUIを作成します。 UIは、誰でも、非技術的な人々と共有できるWebアプリです。私が好きな機能の1つは、例コンポーネントです。このアプリは機械学習のユースケース用であることを非常によく示しています。
- https://github.com/streamlit/streamlit streamlitは、データスクリプトを数分で共有可能なWebアプリに変換します。すべてPythonで。すべて無料。フロントエンドのエクスペリエンスは必要ありません。
- https://github.com/oegedijk/explainerdashboardは、いわゆる「ブラックボックス」機械学習モデルの内側の仕組みを示す説明可能なAIダッシュボードをすばやく構築します。
- https://github.com/lux-org/lux jupyterノートにデータフレームを印刷するだけで、Luxはデータセットの興味深いトレンドとパターンを強調する一連の視覚化を推奨しています。
- https://github.com/slundberg/shap shap(Shapley Additive説明)は、機械学習モデルの出力を説明するためのゲーム理論的アプローチです。
- https://github.com/comet-ml/kangas Kangasは、大規模なマルチメディアデータを探索、分析、視覚化するためのツールです。データセットに対して複雑なクエリを実行するための直感的な視覚インターフェイスとともに、データの大きなテーブルをログに記録するための簡単なPython APIを提供します。
ハイパーパラメーターチューニング
開始する前に、このブログ投稿を読んで、一般的に検索の動機を理解してください:https://www.determined.ai/blog/stop-doing-titerative-model-development
検索駆動型の開発に目を向けてください。それはあなたを変えます。主な利点は、後退がないことです。進捗と改善のみが許可されています。新しいソリューションが機能しないため、後方に回帰するのではなく、毎日働いて進歩することを想像してください。この保証された進捗は、検索主導の開発があなたに行うことです。機械学習だけでなく、最適化のすべてにそれを適用します。
My top opinionated preferences are determined, ray tune, and optuna because of parallelization (distributed tuning on many machines), flexibility (can optimize arbitrary objectives and allow dataset parameters to be tuned), library of SOTA tuning algorithms (eg HyperBand, BOHB, TPE, PBT, ASHA, etc), result visualization/analysis tools, and extensive documentations/tutorials.
- https://github.com/determined-ai/determined sequededは、建物モデルを迅速かつ簡単にするオープンソースのディープラーニングトレーニングプラットフォームです。 IMO、深い学習モデルのハイパーパラメーターを安価に調整するのに最適です。これは、有望なメトリックとそうでないモデルを持つモデルで多くの時代をトレーニングするからです。彼らは、AWSとほとんどのクラウドサービスを一流の市民としてサポートしています。また、先制インスタンスもサポートしていますが、これも安いです。トレーニングを終了すると、すべてのGPUインスタンスが自動的にシャットダウンされます。大規模なトレーニングでお金を節約したい場合は、決意してください。
- https://docs.ray.io/en/master/tune/index.html Ray Tuneは、あらゆるスケールでの実験実行とハイパーパラメーターチューニングのためのPythonライブラリです。分散チューニングを探している場合、レイチューンはおそらく最も深刻なフレームワークです。
- https://github.com/optuna/optuna自動ハイパーパラメーター最適化ソフトウェアフレームワーク(Framework Agnostic、Define-by-run)
- https://github.com/pyhopper/pyhopper pyhopperは、機械学習の研究とビジネスで生じる高次元の問題に特化したハイパーパラメーターオプティマイザーです。この男は、オプトナよりも10倍速いと主張しました。この主張は真実ですか?試してみるまでわかりません!
- https://github.com/keras-team/keras-tunerケラスの使いやすい分散ハイパーパラメーターの最適化。こちらの記事を読んでください
- https://github.com/autonomio/talos hyperparameter keras、tensorflow(tf.keras)、およびpytorchの最適化
- https://github.com/maxpumperla/hyperas keras + hyperopt:便利なハイパーパラメーターの最適化のための非常にシンプルなラッパー
- https://github.com/fmfn/bayesianoptimizationガウスプロセスを使用したグローバルな最適化のPython実装。
- https://github.com/hyperopt/hyperopt
- https://github.com/msu-coinlab/pymoo pythonの多目的最適化
- https://github.com/google/vizierオープンソースVizier:信頼性が高く柔軟なブラックボックスの最適化。 OSS Vizierは、大規模に機能するように設計された最初のハイパーパラメーターチューニングサービスの1つであるGoogle Vizierに基づいた、ブラックボックスの最適化と研究のためのPythonベースのサービスです。
Automl
機能エンジニアリング、モデルの選択、ハイパーパラメーターの調整という退屈なタスクなしで、自分でやらなければならないマシンを学習させてください。機械に機械学習を実行させてください!
個人的には、表形式のデータセットがある場合は、最初にFlamlとMljarを試してみます。 xgboost、lightgbm、catboostなどのグラデーションブーストフレームワークを試してみたい場合は、どちらが最適かわからない場合は、最初にautomlを試すことをお勧めします。
- 2021年のBest OpenSource Automl Frameworks OpenSource Automlフレームワークのキュレーションリストを含むメディアに関する記事。
- https://github.com/dabl/dable/dableデータ分析ベースラインライブラリ。パフォーマンスベースラインとして使用する単純なモデルをすばやくトレーニングする
- https://www.automl.org/ Automlライブラリと研究のキュレーションリストを見つけます
- https://github.com/jhfjhhfj1/autokeras執筆時点で(2018年8月24日)、このライブラリは分類しかできないため、かなり時期尚早です。
- https://github.com/automl/auto-sklearn/はWindowsで実行されません。WSL(Linux用のWindowsサブシステム)をインストールする必要があります。
- https://github.com/epistasislab/tpot何千もの機械学習パイプラインを実行し、あなたのためにコードを出力します
- https://github.com/climbsrocks/auto_ml著者がtpotとauto-sklearnの比較について考えていることを読む
- https://github.com/microsoft/flamlは、費用対効果の高い経済的最適化アルゴリズムを備えた高速および軽量自動車を備えています。
- https://github.com/mljar/mljar-supervided表形式データで動作する自動化された機械学習Pythonパッケージ。視覚化レポート(説明モードで)を生成し、Golden機能やK-Means機能などの追加機能を生成します。
- https://github.com/awslabs/autogluon Automlテキスト、画像、および表形式のデータ。しかし、それは(2021年10月11日現在)Windowsをサポートしていません。
- https://github.com/autoviml/auto_viml auto_vimlは、必要な変数が最も少ない高性能解釈可能なモデルを構築するために設計されています。
モデルアーキテクチャ
その分野で最先端のアーキテクチャ。
- https://github.com/rwightman/pytorch-image-models pytorch imageモデル、スクリプト、事前処理されたウェイト - resnet、resnext、efficientnet、efficientnetv2、nfnet、vision transformer、mixnet、mobilenet-v3/v2、regnet、dpn、cspnetなど。通常、
timmと呼ばれます。 - https://modelzoo.co/モデル動物園
- https://github.com/tensorflow/models
- マゼンタ:機械の知能を備えた音楽とアートの生成
- https://github.com/phillipi/pix2pix条件付き敵対ネットを使用した画像から画像から画像からイメージへの翻訳。 PIX2PIXのTensorflowポート。この作品のプレゼンテーションを見る:先生なしで見ることを学ぶ
- Wav2letter Facebook AI Researchの自動音声認識ツールキット
- https://github.com/huggingface/transformers tensorflow 2.0およびpytorchの最新の自然言語処理
- https://github.com/huggingface/diffusers?ディフューザー:Pytorchの画像とオーディオ生成の最先端の拡散モデル
- https://bigscience.huggingface.co/blog/bloom BigScience LLMから大規模な言語モデルを開きます。記事
- https://github.com/hpcaitech/colossalaiの記事
- https://stability.ai/blog/stable-diffusion-public-release安定した拡散は、簡単なテキストの説明から高品質の画像を生成できるモデルです。ここに、なぜそれがうまく機能するのかを説明する短いTwitterスレッドがあります。また、拡散モデルの詳細を学ぶためのリソースを含むスレッドがあります。
迅速なエンジニアリング
GPT-3のような大規模な言語モデル(LLM)は強力ですが、目的の出力を生成するために求められる必要があります。これは、プロンプトエンジニアリングが登場する場所です。プロンプトエンジニアリングは、目的の出力を生成するために使用できるプロンプトを設計するプロセスです。
- https://github.com/hwchase17/langchainこれは、複合性を通じてLLMSを備えたアプリケーションを構築するためのPythonパッケージです。
- https://dust.tt/大規模な言語モデルアプリを設計および展開するためのWebベースのツール。
- https://github.com/jerryjliu/gpt_index GPTインデックスは、LLMSを使用して作成され、クエリに答えるためにLLMSを使用して通過できるデータ構造のセットで構成されるプロジェクトです。
- https://github.com/xpitfire/symbolicai/ Compositional Dhifhisiableプログラミングライブラリ:シンボリックAPIを通じて、LLMを介したLLMをコアに構築することで、Pythonの古典的で微分可能なプログラミングの力を活用します。
フォローする素敵なブログとvlog
- https://www.pyimagesearch.com/頻繁に更新されたOpenCVとディープラーニングに関するブログ
- http://colah.github.io/美しい視覚化を備えた素晴らしい説明
- https://karpathy.github.io/彼はディープネットでいくつかのコースを教え、以前はテスラでAIディレクターとして働いていました。
- http://ruder.io Sebastian RuderのDeep Learning and NLPブログ
- http://www.wildml.com/
- https://machinelearningmastery.com/には、多くのコンテンツと美しいウェブサイトが含まれています
- SirajologyのYouTubeプレイリストMLへの濃い短い陽気な紹介
- ディープラーニングプレイリストに関する2分間の論文
- distill.pub機械学習の研究を提示するための最新の媒体
- deeplearn.orgディープラーニングモニター。深い学習論文やツイートに関するニュース
- MLOPについてのDatarevenueブログが主に
- https://www.youtube.com/c/andrejkarpathy andrej karparthyは、テスラオートパイロットチームを離れて「綴られた」スタイルでニューラルネットワークを実装する方法を人々に教えるために新しいYouTubeチャンネルを作成しました。
- https://e2eml.school/blog.htmlエンドツーエンドの機械学習ブログ。
- https://jalammar.github.io/機械学習の視覚化一度に1つの概念を学習します。彼のブログには、変圧器や安定した拡散などのML概念の説明された説明が含まれています。
- Radek Osmulskiブログ彼は、より速く学習するために活用できるDLのテクニックと戦略についてブログをブログしています。
衝撃的な人々
- ジェフリー・ヒントン、彼は生徒たちと2つの革新的なテクニック(Relu and Dropout)を導入することにより、ディープラーニングのゴッドファーザーと呼ばれています。これらの手法は、深いニューラルネットワークの消失勾配と一般化の問題を解決します。
- Yann Lecunは、今日のコンピュータービジョン開発者の間で本当に人気のあるネットワークであるCNN(畳み込みニューラルネットワーク)を発明しました。現在、メタで働いています。
- Yoshua Bengio another serious professor at Deep Learning, you can watch his TEDx talk here (2017)
- Andrew Ng he discovered that GPUs make deep learning faster. He taught 2 famous online courses, Machine Learning and Deep Learning specialization at Coursera. particular type of RNN)
- Jeff Dean, a Google Brain engineer, watch his TEDx Talk
- Ian Goodfellow, he invented GANs (Generative Adversarial Networks), is an OpenAI engineer
- David Silver this is the guy behind AlphaGo and Artari reinforcement learning game agents at DeepMind
- Demis Hassabis CEO of DeepMind, has given a lot of talks about AlphaGo and Reinforcement Learning achievements they have
- Andrej Karparthy he teaches convnet classes, wrote ConvNetJS, and produces a lot of content for DL community, he also writes a blog (see Nice Blogs & Vlogs to Follow section)
- Pedro Domingos he wrote the book The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World , watch his TEDx talk here
- Emad Mostaque he is the founder of stability.ai, a company that releases many open source AI models including Stable Diffusion
- Sam Altman he is the president of OpenAI, a company that releases ChatGPT
Cutting-Edge Research Publishers
Steal the most recent techniques introduced by smart computer scientists (could be you).
- http://www.arxiv-sanity.com/ Arxiv Sanity Preserver
- https://research.facebook.com/ai/
- http://research.google.com/pubs/MachineIntelligence.html
- https://deepmind.com/research/ Research of DeepMind company
- https://www.openai.com/
- https://www.openai.com/requests-for-research/
- State of the art performance on each ML task
- State-of-the-art result for all Machine Learning Problems
- https://stability.ai/ is releasing a lot of open source high-quality models.
- https://twitter.com/ai__pub AI papers and AI research explained, for technical people.
- https://twitter.com/_akhaliq is a Twitter account that tweets the latest research papers in the field of AI.
Practitioner Community
- https://www.kaggle.com
- https://gym.openai.com
- https://universe.openai.com/
- /r/MachineLearning
- https://www.facebook.com/groups/DeepNetGroup/
Thoughtful Insights for Future Research
- Why AI is Harder Than We Think
- The Consciousness Prior by Yoshua Bengio
- What Can't Deep Learning Do? a list of problems that deep learning faces
- Pedro Domingos: "The Master Algorithm" - Talks at Google
- The AI Revolution: The Road to Superintelligence
- https://ai100.stanford.edu/2016-report
- Why does Deep Learning work so well? - The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe
- These are three of the biggest problems facing today's AI
- Four Questions For: Geoff Hinton Geoff Hinton is referred to as "godfather of neural networks"
- What product breakthroughs will recent advances in deep learning enable? - Quora
- Liquid Neural Networks
未分類
- Artificial Intelligence: A Modern Approach (Online Book)
- The Principles of Modern Game AI
- Scipy Lecture Notes
- https://www.youtube.com/user/aicourses
- The Fundamentals of Neuroscience learn how our brain works so that you can discover new deep learning breakthrough
- Bayesian Methods for Hackers An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of view. All in pure Python ;)
Other Big Lists
- https://github.com/ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide This guide is designated to anybody with basic programming knowledge or a computer science background interested in becoming a Research Scientist with on Deep Learning and NLP.
- https://www.mrdbourke.com/ml-resources/ Machine Learning Courses & Resources recommendation by Daniel Bourke
- List of MLOps Courses and Books by Damien Benveniste on Facebook
- https://github.com/collections/machine-learning
- https://github.com/topics/machine-learning
- https://github.com/topics/mlops
- https://github.com/GokuMohandas/MadeWithML Join 30K+ developers in learning how to responsibly deliver value with ML.
- https://papers.labml.ai/papers/daily
- https://github.com/alirezadir/Production-Level-Deep-Learning
- https://github.com/jindongwang/transferlearning
- https://github.com/kmario23/deep-learning-drizzle
- https://github.com/ZuzooVn/machine-learning-for-software-engineers
- https://github.com/josephmisiti/awesome-machine-learning
- https://github.com/ujjwalkarn/Machine-Learning-Tutorials
- https://github.com/terryum/awesome-deep-learning-papers
- https://github.com/ChristosChristofidis/awesome-deep-learning
- https://github.com/Developer-Y/cs-video-courses#machine-learning
- Deep Learning Resources by Jeremy D. Jackson
- https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap
- https://github.com/aikorea/awesome-rl Awesome Reinforcement Learning
- https://github.com/artix41/awesome-transfer-learning Awesome Transfer Learning
- https://github.com/heejkoo/Awesome-Diffusion-Models Awesome Diffusion Models
- https://github.com/Renumics/awesome-open-data-centric-ai Data-centric AI is the practice of systematically engineering the data used to build AI systems.
- https://github.com/labmlai/annotated_deep_learning_paper_implementations
- https://github.com/ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code
I am confused, too many links, where do I start?
If you are a beginner and want to get started with my suggestions, please read this issue: #4
免責事項
From now on, this list is going to be compact and opinionated towards my own real-world ML journey and I will put only content that I think are truly beneficial for me and most people. All the materials and tools that are not good enough (in any aspect) will be gradually removed to combat information overload, including:
- too difficult materials without much intuition; impractical content
- too much theory without real-world practice
- low-quality and unstructured materials
- courses that I don't consider to enroll myself
- knowledge or tools that are too niche and not many people can use it in their works eg deepdream or unsupervised domain adaptation (because you can Google it if you want to use it in your work).
- tools that are beaten by other tools; not being state-of-the-art anymore
- commercial tools that look like it can die any time soon
- projects that are outdated or not maintained anymore
NOTE : There is no particular rank for each link. The order in which they appear does not convey any meaning and should not be treated differently.
How to contribute to this list
- Fork this repository, then apply your change.
- Make a pull request and tag me if you want.
- それでおしまい。 If your edition is useful, I'll merge it.
Or you can just submit a new issue containing the resource you want me to include if you don't have time to send a pull request.
The resource you want to include should be free to study.