このレポを作成する背後にある動機は、数学の恐怖を感じ、機械学習、深い学習、およびAIのその他の分野でやりたいことを何でもすることです。
このレポでは、代数、計算、統計、確率の基本を示しました。したがって、EDXコースで提供されているPythonノートブックでこのコードを試してください。
このレポでは、numpy、pandas、matplotlibなどの不可欠なライブラリも学びます...
これらの素材が便利であると感じたら、新しい素材をアップロードします。また、このレポを新鮮に保つのに役立ちます。
機械学習の数学が重要である理由はたくさんあります。以下にそれらのいくつかを強調します。
正確性、トレーニング時間、モデルの複雑さ、パラメーターの数、機能の数を考慮することを含む適切なアルゴリズムを選択します。
パラメーター設定と検証戦略の選択。
バイアス分散トレードオフを理解することにより、不合格と過剰適合を特定します。
適切な信頼区間と不確実性の推定。
科学者のスカイラー・スピークマンは最近、「線形代数は21世紀の数学である」と言っており、私は声明に完全に同意します。 MLでは、線形代数がどこにでも現れます。主成分分析(PCA)、特異値分解(SVD)、マトリックスの固有構成、LU分解、QR分解/因数分解、対称行列、直交整形、オルソモルサイズ、マトリックス操作、プロジェクション、アイゲンバルとアイゲンンベクトル、ベクトルスペース、ノルムスペースなどのトピック機械に使用される最適化方法を理解するために必要です 学ぶ。線形代数の驚くべきことは、非常に多くのオンラインリソースがあることです。私はいつも、インターネットで利用可能な膨大な量のリソースのために、伝統的な教室は死にかけていると言ってきました。私のお気に入りの線形代数コースは、MITコースウェア(ギルバートストラング教授)が提供するコースです。
機械学習と統計は、それほど異なる分野ではありません。実際、誰かが最近、機械学習を「Macで統計を行う」と定義しました。 MLに必要な基本的な統計的および確率理論の一部は、組み合わせ、確率ルールと公理、ベイズ定理、ランダム変数、分散と期待、条件付きおよび共同分布、標準分布(ベルヌーリ、二項、多項式、均一、ガウス)、モーメントです。生成関数、最尤推定(MLE)、事前および後方、最大後の推定推定(マップ)およびサンプリング方法。
必要なトピックには、微分および積分計算、部分微分、ベクトル値関数、方向勾配、ヘシアン、ヤコビアン、ラプラシアン、ラグランジアン分布が含まれます。
これは、機械学習アルゴリズムの計算効率とスケーラビリティを理解し、データセットのスパースを活用するために重要です。データ構造(バイナリツリー、ハッシュ、ヒープ、スタックなど)の知識、動的プログラミング、ランダム化およびサブリンアルゴリズム、グラフ、グラデーション/確率的下降剤、および原始的な二重の方法の知識が必要です。
これは、上記の4つの主要な領域でカバーされていない他の数学トピックで構成されています。それらには、実際のおよび複雑な分析(セットとシーケンス、トポロジ、メトリックスペース、単一値および連続関数、制限、コーシーカーネル、フーリエ変換)、情報理論(エントロピー、情報ゲイン)、機能スペース、マニホールドが含まれます。