
データ中心のAIで行われたリソースと進捗状況のリストを(明らかに意見された)リストを収集しており、過去、現在、未来を刺激しています。このブログでは、データ中心のAIへの旅について語っています。このブログのAIの視点としてデータに興奮している理由を明確にしています。
AIはモデルにかなり焦点を当てていますが、モデルを生産に入れた人の実際の経験は、データがもっと重要であることが多いということです。このリポジトリの目標は、このエリアを理解し、貢献したい人がアクセスできる単一の場所でこの経験を統合することです。
私たちは最初にのみ、このgithubに貢献することで支援することができます!これまで貢献したすべての人に感謝します。
この分野に興味があり、詳細を聞きたい場合は、メーリングリストに参加してください!また、あなたの興味が何であるかをよりよく理解するために、この短いフォームに記入していただければ幸いです。
スタンフォードでデータ中心のAIについてクラスを作成しています。フィードバックが大好きです。もっと学ぶことに興味があるなら、このフォームに記入してください。
このリポジトリをより良くする方法についてのアイデアがある場合は、提案の問題をお気軽に送信してください。
読者やデータ愛好家からの貢献により、このリソースが成長することを望んでいます。このGitHubリポジトリに貢献したい場合は、貢献ガイドラインをお読みください。
背景
この領域はスタブです。改善することでお手伝いできます。
実際のユースケースで作業するために機械学習を行う方法を理解することには多くの興奮があります。データ中心のAIは、この進捗がどのように発生するかについて特定の視点を具体化します。モデルに時間を費やすのではなく、開業医がデータセットで理解、プログラム、反復を容易にすることに焦点を当てることにより。
データプログラミングと弱い監督エリアページ
多くの最新の機械学習システムは、成功するために大規模なラベル付きのデータセットを必要としますが、そのようなデータセットを生成するのは時間がかかり、高価です。代わりに、クラウドソーシング、遠い監督、ドメインの専門家のようなハーストパターンのようなドメインの専門家など、より弱い監督源が90年代から使用されてきました。
ただし、これらは主にAIおよびAI/MLの人々によってアドホックまたは孤立した技術と見なされていました。これらを統合してデータ中心の視点に結合する努力は、現在、オープンソースプロジェクトで繁栄している企業であるシュノーケルで具体化されたプログラマティックラベル付け、データプログラミングで本格的に始まりました。 Snorkelのデータ中心のAIアプローチでは、ユーザーはそれぞれがグラウンドトゥルースラベルの騒々しい推定を表す複数のラベル機能を指定します。これらの標識機能の精度とデータセットのカバレッジは異なり、相関することさえあるため、潜在変数グラフィカルモデルを介して組み合わされて除去されます。したがって、技術的な課題は、このモデルの精度と相関パラメーターを学習し、それらを使用してダウンストリームタスクに使用される真のラベルを推測することです。
データプログラミングは、潜在変数グラフィカルモデルのパラメーター推定に関する長い作業に基づいています。具体的には、標識機能の共同分布の生成モデルと観察されていない(潜在的な)真のラベルが学習されます。このラベルモデルは、さまざまな信号ソースの集約を可能にしながら、さまざまな精度と潜在的な相関を持つことができます。
このシュノーケルのブログ投稿には、ラベル付けされたデータや技術モデリングの課題を取得するための他のアプローチと比較する方法など、弱い監督の概要が含まれています。これらのスタンフォードCS229講義ノートは、グラフィカルモデルが弱い監督にどのように使用されるかの理論的要約を提供します。
データ増強領域ページ
機械学習モデルをトレーニングするときの重要な課題は、現実の世界で観察された変動性を十分にキャプチャする大規模で多様なデータセットを収集することです。データセットの収集とラベル付けのコストにより、データの増強は安価で有望な代替手段として浮上しています。
データ増強の中心的なアイデアは、既存のデータセット内の例を変換して、追加の拡張例を生成し、データセットに追加できることです。これらの追加の例は、通常、モデルで見られるデータの多様性を高め、モデルに追加の監督を提供します。データ増強の基礎は、データの何らかの変換に関して学習モデルを不変にするための手法を導入した接線伝播に由来します。
Alexnetなどの増強の初期の成功は、翻訳または回転の不変性を促進する例を生成することにより、画像分類器に侵略を誘導することに焦点を合わせました。これらの成功により、増強により、画像、音声、テキスト分類、機械翻訳などの幅広いタスクセットのパイプラインの事実上の部分になりました。
増強で使用される変換の選択は、モデルによって学習された侵略性と、多様なテスト例に遭遇したときにその動作を指示するため、重要な考慮事項です。ヒューリスティックな拡張は人気があり続けていますが、増強パイプラインをより慎重に制御およびプログラムできることが重要です。タンダは、データ変換の選択を作成することにより、増強パイプラインのプログラミングの問題の研究を開始しました。その後、この分野では、より深い理論的理解と自己導入などの実用的な実装の両方で、急速な成長が見られました。初期の作業ラインは、これらのプログラミングパラダイムをさらに拡張するために、特定の変換を学習する条件付き生成モデルを活用しています。
セルフスーパービジョンエリアページ
ラベルの付いた大規模なデータセットの必要性は、非標識データを使用して入力空間の潜在的な表現を事前訓練し、その結果として得られる知識が豊富な表現をダウンストリームタスクで使用する動機付けの方法を持っています。表現により、ダウンストリームタスクへの知識移転が可能になるため、これらのタスクはラベル付けされたデータが少ない必要があります。 「セルフスーパービジョン」と呼ばれるこのパラダイムは、私たちがモデルを訓練する方法(およびプリトレイン)に革命をもたらしました。これらのモデルは、最近、自己監視エコシステムを理解することに関するスタンフォードイニシアチブによって「基礎モデル」と呼ばれていますが、これらのモデルへのFEDのデータを理解するために、手作業のデータから焦点を移しました。
自己教師のデータは、多くの場合、大規模なパブリックデータソース(Wikipediaなど)からキュレーションされているため、トレーニングデータではまれなものの長い尾が十分に表されていない人気バイアスを含めることができます。 Orr et。アル。いくつかの人気のあるモデル(例えば、Bert)は、文脈の暗記に依存しており、この長い尾を解決するのに苦労しています。それに関連する多様なパターンのセットを覚えるのに十分な珍しいことを見ることができないからです。ロングテールの問題は、アンバーからの検索タスクなど、下流のタスクにも伝播します。 AIの交差点にある1つのエキサイティングな将来の方向と、長い尾に対処するためのデータ管理コミュニティからの長年の研究にある1つは、構造化された知識をモデルに統合することです。構造化された知識は、名前付きエンティティの曖昧性を乱すシステムであるBootlegの尾の成功の背後にある核となるアイデアです。
モデル炎領域の終了ページ
歴史的に、ML研究者の「キャンディーショップの子供」の瞬間は、PytorchやJaxなどのツールを使用してモデルを構築および調整しています。新しいモデルが毎日公開されており、これらのカスタマイズモデルアーキテクチャと細かく調整されたパラメーターは、最新の結果を破りました。しかし、このモデル炎の流行は終わりに近づいています。
最近、研究者は2つのことを認識しています。(1)モデルの調整よりもデータを深く理解することからより多くの利益が生まれています(データ増強のすべてのエキサイティングな作業を参照)。環境。これにより、Commoditized Architecturesを実施するLudwigやOvertonなどのモデル構築プラットフォームが作成され、MLシステムに移動して宣言的にMolinoとRé2021に移動しました。これらのコモディティモデルは、調整された前身よりも優れていることを示しました。この結果は、アーキテクチャの問題がデータよりも少ないことを示したKaplanらによってさらにサポートされました。
私たちがモデル炎の終わりと呼んでいるこの傾向は、モデル構造のデータ中心の見解に向かっています。問題は、「最良のモデルを構築する方法」から「どのようにモデルに餌を与えますか」に移行することです。
評価エリアページ
モデル評価は、機械学習におけるモデル開発プロセスの重要な部分です。評価の目標は、モデルの品質を理解し、将来的にうまく機能するかどうかを予測することです。
評価は機械学習の古典的な問題ですが、データ中心のAIアプローチは、精度やF1スコアなどの平均パフォーマンスの標準的な尺度を超えて、特定の関心集団のパフォーマンスを測定するために、微調整された評価へのシフトを触媒しています。これにより、モデルのパフォーマンスをより詳細に理解することができ、ユーザーがモデル機能のより明確なアイデアを提供します。このシフトは、微調整された評価へのアクセスにより、より堅牢なモデルを構築する能力が向上するため、モデルの堅牢性を理解することに関心が高まることを補完します。
微調整された評価へのアプローチには、スライス、不変性または感度と呼ばれる重要なデータサブセットのパフォーマンスの測定、および敵対的摂動に対する抵抗が含まれます。ほとんどの評価はユーザー指定ですが、重要な作業では、モデルがモデルビルダーによって見逃されている隠された層のモデルがしばしばパフォーマンスが低下していることがわかりました。これは、これらの隠された層を自動的に発見するか、より一般的には、データセットとモデルを組み合わせて体系的に分析することにより、モデルのすべての障害モードを見つけることに将来の作業を動機付けます。
微調整された評価のもう1つの重要な側面は、分布シフトによるパフォーマンスの分解を予測、測定、緩和するためのデータとモデルの監視です。これには、外れ値と見なされるデータポイントの識別と分離、展開されたモデルにストリーミングされている非標識データのパフォーマンスの推定、およびデータ分布が時間の経過とともにどのようにシフトするかの豊富な要約を生成することが含まれます。
堅牢性エリアページ
機械学習モデルをうまく展開するための標準的な仮定の1つは、テスト時間分布がトレーニング中に遭遇し、十分に表現されるものと類似していることです。しかし、実際には、この仮定がめったに保持されません。トレーニング分布と正確に一致する設定にモデルを展開することはめったにありません。分布シフトに堅牢なトレーニングモデルは、野生の機械学習を改善するためのもう1つのコアチャレンジであり、データ中心のパラダイムの下で対処できると主張します。
ここでは、(1)亜集団のシフトまたは隠された層別化、(2)ドメインシフト、および(3)敵対的摂動からのシフトとして、分布シフトへの堅牢性を改善する試みを広く分類します。
亜集団のシフトでは、トレーニングとテスト時間の分布は、各亜集団または「データグループ」がどれだけよく代表されるかによって異なります。トレーニングデータに特定の亜集団が過小評価されている場合、トレーニング中にこれらの分布が発生したとしても、標準的な経験的リスク最小化(ERM)と「統計的平均からの学習」は、過剰に補足された亜集団でのみパフォーマンスを発揮するモデルをもたらす可能性があります。
グループDROとジョージの両方は、実際のインスタンス化の下で亜集団のシフトを処理するアプローチを導入しました。これらの方法は、アップサンプリング推定グループ(LFF、JTT)に関連する追加の作業に影響を与え、コントラスト学習を使用してグループ不変の表現(CNC-リンクが近づいている)を学習します。
亜集団シフトを超えて、堅牢性にはドメインシフトと敵対的な摂動も備えています。ドメインシフトでは、トレーニングデータとはまったく異なるドメインからのテスト時間データをモデル化します。敵対的な摂動を伴う分布シフトでは、テスト時間データは、訓練されたERMモデルがテスト時間分布に強く一般化することを妨げる入力特徴空間に腐敗または知覚できない違いを示す可能性があります。これらの重要なセクションはまだスタブです。貢献を追加してください!
データクリーニングエリアページ
ML/AIアプリケーションのデータ品質を向上させる別の方法は、データクリーニングを介したものです。このラインに沿って、データクリーニングと機械学習を共同で理解するために、さまざまなエキサイティングな作業があります。
mlopsエリアページ
データの中心的な役割により、ML/AIアプリケーションの開発と展開が人間のループプロセスになります。これは、人間のエンジニアが間違いを犯したり、ガイダンスを必要としたり、予期しないことが起こったときに警告する必要がある複雑なプロセスです。 MLOPSの目標は、ライフサイクル管理、監視、および検証の原則的な方法を提供することです。
研究者は、開発中と生産中の機械学習モデルのライフサイクル全体を処理するように設計されたTFX、ease.ml、またはOvertonなどの新しい技術と構築システムを開発することにより、これらの課題に取り組み始めました。これらのシステムは通常、特定の段階(トレーニング前またはトレーニング後)またはMLOPSの側面(監視またはデバッグなど)を処理することを担当する異なるコンポーネントで構成されています。
データ選択領域ページ
膨大な量のデータにより、深い学習の成功の多くが可能になりましたが、このビッグデータは独自の問題をもたらします。大規模なデータセットを使用することは、計算リソースとラベル付けの両方の点で面倒で高価です。アクティブな学習やコアセット選択などのデータ選択方法は、ラベルまたはトレーニングを行う最も価値のある例を選択することにより、ビッグデータの痛みを軽減できます。
データ選択はAI/mLの長年の領域でしたが、最新の産業データセットのスケールとスキューにより、フィールドがより正確にデータを評価し、選択方法のスケーラビリティを改善するようになりました。 (Sener&SavareseやGhorbani et al。)などの最近の作品は、モデルの不確実性のみに依存するのではなく、多様性と代表性に焦点を当てることにより、各トレーニングの貢献度を定量化するために、よりデータ中心のアプローチを採用しています。これらの方法が拡大するのを助けるために、SVPやシールなどのアプローチは、計算コストを最大3桁削減するための簡単な方法を提示し、Webスケールのアクティブな学習とデータ選択をより広く可能にします。
ラベルと計算効率のこれらの進歩により、データ選択は最新のデータセットに適用されるため、AI/MLは、量ではなく品質に焦点を当てたよりデータ中心のビューをとることができます。
データプライバシー領域ページ
この説明はスタブです。改善することでお手伝いできます。
データフローエリアページ
この領域はスタブです。改善することでお手伝いできます。
マルチタスクおよびマルチドメイン学習エリアページ
この領域はスタブです。改善することでお手伝いできます。
新しいトレンドエリアページ
データ中心のAIはまだ成長しており、発生するにつれて新たな傾向を捉えたいと考えています。私たちが形成していると思われるいくつかの新しい分野には、インタラクティブな機械学習、大量尺度モデル、および観測MLが含まれます。エリアページをご覧ください。
アプリケーションエリアページ
データ中心のアプローチは、学界、業界、または他の組織であろうと、機械学習が使用され、展開されている場所で幅広い影響を与えました。インパクトは、構造化されたデータ、テキスト、画像、ビデオ、グラフなどのモダリティに及び、領域にはテキストと画像処理、医療イメージング、計算生物学、自律運転などが含まれます。