
我們正在收集以數據為中心的AI中(公認的)資源和進度清單,並具有令人興奮的過去,現在和未來的方向。該博客討論了我們以數據為中心AI的旅程,我們表達了為什麼我們對數據作為AI的觀點感到興奮的原因。
儘管AI非常專注於模型,但將模型投入生產的人的現實經驗是,數據通常更重要。該存儲庫的目的是在一個可以理解並為該領域做出貢獻的人訪問的地方鞏固這一經驗。
我們只是在開始時,您可以通過為此Github做出貢獻來提供幫助!感謝所有迄今為止貢獻的人。
如果您對此領域感興趣並想听到更多信息,請加入我們的郵件列表!我們也很感激您是否可以填寫此簡短表格,以幫助我們更好地了解您的興趣。
我們正在斯坦福大學創建一個以數據為中心的AI的課程,我們希望您的反饋。如果您有興趣了解更多信息,請填寫此表格。
如果您對我們如何使該存儲庫更好的想法,請隨時提交有關建議的問題。
我們希望這種資源通過讀者和數據愛好者的貢獻來增長。如果您想為此GitHub存儲庫做出貢獻,請閱讀我們的貢獻指南。
背景
該區域是一個存根,您可以通過改進它來提供幫助。
關於如何使機器學習在真實用例上工作時,人們感到非常興奮。以數據為中心的AI體現了圍繞這種進步的方式的特定觀點:通過專注於使從業者更容易理解,編程和在數據集上進行迭代,而不是在模型上花費時間。
數據編程和弱監督區域頁面
許多現代的機器學習系統需要大型,標記的數據集才能成功,但是生產此類數據集既耗時又昂貴。取而代之的是,自90年代以來,已經使用了較弱的監督來源,例如眾包,遙遠的監督和領域專家(如赫斯特)的啟發式方法。
但是,這些人在很大程度上被AI和AI/ML的人認為是臨時或孤立的技術。將這些努力統一併將其結合到以數據為中心的觀點中,從數據編程(又稱編程標籤)中開始,該標籤體現在浮潛中,這是一個現在是一個開源項目和蓬勃發展的公司。在浮潛的以數據為中心的AI方法中,用戶指定了多個標記功能,每個標籤函數代表了地面真相標籤的嘈雜估計。由於這些標記功能在數據集的準確性和覆蓋範圍內有所不同,甚至可能是相關的,因此它們通過潛在變量圖形模型組合和分解。因此,技術挑戰是在此模型中學習準確性和相關參數,並使用它們來推斷用於下游任務的真實標籤。
數據編程基於潛在可變圖形模型中參數估計的長期工作。具體來說,學習了標記函數的聯合分佈和未觀察到的(潛在)真實標籤的生成模型。該標籤模型允許聚集信號的各種來源,同時允許它們具有不同的準確性和潛在相關性。
這篇浮潛博客文章包含了薄弱監督的概述,包括它與其他標記的數據和技術建模挑戰的方法進行比較。這些Stanford CS229的講義提供了理論上的摘要,內容涉及如何在弱監督中使用圖形模型。
數據增強區域頁面
當訓練機器學習模型收集一個大型,多樣化的數據集時,一個主要挑戰,可以充分捕獲現實世界中觀察到的可變性。由於收集和標記數據集的成本,數據擴展已成為一種便宜,有希望的替代方案。
數據增強中的核心思想是在現有數據集中轉換示例,以生成其他增強示例,然後將其添加到數據集中。這些其他示例通常會增加模型看到的數據的多樣性,並為模型提供其他監督。數據增強的基礎源於切線傳播,該傳播引入了技術,以使學習模型不變。
通過產生鼓勵翻譯或旋轉不變性的示例,諸如Alexnet之類的增強作用(例如Alexnet)的早期成功。這些成功使增強功能成為管道的事實上的一部分,用於一組諸如圖像,語音和文本分類,機器翻譯等的多個任務集。
在增強中使用的轉換選擇是一個重要的考慮因素,因為它決定了該模型所學的不變性及其在遇到各種測試示例時的行為。儘管啟發式增強量仍然很受歡迎,但重要的是能夠更仔細地控制和編程增強管道。 TANDA通過組成數據轉換的選擇,開始了對編程增強管道問題的研究。此後,該領域的發展迅速增長,既有更深的理論理解和實際實施,例如自動儀。一條新生的工作線利用有條件的生成模型來學習 - 比指定的轉換,進一步擴展了該編程範式。
自私區域頁面
對大型,標記的數據集的需求具有激勵方法,可以使用未標記的數據預先培訓輸入空間的潛在表示,並在下游任務中使用所得的知識富裕表示。由於表示允許知識轉移到下游任務,因此這些任務需要較少標記的數據。這種稱為“自我審判”的範式徹底改變了我們訓練(和預訓練)模型的方式。這些模型最近被斯坦福計劃圍繞理解自我監管的生態系統稱為“基礎模型”,它已將重點從手工標記的數據轉移到理解這些模型的數據。
由於自我監督的數據通常是通過大型公共數據源(例如Wikipedia)策劃的,因此它可能包含受歡迎程度的偏見,在培訓數據中,罕見事物的長尾巴沒有很好地表示。如Orr等。 al。表明,一些受歡迎的模型(例如,伯特)依靠上下文記憶和努力解決這一長尾巴,因為它們無法看到足夠的時間來記住與之相關的各種模式。長時間的尾巴問題甚至傳播到下游任務,例如琥珀的檢索任務。一個令人興奮的未來方向是通過將結構化知識的整合到模型中,這是AI與數據管理社區多年研究以解決長尾的多年研究的一個令人興奮的未來方向。結構化知識是Bootleg的尾巴成功背後的核心思想,Bootleg是一個用於命名實體歧義的系統。
模型炎區域頁面的結尾
從歷史上看,ML研究人員的“糖果店裡的孩子”時刻正在使用Pytorch或Jax等工具來建立和調整模型。每天都會出現新的模型,這些自定義模型體系結構和精心調整的參數正在擊敗最新的結果。然而,這種模型炎的熱潮即將結束。
最近,研究人員意識到了兩件事:(1)更多的收益來自深刻了解數據而不是模型調整(請參閱數據增強中的所有令人興奮的工作),以及(2)自定義模型難以維護和擴展生產中環境。這導致了Ludwig和Overton等模型構建平台,該平台強制實施了商品化的體系結構,並朝著可以發表聲明的Molino和Ré2021創建的ML系統。他們顯示這些商品模型甚至比他們調整後的前輩更好! Kaplan等人進一步支持了這一結果,該結果表明架構的重要性小於數據。
我們稱這種趨勢為模型炎的結束,正朝著以數據為中心的模型構建視圖邁進。問題是從“如何構建最佳模型”轉變為“您如何餵養模型”。
評估區域頁面
模型評估是機器學習模型開發過程的關鍵部分。評估的目的是了解模型的質量,並預計它將在將來表現良好。
雖然評估是機器學習中的一個經典問題,但以數據為中心的AI方法促進了向細粒度評估的轉變:超越了平均表現的標準度量,例如準確性和F1分數,以衡量特定感興趣群體的性能。這使人們對模型性能有了更精細的了解,並為用戶提供了模型功能的更清晰的概念。這種轉變是對理解模型魯棒性越來越興趣的互補性,因為獲得細粒度評估允許增強建立更健壯模型的能力。
細粒度評估的方法包括測量稱為切片,不變性或對數據轉換的敏感性以及對對抗性擾動的抗性的關鍵數據子集的性能。儘管大多數評估都是用戶指定的,但重要的工作發現,模型在隱藏地層上通常表現不佳,而模型構建者在評估中卻錯過了,這可能會對我們部署和使用模型的能力產生深遠的影響。這激發了未來的工作,以自動發現這些隱藏的階層,或更普遍地,通過系統地分析數據集和模型的結合,以找到模型的所有可能的故障模式。
細粒度評估的另一個重要方面是數據和模型監視,以預測,衡量和減輕由於分配轉移而導致的性能下降。這包括識別和隔離可能被視為離群值的數據點,估算流入已部署模型的未標記數據的性能,以及生成有關數據分佈如何隨時間轉移的豐富摘要。
魯棒性區域頁面
成功部署機器學習模型的一個標准假設是,測試時間分佈類似於培訓期間遇到和代表性良好的時間分佈。但是,實際上,這個假設很少存在:我們很少希望在與其訓練分佈完全符合的設置中部署模型。培訓模型強大的分配變化是改善野外機器學習的另一個核心挑戰,我們認為可以在以數據為中心的範式下解決這一問題。
在這裡,我們廣泛地將嘗試提高分佈偏移的魯棒性的嘗試歸類為(1)亞種群移動或隱藏分層,(2)域移動,(3)從對抗性擾動中移動。
在亞群體轉移下,培訓和測試時間分佈在每個亞群或“數據組”的良好代表性方面有所不同。如果培訓數據中某些亞群的代表性不足,那麼即使在培訓期間遇到這些分佈,標準的經驗風險最小化(ERM)(ERM)和“從統計平均學習”也可能導致模型只能在代表性過多的子人群中表現良好。
Dro和George都介紹了在現實世界實例化下處理亞群轉移的方法。這些方法啟發了與上採樣估計組(LFF,JTT)相關的其他工作,並使用對比度學習來學習組不變表示(CNC-鏈接即將推出)。
除了亞群的轉移之外,魯棒性還具有域移位和對抗性擾動。在域轉移下,我們將測試時間數據建模為與培訓數據完全不同的域。在與對抗性擾動的分配轉移下,測試時間數據可能在輸入特徵空間中顯示出損壞或易於識別的差異,這阻止了受過訓練的ERM模型對測試時間分佈的強烈推廣。這些重要的部分仍然是存根。請添加您的貢獻!
數據清潔區域頁面
改善ML/AI應用程序數據質量的另一種方法是通過數據清潔。沿這條線有各種各樣的激動人心的工作,以共同了解數據清潔和機器學習。
MLOPS區域頁面
數據的核心作用使ML/AI應用程序的開發和部署成為人類在循環過程中。這是一個複雜的過程,在這種過程中,人類工程師可以犯錯,需要指導或需要在發生意外的事情時被警告。 MLOP的目標是為生命週期管理,監視和驗證提供原則的方法。
研究人員已經開始通過開發新技術和建築系統(例如TFX,sease.ml或Overton)來應對這些挑戰,旨在處理開發和生產過程中機器學習模型的整個生命週期。這些系統通常由負責處理特定階段(例如,訓練前或訓練後)或MLOP的方面(例如,監視或調試)的不同組成部分組成。
數據選擇區域頁面
大量的數據使深度學習取得了許多成功,但是這個大數據帶來了自己的問題。就計算資源和標籤而言,使用大量數據集工作繁瑣且昂貴。數據選擇方法(例如主動學習和核心選擇)可以通過選擇最有價值的示例來標記或訓練,可以減輕大數據的痛苦。
儘管數據選擇一直是AI/ML的長期領域,但現代工業數據集的規模和偏差已推動了該領域以更準確地重視數據並提高選擇方法的可擴展性。最近的著作,例如(Sener&Savarese和Ghorbani等),採取了以數據為中心的方法來量化每個培訓示例的貢獻,通過專注於多樣性和代表性,而不是僅僅依靠模型不確定性。為了幫助這些方法擴展,諸如SVP和密封件之類的方法提出了簡單的方法,可將計算成本降低多達三個數量級,從而更廣泛地使網絡規模的主動學習和數據選擇更廣泛。
這些標籤和計算效率方面的進步使數據選擇適用於現代數據集,從而使AI/ML更加以數據為中心的視圖側重於質量而不是數量。
數據隱私區域頁面
此描述是一個存根,您可以通過改進它來提供幫助。
數據流域頁面
該區域是一個存根,您可以通過改進它來提供幫助。
多任務和多域學習區域頁面
該區域是一個存根,您可以通過改進它來提供幫助。
新興趨勢區域頁面
以數據為中心的AI仍在增長,我們希望在出現時捕捉新興趨勢。我們認為正在形成的一些新領域涉及交互式機器學習,大規模尺度模型和觀察性ML。看看區域頁面。
應用區域頁面
以數據為中心的方法在使用和部署機器學習的任何地方,無論是在學術界,行業還是其他組織中都具有廣泛的影響。影響跨度的模式,例如結構化數據,文本,圖像,視頻,圖形等,而區域包括文本和圖像處理,醫學成像,計算生物學,自主駕駛等。