
我们正在收集以数据为中心的AI中(公认的)资源和进度清单,并具有令人兴奋的过去,现在和未来的方向。该博客讨论了我们以数据为中心AI的旅程,我们表达了为什么我们对数据作为AI的观点感到兴奋的原因。
尽管AI非常专注于模型,但将模型投入生产的人的现实经验是,数据通常更重要。该存储库的目的是在一个可以理解并为该领域做出贡献的人访问的地方巩固这一经验。
我们只是在开始时,您可以通过为此Github做出贡献来提供帮助!感谢所有迄今为止贡献的人。
如果您对此领域感兴趣并想听到更多信息,请加入我们的邮件列表!我们也很感激您是否可以填写此简短表格,以帮助我们更好地了解您的兴趣。
我们正在斯坦福大学创建一个以数据为中心的AI的课程,我们希望您的反馈。如果您有兴趣了解更多信息,请填写此表格。
如果您对我们如何使该存储库更好的想法,请随时提交有关建议的问题。
我们希望这种资源通过读者和数据爱好者的贡献来增长。如果您想为此GitHub存储库做出贡献,请阅读我们的贡献指南。
背景
该区域是一个存根,您可以通过改进它来提供帮助。
关于如何使机器学习在真实用例上工作时,人们感到非常兴奋。以数据为中心的AI体现了围绕这种进步的方式的特定观点:通过专注于使从业者更容易理解,编程和在数据集上进行迭代,而不是在模型上花费时间。
数据编程和弱监督区域页面
许多现代的机器学习系统需要大型,标记的数据集才能成功,但是生产此类数据集既耗时又昂贵。取而代之的是,自90年代以来,已经使用了较弱的监督来源,例如众包,遥远的监督和领域专家(如赫斯特)的启发式方法。
但是,这些人在很大程度上被AI和AI/ML的人认为是临时或孤立的技术。将这些努力统一并将其结合到以数据为中心的观点中,从数据编程(又称编程标签)中开始,该标签体现在浮潜中,这是一个现在是一个开源项目和蓬勃发展的公司。在浮潜的以数据为中心的AI方法中,用户指定了多个标记功能,每个标签函数代表了地面真相标签的嘈杂估计。由于这些标记功能在数据集的准确性和覆盖范围内有所不同,甚至可能是相关的,因此它们通过潜在变量图形模型组合和分解。因此,技术挑战是在此模型中学习准确性和相关参数,并使用它们来推断用于下游任务的真实标签。
数据编程基于潜在可变图形模型中参数估计的长期工作。具体来说,学习了标记函数的联合分布和未观察到的(潜在)真实标签的生成模型。该标签模型允许聚集信号的各种来源,同时允许它们具有不同的准确性和潜在相关性。
这篇浮潜博客文章包含了薄弱监督的概述,包括它与其他标记的数据和技术建模挑战的方法进行比较。这些Stanford CS229的讲义提供了理论上的摘要,内容涉及如何在弱监督中使用图形模型。
数据增强区域页面
当训练机器学习模型收集一个大型,多样化的数据集时,一个主要挑战,可以充分捕获现实世界中观察到的可变性。由于收集和标记数据集的成本,数据扩展已成为一种便宜,有希望的替代方案。
数据增强中的核心思想是在现有数据集中转换示例,以生成其他增强示例,然后将其添加到数据集中。这些其他示例通常会增加模型看到的数据的多样性,并为模型提供其他监督。数据增强的基础源于切线传播,该传播引入了技术,以使学习模型不变。
通过产生鼓励翻译或旋转不变性的示例,诸如Alexnet之类的增强作用(例如Alexnet)的早期成功。这些成功使增强功能成为管道的事实上的一部分,用于一组诸如图像,语音和文本分类,机器翻译等的多个任务集。
在增强中使用的转换选择是一个重要的考虑因素,因为它决定了该模型所学的不变性及其在遇到各种测试示例时的行为。尽管启发式增强量仍然很受欢迎,但重要的是能够更仔细地控制和编程增强管道。 TANDA通过组成数据转换的选择,开始了对编程增强管道问题的研究。此后,该领域的发展迅速增长,既有更深的理论理解和实际实施,例如自动仪。一条新生的工作线利用有条件的生成模型来学习 - 比指定的转换,进一步扩展了该编程范式。
自私区域页面
对大型,标记的数据集的需求具有激励方法,可以使用未标记的数据预先培训输入空间的潜在表示,并在下游任务中使用所得的知识富裕表示。由于表示允许知识转移到下游任务,因此这些任务需要较少标记的数据。这种称为“自我审判”的范式彻底改变了我们训练(和预训练)模型的方式。这些模型最近被斯坦福计划围绕理解自我监管的生态系统称为“基础模型”,它已将重点从手工标记的数据转移到理解这些模型的数据。
由于自我监督的数据通常是通过大型公共数据源(例如Wikipedia)策划的,因此它可能包含受欢迎程度的偏见,在培训数据中,罕见事物的长尾巴没有很好地表示。如Orr等。 al。表明,一些受欢迎的模型(例如,伯特)依靠上下文记忆和努力解决这一长尾巴,因为它们无法看到足够的时间来记住与之相关的各种模式。长时间的尾巴问题甚至传播到下游任务,例如琥珀的检索任务。一个令人兴奋的未来方向是通过将结构化知识的整合到模型中,这是AI与数据管理社区多年研究以解决长尾的多年研究的一个令人兴奋的未来方向。结构化知识是Bootleg的尾巴成功背后的核心思想,Bootleg是一个用于命名实体歧义的系统。
模型炎区域页面的结尾
从历史上看,ML研究人员的“糖果店里的孩子”时刻正在使用Pytorch或Jax等工具来建立和调整模型。每天都会出现新的模型,这些自定义模型体系结构和精心调整的参数正在击败最新的结果。然而,这种模型炎的热潮即将结束。
最近,研究人员意识到了两件事:(1)更多的收益来自深刻了解数据而不是模型调整(请参阅数据增强中的所有令人兴奋的工作),以及(2)自定义模型难以维护和扩展生产中环境。这导致了Ludwig和Overton等模型构建平台,该平台强制实施了商品化的体系结构,并朝着可以发表声明的Molino和Ré2021创建的ML系统。他们显示这些商品模型甚至比他们调整后的前辈更好! Kaplan等人进一步支持了这一结果,该结果表明架构的重要性小于数据。
我们称这种趋势为模型炎的结束,正朝着以数据为中心的模型构建视图迈进。问题是从“如何构建最佳模型”转变为“您如何喂养模型”。
评估区域页面
模型评估是机器学习模型开发过程的关键部分。评估的目的是了解模型的质量,并预计它将在将来表现良好。
虽然评估是机器学习中的一个经典问题,但以数据为中心的AI方法促进了向细粒度评估的转变:超越了平均表现的标准度量,例如准确性和F1分数,以衡量特定感兴趣群体的性能。这使人们对模型性能有了更精细的了解,并为用户提供了模型功能的更清晰的概念。这种转变是对理解模型鲁棒性越来越兴趣的互补性,因为获得细粒度评估允许增强建立更健壮模型的能力。
细粒度评估的方法包括测量称为切片,不变性或对数据转换的敏感性以及对对抗性扰动的抗性的关键数据子集的性能。尽管大多数评估都是用户指定的,但重要的工作发现,模型在隐藏地层上通常表现不佳,而模型构建者在评估中却错过了,这可能会对我们部署和使用模型的能力产生深远的影响。这激发了未来的工作,以自动发现这些隐藏的阶层,或更普遍地,通过系统地分析数据集和模型的结合,以找到模型的所有可能的故障模式。
细粒度评估的另一个重要方面是数据和模型监视,以预测,衡量和减轻由于分配转移而导致的性能下降。这包括识别和隔离可能被视为离群值的数据点,估算流入已部署模型的未标记数据的性能,以及生成有关数据分布如何随时间转移的丰富摘要。
鲁棒性区域页面
成功部署机器学习模型的一个标准假设是,测试时间分布类似于培训期间遇到和代表性良好的时间分布。但是,实际上,这个假设很少存在:我们很少希望在与其训练分布完全符合的设置中部署模型。培训模型强大的分配变化是改善野外机器学习的另一个核心挑战,我们认为可以在以数据为中心的范式下解决这一问题。
在这里,我们广泛地将尝试提高分布偏移的鲁棒性的尝试归类为(1)亚种群移动或隐藏分层,(2)域移动,(3)从对抗性扰动中移动。
在亚群体转移下,培训和测试时间分布在每个亚群或“数据组”的良好代表性方面有所不同。如果培训数据中某些亚群的代表性不足,那么即使在培训期间遇到这些分布,标准的经验风险最小化(ERM)(ERM)和“从统计平均学习”也可能导致模型只能在代表性过多的子人群中表现良好。
Dro和George都介绍了在现实世界实例化下处理亚群转移的方法。这些方法启发了与上采样估计组(LFF,JTT)相关的其他工作,并使用对比度学习来学习组不变表示(CNC-链接即将推出)。
除了亚群的转移之外,鲁棒性还具有域移位和对抗性扰动。在域转移下,我们将测试时间数据建模为与培训数据完全不同的域。在与对抗性扰动的分配转移下,测试时间数据可能在输入特征空间中显示出损坏或易于识别的差异,这阻止了受过训练的ERM模型对测试时间分布的强烈推广。这些重要的部分仍然是存根。请添加您的贡献!
数据清洁区域页面
改善ML/AI应用程序数据质量的另一种方法是通过数据清洁。沿这条线有各种各样的激动人心的工作,以共同了解数据清洁和机器学习。
MLOPS区域页面
数据的核心作用使ML/AI应用程序的开发和部署成为人类在循环过程中。这是一个复杂的过程,在这种过程中,人类工程师可以犯错,需要指导或需要在发生意外的事情时被警告。 MLOP的目标是为生命周期管理,监视和验证提供原则的方法。
研究人员已经开始通过开发新技术和建筑系统(例如TFX,sease.ml或Overton)来应对这些挑战,旨在处理开发和生产过程中机器学习模型的整个生命周期。这些系统通常由负责处理特定阶段(例如,训练前或训练后)或MLOP的方面(例如,监视或调试)的不同组成部分组成。
数据选择区域页面
大量的数据使深度学习取得了许多成功,但是这个大数据带来了自己的问题。就计算资源和标签而言,使用大量数据集工作繁琐且昂贵。数据选择方法(例如主动学习和核心选择)可以通过选择最有价值的示例来标记或训练,可以减轻大数据的痛苦。
尽管数据选择一直是AI/ML的长期领域,但现代工业数据集的规模和偏差已推动了该领域以更准确地重视数据并提高选择方法的可扩展性。最近的著作,例如(Sener&Savarese和Ghorbani等),采取了以数据为中心的方法来量化每个培训示例的贡献,通过专注于多样性和代表性,而不是仅仅依靠模型不确定性。为了帮助这些方法扩展,诸如SVP和密封件之类的方法提出了简单的方法,可将计算成本降低多达三个数量级,从而更广泛地使网络规模的主动学习和数据选择更广泛。
这些标签和计算效率方面的进步使数据选择适用于现代数据集,从而使AI/ML更加以数据为中心的视图侧重于质量而不是数量。
数据隐私区域页面
此描述是一个存根,您可以通过改进它来提供帮助。
数据流域页面
该区域是一个存根,您可以通过改进它来提供帮助。
多任务和多域学习区域页面
该区域是一个存根,您可以通过改进它来提供帮助。
新兴趋势区域页面
以数据为中心的AI仍在增长,我们希望在出现时捕捉新兴趋势。我们认为正在形成的一些新领域涉及交互式机器学习,大规模尺度模型和观察性ML。看看区域页面。
应用区域页面
以数据为中心的方法在使用和部署机器学习的任何地方,无论是在学术界,行业还是其他组织中都具有广泛的影响。影响跨度的模式,例如结构化数据,文本,图像,视频,图形等,而区域包括文本和图像处理,医学成像,计算生物学,自主驾驶等。