什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

人工智能(AI)正在几乎每个领域产生深远影响。其巨大成功的一个重要促成因素是可用于构建机器学习模型的丰富和高质量数据。最近，数据在人工智能中的作用被显著放大，催生了以数据为中心的人工智能概念。研究人员和从业人员的关注焦点已逐渐从推进模型设计转向提高数据的质量和数量。**本文讨论了以数据为中心的人工智能的必要性，对三个一般的以数据为中心的目标(训练数据开发、推理数据开发和数据维护)和代表性方法进行了整体看法。**从自动化和协作的角度组织了现有的文献，讨论了挑战，并列出了各种任务的基准。我们相信这是第一个全面的综述，提供了跨数据生命周期各个阶段的任务谱的全局视图。希望它能帮助读者有效地掌握这一领域的概览，并为他们提供系统地设计数据以构建人工智能系统的技术和进一步的研究思路。以数据为中心的人工智能资源的配套列表将在https://github.com/daochenzha/data-centric-AI上定期更新。

过去的十年见证了人工智能(AI)的巨大进步，几乎在每个领域都产生了深远的影响，如自然语言处理[47]、计算机视觉[235]、推荐系统[284]、医疗保健[161]、生物学[248]、金融[175]等。这些巨大成功的一个关键促成因素是丰富和高质量的数据的可用性。许多重大的人工智能突破只有在我们获得正确的训练数据之后才会发生。例如，AlexNet[127]是第一批成功的卷积神经网络之一，它是基于ImageNet数据集[59]设计的。AlphaFold[117]是人工智能在科学发现方面的一个突破，如果没有注释的蛋白质序列[163]，将不可能实现。大型语言模型的最新进展依赖于大型文本数据进行训练34,121,187,188。除了训练数据外，精心设计的推理数据有助于对人工智能中众多关键问题的初步识别，并解锁新的模型能力。一个著名的例子是对抗样本[129]，它通过对输入数据的专门修改来混淆神经网络，这引起了人们对研究人工智能安全的兴趣激增。另一个例子是prompt engineering[146]，它仅通过调整输入数据来从模型中探测知识，同时保持模型固定(图1右侧)来完成各种任务。与此同时，数据的价值在工业界得到了广泛的认可。许多大型科技公司已经建立了基础设施来组织、理解和调试构建AI系统的数据[7,15,230,233]。在构建训练数据、推理数据和维护数据的基础设施方面的所有努力，为今天人工智能的成就铺平了道路。

最近，数据在人工智能中的作用被显著放大，引发了新兴的以数据为中心的人工智能概念 [108,109,183,250,268]。在传统的以模型为中心的AI生命周期中，研究人员和开发人员主要关注于识别更有效的模型来提高AI性能，同时保持数据基本不变。然而，这种以模型为中心的范式忽略了潜在的质量问题和数据的不良缺陷，如缺失值、不正确的标签和异常。作为对现有模型推进工作的补充，以数据为中心的人工智能强调数据的系统工程，以构建人工智能系统，将重点从模型转移到数据。需要注意的是，"以数据为中心"与"数据驱动"有本质区别，后者只强调使用数据来指导人工智能开发，而后者通常仍以开发模型为中心，而不是工程数据。

已经有几个倡议致力于以数据为中心的人工智能运动。一个值得注意的是Ng等人[170]发起的竞赛，它要求参与者迭代数据集，只为了提高性能。Snorkel[190]构建了一个系统，可以使用启发式功能实现自动数据注释，而无需手动标记。由于许多好处，一些新兴的AI公司将数据置于中心地位，例如提高准确性，更快的部署和标准化的工作流[169,189,240]。这些跨学术界和工业界的集体行动，证明了使用以数据为中心的方法构建人工智能系统的必要性。

**随着以数据为中心的人工智能需求的不断增长，各种方法被提出。一些相关的研究课题并不新鲜。**例如，数据增强[74]已被广泛研究以提高数据多样性。为了准备更简洁的数据，特征选择[138]早在几十年前就被研究了。与此同时，最近出现了一些新的研究方向，如用于快速标记数据的数据编程[191]，用于理解模型决策的算法求助[120]，以及修改大型语言模型输入以获得理想预测的提示工程[146]。从另一个维度来看，一些工作致力于使数据处理更加自动化，如自动数据增强[56]和自动管道发现[68,132]。其他一些方法强调在创建数据时人机协作，以便模型可以与人类的意图保持一致。例如，**ChatGPT和GPT-4的显著成功[172]在很大程度上归功于从人类反馈程序[48]中进行的强化学习，它要求人类对提示提供适当的响应，并将输出进行排序作为奖励[174]。**尽管上述方法是为了不同的目的而独立开发的，但它们的共同目标是确保数据的质量、数量和可靠性，以便模型按照预期的方式运行。

在对数据为中心的人工智能的需求和所提出的众多方法的驱动下，本文从整体上介绍了数据为中心的人工智能的技术进展，并总结了现有的研究方向。具体而言，本综述围绕以下研究问题展开: * RQ1: 让AI以数据为中心的必要任务是什么? * RQ2: 为什么自动化对数据的开发和维护很重要? * RQ3: 在哪些情况下以及为什么人类参与在以数据为中心的AI中至关重要? * RQ4: 以数据为中心的人工智能目前的进展如何? 通过回答这些问题，我们做出了三个贡献。首先，提供了一个全面的概述，帮助读者从不同的角度有效地掌握以数据为中心的人工智能的概貌，包括定义、任务、算法、挑战和基准。以目标驱动的分类法组织现有文献。进一步确定每个方法中是否需要人工参与，并将方法标记为自动化水平或人工参与程度。最后，对现有研究进行了分析，并讨论了未来可能的发展机遇。

本调研的结构如下。第2节概述了与数据为中心的人工智能相关的概念和任务。详细阐述了三个以数据为中心的通用人工智能目标的需求、代表性方法和挑战，包括训练数据开发(第3节)、推理数据开发(第4节)和数据维护(第5节)。第6节总结了各种任务的基准。第7节从全局的角度讨论了以数据为中心的人工智能，并强调了潜在的未来方向。最后，我们在第8节总结了这个调研。

2. 以数据为中心的人工智能

本节将介绍以数据为中心的AI的背景。2.1节定义了相关概念。2.2节讨论了为什么需要以数据为中心的人工智能。2.3节描绘了相关任务的大图景，并提出了一个目标驱动的分类法来组织现有的文献。第2.4节侧重于以数据为中心的人工智能的自动化和人类参与。

人工智能(AI): AI是一个广泛的跨学科领域，它试图使计算机具有人类的智能来解决复杂的任务[252]。人工智能的一个主要技术是机器学习，它利用数据来训练预测模型来完成一些任务。 * 数据: 数据是一个非常通用的概念，用于描述传递信息的值的集合。在人工智能的背景下，数据用于训练机器学习模型或作为模型输入进行预测。数据可以以各种格式出现，如表格数据、图像、文本、音频和视频。 * 训练数据: 训练数据是用于机器学习模型训练阶段的数据。该模型利用训练数据调整参数并进行预测。 * 推理数据: 推理数据是用于机器学习模型推理阶段的数据。一方面，它可以在模型训练后对模型的性能进行评估;另一方面，对推理数据进行调优可以帮助获得所需的输出，例如对语言模型的提示进行调优[146]。 * 数据维护: 数据维护是指维护数据质量和可靠性的过程，通常涉及高效的算法、工具和基础设施，以理解和调试数据。数据维护在人工智能中起着至关重要的作用，因为它确保训练和推理数据的准确性和一致性[107]。 * 以数据为中心的人工智能: 数据为中心的人工智能是指为人工智能系统开发、迭代和维护数据的框架[268]。以数据为中心的人工智能涉及构建有效的训练数据、设计适当的推理数据和维护数据的任务和方法。 对以数据为中心的AI的需求

**过去，人工智能通常被视为一个以模型为中心的领域，其重点是在给定固定数据集的情况下推进模型设计。**然而，对固定数据集的过度依赖并不一定会导致现实世界应用中更好的模型行为，因为它忽视了数据的广度、难度和对潜在问题的保真度[155]。此外，这些模型通常很难从一个问题转移到另一个问题，因为它们是高度专业化的，并为特定的问题量身定制。此外，低估数据质量可能会触发数据级联[200]，导致准确性下降和持续偏差[36]等负面影响。这可能会严重阻碍人工智能系统的适用性，特别是在高风险领域。 **因此，研究人员和从业人员的注意力逐渐转向以数据为中心的人工智能，以追求数据卓越[9]。**以数据为中心的人工智能更强调提高数据的质量和数量，模型相对更固定。虽然这一过渡仍在进行中，但我们已经看到了一些表明其好处的成就。例如，大型语言模型的进步很大程度上依赖于大型数据集的使用[34,121,187,188]。与GPT-2[188]相比，GPT-3[34]只对神经架构进行了微小的修改，同时花费精力收集更大的高质量数据集进行训练。ChatGPT[174]是GPT-3的一个非常成功的应用，它采用了与GPT-3类似的神经架构，并使用来自人工反馈过程[48]的强化学习来生成用于微调的高质量标记数据。一种被称为prompt engineering[146]的新方法，通过只专注于调优数据输入，已经取得了重大成功。以数据为中心的方法的好处也可以被从业人员验证[169,189,240]。例如，计算机视觉公司Landing AI发现，通过采用以数据为中心的方法，精度得到了提高，开发时间缩短，以及方法更加一致和可扩展[169]。所有这些成就都展示了以数据为中心的人工智能的前景。

**值得注意的是，以数据为中心的人工智能并没有削弱以模型为中心的人工智能的价值。**相反，这两种范式在构建AI系统时相互交织。一方面，以模型为中心的方法可用于实现以数据为中心的AI目标。例如，我们可以利用生成模型，如GAN[86, 282]和扩散模型[101,124,194]，来执行数据增强并生成更多高质量的数据。另一方面，以数据为中心的人工智能可以促进以模型为中心的人工智能目标的改进。例如，增强数据的可用性的增加可以激发模型设计的进一步进步。因此，在生产场景中，数据和模型往往在不断变化的环境中交替演化[183]。

以数据为中心的人工智能任务

如果没有在具体和具体的任务上取得进展，就无法实现以数据为中心的人工智能的雄心勃勃的运动。不幸的是，大多数现有文献都集中在讨论以数据为中心的人工智能的基础和观点，而没有明确指定相关的任务[108,109,183,209]。为了解决这种模糊性，最近提出的DataPerf基准[155]定义了六个以数据为中心的AI任务: 训练集创建、测试集创建、选择算法、调试算法、切片算法和估值算法。然而，这种扁平的分类法只能部分覆盖现有的以数据为中心的AI文献。例如，一些关键任务，如数据标记[283]，没有包括在内。选择算法只处理实例选择，而不处理特征选择[138]。创建测试集仅限于从一个补充集中选择项，而不是生成一个新集[203]。因此，为了完全包含以数据为中心的人工智能文献，有必要进行更细致的分类。为更全面地理解以数据为中心的人工智能，绘制了相关任务的蓝图，并提出了一个目标驱动的分类法来组织图2中的现有文献。本文将以数据为中心的人工智能分为三个目标: 训练数据开发、推理数据开发和数据维护，其中每个目标都与几个子目标相关联，每个任务属于子目标。我们在下面对这些目标进行高层次的概述。

训练数据开发: 训练数据开发的目标是收集和产生丰富且高质量的训练数据，以支持机器学习模型的训练。它由5个子目标组成，包括1)用于收集原始训练数据的数据收集，2)用于添加信息标签的数据标记，3)用于清洗和转换数据的数据准备，4)用于减少数据大小并可能提高性能的数据缩减，以及5)用于增强数据多样性而不收集更多数据的数据增强。

推理数据开发: 目标是创建新的评估集，可以为模型提供更细粒度的见解，或通过工程数据输入触发模型的特定能力。这方面的工作有三个子目标:1)分布内评估和2)分布外评估的目的是分别生成遵循或不同于训练数据分布的样本，而3)提示工程调整语言模型中的提示以获得所需的预测。推理数据开发中的任务是相对开放的，因为它们通常被设计为评估或解锁模型的各种功能。

数据维护: 在实际应用中，数据不是一次性创建的，而是需要持续维护的。数据维护的目的是保证动态环境中数据的质量和可靠性。它涉及3个基本的子目标:1)数据理解，旨在提供复杂数据的可视化和评估，使人类获得有价值的见解;2)数据质量保证，制定定量测量和质量改进策略，以监测和修复数据;3)数据加速，旨在设计高效的算法，通过合理分配资源和高效处理查询来提供所需的数据。数据维护在以数据为中心的AI框架中起着基础性和支持性的作用，确保训练和推理中的数据准确和可靠。

以数据为中心的人工智能的自动化和人类参与

以数据为中心的AI由一系列与不同数据生命周期阶段相关的任务组成。为了跟上可用数据规模不断增长的步伐，在一些以数据为中心的人工智能任务中，开发自动化算法以简化过程是必不可少的。例如，人们对自动化数据增强[56,272]和特征转换[122]的兴趣越来越大。这些任务的自动化不仅可以提高效率，还可以提高精度[155]。此外，自动化可以促进结果的一致性，减少人为错误的机会。而对于其他一些任务，人工参与是至关重要的，以确保数据与我们的意图一致。例如，人类通常在标记数据中发挥不可或缺的作用[283]，这有助于机器学习算法学习做出所需的预测。是否需要人类的参与取决于我们的目标是否是使数据与人类的期望保持一致。本文将每篇论文分为自动化和协作，前者侧重于过程自动化，后者涉及人工参与。面向自动化的方法通常具有不同的自动化目标。我们可以从现有的方法中识别出几个自动化级别:

程序自动化: 使用程序自动处理数据。程序通常是基于一些启发式和统计信息设计的。

基于学习的自动化: 带优化的自动化策略学习，例如最小化目标函数。这一层次的方法通常更灵活、适应性更强，但需要额外的学习成本。

流程自动化: 跨多个任务集成和调优一系列策略，这可以帮助确定全局最优策略。但是，调优可能会导致更多的成本。

请注意，这种分类并不打算区分好方法和坏方法。例如，流程自动化方法可能并不一定比编程自动化解决方案更好，因为它在许多场景中可能过于复杂。本文旨在展示自动化是如何应用于不同的以数据为中心的目标的，并从全局的角度来理解文献。从另一个角度来看，面向协作的方法通常需要人类以不同的形式参与。我们可以确定人类参与的几个程度:

全面参与: 人类完全控制过程。这种方法帮助人类做决定。需要充分参与的方法通常可以很好地符合人类的意图，但成本可能很高。 * 部分参与: 方法控制过程。然而，人类需要密集或持续地提供信息，例如通过提供大量反馈或频繁交互。 * 最低参与度: 该方法完全控制整个过程，只在需要时咨询人类。人类只有在被提示或要求这样做时才会参与。当遇到大量数据和有限的人力预算时，属于这种程度的方法通常是更可取的。

3. 结论

聚焦于人工智能中一个新兴而重要的研究领域——以数据为中心的人工智能。通过展示如何仔细设计和维护数据，可以使人工智能解决方案在学术界和工业界更受欢迎，激发了对以数据为中心的人工智能的需求。接下来，提供了以数据为中心的人工智能的背景，包括其定义和目标驱动的分类法。然后，以提出的研究问题为指导，从自动化和协作的角度回顾了各种以数据为中心的人工智能技术，用于不同的目的。此外，收集了来自不同领域的数据基准，并在元级别上进行了分析。最后，从全局的角度讨论了以数据为中心的人工智能，并分享了我们对数据和模型之间模糊边界的看法。同时提出了该领域潜在的未来发展方向。总而言之，我们相信数据将在构建人工智能系统中发挥越来越重要的作用。与此同时，仍有许多挑战需要解决。我们希望我们的调研可以激发我们社区的合作倡议，推动这一领域的发展。

成为VIP会员查看完整内容