最新进展：将包容性人物注释纳入 Open Image Extended 数据集

2021 年 7 月 27 日 TensorFlow

发布人：Google Research 软件工程师 Candice Schumann 和 Susanna Ricco

2016 年，我们推出了 Open Images。此协作版本包含约 900 万张含有标签的图像，涵盖数千个对象类别和 600 个类的边界框注释。从那之后，我们进行了多次更新，如将众包数据发布到 Open Images Extended 合集，以此提高对象注释的多样性。

更新
https://ai.googleblog.com/2019/05/announcing-open-images-v5-and-iccv-2019.html
Open Images Extended
https://storage.googleapis.com/openimages/web/extended.html

虽然这些数据集提供的标签扩展性很强，但此类标签并没有关注人物的敏感属性，这些属性对于许多机器学习 (ML) 公平性任务（例如公平性评估和偏见缓解）至关重要。事实上，找到包含彻底标记此类敏感属性的数据集是很困难的，尤其是在计算机视觉领域。

公平性任务
https://developers.google.com/machine-learning/crash-course/fairness/video-lecture

今天，我们在 Open Images Extended 合集中引入了更具包容性的人物注释 (MIAP) 数据集。此合集包含更多完整的边界框注释，用于包含 10 万张人物图像中的的人物类层级结构。每个注释还带有可感知到的性别呈现和年龄范围等公平相关属性的标签。作为 Responsible AI 研究的一部分，越来越多的人开始关注如何减少不公平偏见，我们希望这些注释能够激励已经在使用 Open Images 的研究者，将公平分析纳入他们的研究中。

Responsible AI 研究
https://ai.google/principles/

交叉描述通过为现有图像-描述对和辅助描述添加语义相似度人工评分来扩展 MS-COCO 评估集（实线），并通过为新的图像-描述、描述-描述和图像-图像对添加人工评分来提高评分密度（虚线）*

Open Images 中的注释

原始 Open Images 数据集中的每个图像都包含图像级注释（宽泛地描述图像）和包围特定对象的边界框。为了避免对同一个对象绘制多个边界框，我们从标签候选集中临时删减了具体性较弱的类，我们将这一过程称为层级去重。举个例子，若一个图像的标签包括动物、猫，和洗衣机则该图像的注释边界框为猫和洗衣机，而不会注释多余的类 ——动物。

图像级注释
https://cloud.google.com/vision/docs/labels
边界框
https://cloud.google.com/vision/docs/object-localizer

MIAP 数据集可用于原始 Open Images 数据，集中人物层级包含的五个类：人物、男人、女人、男孩、女孩。由于这些标签的存在，Open Images 数据集对于推进 Responsible AI 的研究具有独特的价值，能够帮助开发者训练通用的人物检测器，访问性别和年龄范围特定的标签，以实现公平分析和偏见缓解。

Responsible AI
https://ai.google/responsibilities/responsible-ai-practices/
人物检测器
https://cloud.google.com/video-intelligence/docs/people-detection

然而，我们发现结合了层级去重和女人/女孩与男人/男孩之间的社会性区别后，原始注释会受到限制。举个例子，如果要求注释器针对女孩这一分类绘制边界框，它们便不会在图像中的男孩周围绘制边界框。注释器可能会也可能不会在某位女性周围绘制边界框，这取决于其对个人年龄的评估以及对女孩这一概念的文化性理解。此类判断在不同图像中可能会存在不一致，这取决于单独的注释器的文化背景、图像人物的外表和场景的上下文。因此，某些图像中的边界框注释会不完整，一些较为显眼的人物没有得到注释。

MIAP 中的注释

新的 MIAP 注释旨在解决这些限制，实现让 Open Images 成为推动机器学习公平性研究取得新进展的数据集的保障。我们不要求注释器为层级结构中最具体的类（例如，女孩）绘制边界框，而是将此程序反过来，要求它们为性别和年龄未知的人物分类绘制边界框。所有人物边界框届时都将获得感知到的性别呈现（很大可能是女性、很大可能是男性，或未知）以及年龄呈现（青年、中年、老年，或未知）等标签。我们认识到性别不是二元的，个人的性别认同可能与其感知或预期的性别呈现不符，为了缓解无意识偏见对注释的影响，这里提示：注释器，与性别呈现相关的规范因文化而异，且会随时间的推移而变化。

这个过程添加了大量先前丢失的边界框。

在包含人物的 10 万张图像中，人物边界框的数量从 35.8 万左右增加到 45.4 万左右。各个感知性别呈现和感知年龄呈现的边界框数量持续增加。这些新注释为人物检测器的训练提供了更完整的基本事实，并提供了更准确的子组标签，以将公平性纳入计算机视觉研究。

原始 Open Images 和新 MIAP 数据集之间人物边界框数量的比较

预期用例

我们为人物边界框的感知年龄范围和性别呈现纳入了注释，因为我们认为有必要添加此类注释，以便提高能力，实现更好的理解以及努力缓解并消除图像理解领域，受保护子组之间的不公平偏见或不同性能。我们注意到，标签捕获的性别和年龄范围是第三方仅根据视觉线索，而不是个人的自我认知性别或实际年龄评估出来的。我们不支持也不容忍构建或部署根据这些注释训练的性别或年龄呈现分类器，因为我们认为在公平性研究之外使用这些技术的相关风险大于任何潜在好处。

风险
https://dl.acm.org/doi/10.1145/3173574.3173582

致谢

这项研究背后的核心团队成员包括 Utsav Prabhu、Vittorio Ferrari 和 Caroline Pantofaru。同时，我们还要感谢 Alex Hanna、Reena Jana、Alina Kuznetsova、Matteo Malloci、Stefano Pellegrini、Jordi Pont-Tuset 和 Mahima Pushkarna 对本项目的贡献。