通过自动图像标注解决数据偏差
通过自动图像标注解决数据偏差
论文笔记
论文:《ADDRESSING TRAINING BIAS VIA AUTOMATED IMAGE ANNOTATION 》
作者:Zhujun Xiao Yanzi Zhu Yuxin Chen Ben Y. Zhao Junchen Jiang Haitao Zheng
发表时间:2018年
问题
DNN需要大量标注数据,由此引申出两个问题
- 数据稀缺
训练所用图像和视频需要手工标注,人力成本高 - 数据偏差
训练时场景可能和应用时场景不匹配,导致数据集产生偏差
例如在城市场景的数据集中训练的模型应用在野外的场景速度和准确度都会相比用在城市场景更低
并且,训练数据往往是在较为良好的条件下收集的,应用中很难做到同等良好的条件
解决方案
- 迁移学习 当目标数据集较小,且和较大数据集的一部分类似时,可以将在大数据集上的预训练模型最后几层进行调整,然后在目标数据集上进行训练
然而,这只能解决数据稀缺的问题,而不能解决数据偏差的问题 - 自动标注
作者提出的创新点——使用图像采集设备(数码相机)和无线信号接受设备协同工作,在图像采集时自动标注图像。无线定位的进步已经使得使用现有无线基础设施对被动无线设备精准地三维定位,无论是室内还是室外。结合图像采集,实现图像在采集时被自动标注是可行的。
作者提出Atia系统在采集图像时标注图像。他们的要点在于可以通过目标相对于相机的三维位置来计算所捕获图像的二维位置。
新的无线芯片具有的精细时间测量(FTM)的特性,使得无线信号发射器可以和摄像头协同工作(甚至能安装在摄像头内部)——释放激发周围无线设备回应的探针信号(probes),在硬件层面上完成。任何具有支持FTM的802.11mc的设备都可以被精确定位。
好处
- 相比需要穿戴的RFID设备,这种方法不需要参与者主动参与,只要携带支持FTM的802.11mc设备就可以了
- 相比RFID,使用相似的设备能有更大的范围
原文并未指出具体是哪一方面相似,体积相似?造价相似? - 响应的设备会返回id,可以将不同图像里的设备/用户联系起来。还可以保护用户隐私。
- 最重要的是,作者是在未来应用场景下获得的图像的ground truth,这大大减小了数据偏差。
贡献
- 提出支持FTM的802.3mc无线设备与数码相机协同工作捕获并自动标记目标
- 通过真实案例研究了自动标注方法的实际问题
- 通过模拟作者发现调试硬件使得标签质量显著提升,证明了这个方法的可行性
- 意识到参与者隐私的严重性
Atia
Atia系统整合了相机和无线网公共设施。
上图阐释了系统如何工作:
- 系统同时采集无线定位的三维位置信息和摄像头采集的图像
- 利用摄像头位置和视角信息和环境信息将三维位置投影到二维图像的一个点上,作为目标中心点
- 根据人类平均尺寸制作一个三维盒子并投影到平面
- 在平面的投影就是标注框
但该系统不是普适的,并不能代替摄像头,因为不是所有对象都携带支持FTM的802.3mc无线设备,而摄像头却无处不在。
该系统于传统的传感融合不同。并且和之前的RGB-W不同——RGB-W没有解决标注问题,而是增加了一个输入推高了精度。
部署成本
因为系统可以利用现有的基础设施,所以部署成本很低。
好处
- 因为无需人力成本,所以数据集想多大就多大
- 实时标注
- 添加深度信息
- 时域追踪
- 提取出人与人之间的相关性
应用
- 三维人脸识别
- 动作识别
- 监控视频中的异常事件
- 场景识别
要求
- 为了能够广泛部署,系统必须是被动的,即不需要佩戴特定设备
- 清晰开阔的视野
- 与相机同步
局限性
- 不能标注现有数据集
- 不能标注没有无线设备的目标
失配问题
- 无线信号未覆盖导致部分目标丢失
- 由于相机遮挡造成的额外标签
因为无线信号是可以绕过部分障碍物的 - 丢失尺寸信息
因为有人和平均数据偏差较大 - 错位标签
发布于 2020-08-15 17:26