首发于博士paper

Ensemble Model

  • Attention-based Ensemble for Deep Metric Learning (ECCV2018)

motivation:模型整合多个模型,会优于单个模型的性能。但是会引入过多的参数和计算量,本文提出一个新的整合方法,采用多个注意力头,生成多个不同的特征。

方法:

  1. 对单个图像提取特征 F=S(x) ,经过多个注意力 Z_m=A_{m}(F)
  2. 对多个特征 Z_m 输入同一个 G 模块,得到多个最终的特征 B_m(x)
  3. 对每个分支输出的特征引入对比损失 L_{metric}
  4. 对同一张图像的各个分支的特征引入约束 L_{div} ,约束不同分支提取的特征距离大于设定的阈值

问题:

  1. 文中约束不同分支生成的特征不同,但是这些特征表示的是同一个ID,会不会产生歧义?(原则上不同的part也应该映射到一个最终度量空间的一个点吧)
  2. 分支特征的阈值 m_{div} 与对比损失的阈值 m_{c} 相同,但是原则上应该满足:同一个图像不同分支的特征距离<不同ID的图像特征距离。
  3. 不同part的特征可能对于度量有用,比如,行人再识别的分块操作。
  4. 不能用到erase的操作中,应为erase的一个分支为attention=1,为了使erase后的特征分类正确,会不断挖掘不同的特征,使第一个分支也关注到更多的区域,从而使其他分支可能会挖掘到背景信息。
编辑于 2019-11-18 16:03