小规模行人的检测是行人检测中最具挑战性的问题之一。由于缺乏视觉细节,小规模行人的表征往往难以从杂乱的背景中分辨出来。在本文中,我们对小规模行人检测问题进行了深入的分析,发现小规模行人的弱表征是导致分类器漏检的主要原因。为了解决这一问题,我们提出了一种新的自模拟学习(SML)方法来提高对小规模行人的检测性能。我们通过模仿大规模行人的丰富表现来增强小规模行人的表现。具体来说,我们设计了一个模拟损失,迫使小规模行人的特征表征接近大规模行人的特征表征。所提议的SML是一个通用组件,可以很容易地合并到单级和两级检测器中,不需要额外的网络层,在推理期间不需要额外的计算成本。在cityperson和Caltech数据集上进行的广泛实验表明,经过模拟损失训练的检测器对小规模行人检测非常有效,并分别在cityperson和Caltech上取得了最好的结果。

https://cse.buffalo.edu/~jsyuan/papers/2020/SML.pdf

成为VIP会员查看完整内容
0
6

相关内容

医学视觉问答(Medical visual question answer, Med-VQA)的目的是准确回答医学图像所呈现的临床问题。尽管该技术在医疗保健行业和服务领域有着巨大的潜力,但它仍处于起步阶段,远未得到实际应用。由于临床问题的多样性以及不同类型问题所需的视觉推理技能的差异,Med-VQA任务具有很高的挑战性。本文提出了一种新的Med-VQA的条件推理框架,旨在自动学习各种Med-VQA任务的有效推理技巧。特别地,我们开发了一个问题条件推理模块来指导多模态融合特征的重要性选择。针对封闭式和开放式的Med-VQA任务的不同性质,我们进一步提出了一种类型条件推理模块,分别针对两种类型的任务学习不同的推理技能。我们的条件推理框架可以很容易地应用到现有的Med-VQA系统中,从而提高性能。在实验中,我们在最近最先进的Med-VQA模型上建立我们的系统,并在VQA-RAD基准[23]上评估它。值得注意的是,我们的系统在预测封闭式和开放式问题的答案方面都取得了显著的提高,特别是对于开放式问题,其绝对准确率提高了10.8%。源代码可以从https://github.com/awenbocc/med-vqa下载。

http://www4.comp.polyu.edu.hk/~csxmwu/papers/MM-2020-Med-VQA.pdf

成为VIP会员查看完整内容
0
19

在本文中,我们关注的是语义图像合成任务,目的是将语义标记映射迁移到逼真的图像。现有的方法在保留语义信息方面缺乏有效的语义约束,忽略了空间维度和通道维度上的结构相关性,导致结果模糊且容易产生假象。为了解决这些限制,我们提出了一种新的对偶注意力GAN (DAGAN),它可以合成具有输入布局细节的真实照片和语义一致的图像,而不增加额外的训练开销或修改现有方法的网络结构。我们还提出了两个新的模块,即位置-方向的空间注意力模块和尺度-方向的通道注意模块,分别用于捕获空间和通道维度上的语义结构注意力。具体来说,SAM通过空间注意力图选择性地将每个位置的像素关联起来,从而使得具有相同语义标签的像素无论在空间上的距离如何都相互关联起来。同时,CAM通过通道注意力图选择性地强调每个通道上的标度特征,从而在所有的通道图中集成相关的特征,而不管它们的标度如何。最后对SAM和CAM的结果进行求和,进一步改进特征表示。在四个具有挑战性的数据集上进行的广泛实验表明,DAGAN取得了比最先进的方法显著更好的结果,同时使用更少的模型参数。源代码和经过训练的模型可以在这个https URL中获得。

https://arxiv.org/abs/2008.13024

成为VIP会员查看完整内容
0
16

领域自适应的目的是将知识从有标记的源域迁移到无标记的目标域。尽管近年来数据挖掘技术取得了显著的进步,但数据挖掘方法的能力仍然严重依赖于网络深度,特别是在领域差异很大的情况下,这对需要快速、自适应推理的低资源场景下的数据挖掘提出了前所未有的挑战。如何在数据挖掘中架起可迁移性和资源高效推理的桥梁成为一个重要问题。在本文中,我们提出了资源有效域适应(REDA),这是一个通用的框架,可以跨越“容易”和“难”输入自适应地调整计算资源。在现有的多出口结构的基础上,REDA提出了两种新颖的设计:1)可迁移蒸馏,将顶层分类器的可迁移性提取到早期出口;2)一致性加权,通过预测一致性控制精馏程度。REDA是一种通用的方法,可以方便地与多种DA方法相结合。实验结果和分析表明,在域漂移和资源较少的情况下,REDA可以显著提高推理的准确性和加速推理。

http://ise.thss.tsinghua.edu.cn/~mlong/doc/resource-efficient-domain-adaptation-acmmm20.pdf

成为VIP会员查看完整内容
0
6
小贴士
相关VIP内容
专知会员服务
19+阅读 · 2020年9月9日
专知会员服务
24+阅读 · 2020年9月8日
专知会员服务
16+阅读 · 2020年9月2日
专知会员服务
6+阅读 · 2020年9月1日
专知会员服务
19+阅读 · 2020年8月11日
专知会员服务
21+阅读 · 2020年6月17日
相关论文
Interpretable CNNs for Object Classification
Quanshi Zhang,Xin Wang,Ying Nian Wu,Huilin Zhou,Song-Chun Zhu
11+阅读 · 2020年3月12日
Fabio Petroni,Tim Rocktäschel,Patrick Lewis,Anton Bakhtin,Yuxiang Wu,Alexander H. Miller,Sebastian Riedel
5+阅读 · 2019年9月4日
Fast and Accurate 3D Medical Image Segmentation with Data-swapping Method
Haruki Imai,Samuel Matzek,Tung D. Le,Yasushi Negishi,Kiyokuni Kawachiya
3+阅读 · 2018年12月19日
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
Xintao Wang,Ke Yu,Shixiang Wu,Jinjin Gu,Yihao Liu,Chao Dong,Chen Change Loy,Yu Qiao,Xiaoou Tang
5+阅读 · 2018年9月17日
Joseph Redmon,Ali Farhadi
6+阅读 · 2018年4月8日
Fuming Fang,Junichi Yamagishi,Isao Echizen,Jaime Lorenzo-Trueba
4+阅读 · 2018年4月2日
Mahaman Sani Chaibou,Pierre-Henri Conze,Karim Kalti,Basel Solaiman,Mohamed Ali Mahjoub
4+阅读 · 2018年3月17日
Ali Javidani,Ahmad Mahmoudi-Aznaveh
3+阅读 · 2017年12月30日
Top