从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。

知识荟萃

图像检索(Image Retrieval)专知荟萃

入门学习

  1. 相似图片搜索的原理 阮一峰
  2. Google 图片搜索的原理是什么?
  3. 基于内容的图像检索技(CBIR)术相术介绍
  4. 图像检索:基于内容的图像检索技术
  5. 基于内容的图像检索技术
  6. 图像检索:CNN卷积神经网络与实战 CNN for Image Retrieval
  7. 用Python和OpenCV创建一个图片搜索引擎的完整指南

综述

  1. Recent Advance in Content-based Image Retrieval: A Literature Survey. Wengang Zhou, Houqiang Li, and Qi Tian 2017
  2. Intelligent Image Retrieval Techniques: A Survey 2014
  3. A survey on content based image retrieval. 2013

进阶文章

2011

  1. Using Very Deep Autoencoders for Content-Based Image Retrieval

2013

  1. Learning High-level Image Representation for Image Retrieval via Multi-Task DNN using Clickthrough Data

2014

  1. Neural Codes for Image Retrieval
  2. Efficient On-the-fly Category Retrieval using ConvNets and GPUs

2015

  1. Learning visual similarity for product design with convolutional neural networks SIGGRAPH 2015
  2. Exploiting Local Features from Deep Networks for Image Retrieval
  3. Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network ICCV 2015
  4. Where to Buy It: Matching Street Clothing Photos in Online Shops ICCV 2015
  5. Aggregating Deep Convolutional Features for Image Retrieval
  6. Particular object retrieval with integral max-pooling of CNN activations

2016

  1. Deep Image Retrieval: Learning global representations for image search ECCV 2016
  2. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR 2016
  3. Fast Training of Triplet-based Deep Binary Embedding Networks. CVPR 2016
  4. Deep Relative Distance Learning: Tell the Difference Between Similar Vehicles. CVPR 2016
  5. Bags of Local Convolutional Features for Scalable Instance Search. Best Poster Award at ICMR 2016.
  6. Group Invariant Deep Representations for Image Instance Retrieval
  7. Natural Language Object Retrieval
  8. Faster R-CNN Features for Instance Search
  9. Where to Focus: Query Adaptive Matching for Instance Retrieval Using Convolutional Feature Maps
  10. Adversarial Training For Sketch Retrieval
  11. DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations
  12. CNN Image Retrieval Learns from BoW: Unsupervised Fine-Tuning with Hard Examples
  13. PicHunt: Social Media Image Retrieval for Improved Law Enforcement
  14. The Sketchy Database: Learning to Retrieve Badly Drawn Bunnies
  15. End-to-end Learning of Deep Visual Representations for Image Retrieval
  16. What Is the Best Practice for CNNs Applied to Visual Instance Retrieval?

2017

  1. AMC: Attention guided Multi-modal Correlation Learning for Image Search. CVPR 2017
  2. Deep image representations using caption generators. ICME 2017
  3. One-Shot Fine-Grained Instance Retrieval. ACM MM 2017
  4. Selective Deep Convolutional Features for Image Retrieval. ACM MM 2017
  5. Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual Cross Retrieval. ICCV 2017
  6. Image2song: Song Retrieval via Bridging Image Content and Lyric Words. ICCV 2017
  7. SIFT Meets CNN: A Decade Survey of Instance Retrieval
  8. Image Retrieval with Deep Local Features and Attention-based Keypoints

Tutorial

  1. CVPR’16 Tutorial on Image Tag Assignment, Refinement and Retrieval
  2. Content-based image retrieval tutorial by Joani Mitro
  3. Tutorial on Image Retrieval System, (IRS)

视频教程

  1. Deep Image Retrieval: Learning global representations for image search
  2. Image Instance Retrieval: Overview of state-of-the-art

代码

  1. Neural Codes for Image Retrieval
  2. Natural Language Object Retrieval
  3. Bags of Local Convolutional Features for Scalable Instance Search
  4. Faster R-CNN Features for Instance Search
  5. CNN Image Retrieval Learns from BoW: Unsupervised Fine-Tuning with Hard Examples
  6. Class-Weighted Convolutional Features for Visual Instance Search

领域专家

  1. Hervé Jégou
  2. Andrew Zisserman
  3. Qi Tian
  4. Artem Babenko

Datasets

  1. Corel 1000 and 10,000 图像数据库
  2. The COREL Database for Content based Image Retrieval
  3. Corel-5K and Corel -10K Datasets该页面下面给出了图片的链接,可以用python写个脚本把它们爬下来。
  4. INSTRE,中科院计算所弄的一个数据库28543张图片,还有他们做的web检索系统ISIA。
  5. MIRFLICKR 1M数据库,100多g.
  6. Image Similarity Triplet Dataset
  7. INRIA Holidays 该数据集是Herve Jegou研究所经常度假时拍的图片(风景为主),一共1491张图,500张query(一张图一个group)和对应着991张相关图像,已提取了128维的SIFT点4455091个,visual dictionaries来自Flickr60K.
  8. Oxford Buildings Dataset,5k Dataset images,有5062张图片,是牛津大学VGG小组公布的,在基于词汇树做检索的论文里面,这个数据库出现的频率极高。
  9. Oxford Paris,The Paris Dataset,oxford的VGG组从Flickr搜集了6412张巴黎旅游图片,包括Eiffel Tower等。
  10. 201Books and CTurin180 The CTurin180 and 201Books Data Sets,2011.5,Telecom Italia提供于Compact Descriptors for Visual Search,该数据集包括:Nokia E7拍摄的201本书的封面图片(多视角拍摄,各6张),共1.3GB; Turin市180个建筑的视频图像,拍摄的camera有Galaxy S、iPhone 3、Canon A410、Canon S5 IS,共2.7GB
  11. Stanford Mobile Visual Search,Stanford Mobile Visual Search Dataset,2011.2,stanford提供,包括8种场景,如CD封面、油画等,每组相关图片都是采自不同相机(手机),所有场景共500张图;以后又发布了一个patch数据集,Compact Descriptors for Visual Search Patches Dataset,校对了相同patch。
  12. UKBench,UKBench database,2006.7,Henrik Stewénius在他CVPR06文章中提供的数据集,图像都为640x480,每个group有4张图,文件接近2GB,提供visual words。

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

VIP内容

近年来,从社交媒体平台、医学图像和机器人等各个领域产生和分享了大量的视觉内容。大量的内容创造和分享带来了新的挑战。特别是,对相似内容的数据库进行搜索,即基于内容的图像检索(CBIR),是一个长期存在的研究领域,需要更有效和准确的方法来实现实时检索。人工智能在CBIR方面取得了很大进展,极大地促进了智能搜索的进程。在本综述论文中,我们组织和回顾了基于深度学习算法和技术的CBIR研究,包括来自近期论文的见解和技术。我们识别并呈现了该领域常用的数据库、基准和评估方法。我们收集共同的挑战,并提出有希望的未来方向。更具体地说,我们关注深度学习的图像检索,并根据深度网络结构的类型、深度特征、特征增强方法和网络微调策略来组织目前最先进的方法。我们的综述论文查考虑了各种各样的最新方法,旨在促进基于类别的信息检索领域的全部视角。

https://www.zhuanzhi.ai/paper/01b0e04eb5d1eeb53be30aa761b7cd12

基于内容的图像检索(CBIR)是通过分析大型图库中的可视内容来搜索语义匹配或相似图像的问题,给定描述用户需求的查询图像,如图1(a)所示。CBIR是计算机视觉和多媒体领域长期存在的研究课题[1,2]。随着当前图像和视频数据的指数级增长,迫切需要开发一种合适的信息系统来有效地管理这样的大型图像集合,图像搜索是与可视化集合交互的最不可或缺的技术之一。因此,CBIR的应用潜力几乎是无限的,如人员再识别[3]、遥感[4]、医学图像搜索[5]、在线市场购物推荐[6]等。

CBIR可以大致分为实例级检索和类别级检索,如图1(b)所示。在实例级图像检索中,给定一个特定对象或场景(如埃菲尔铁塔)的查询图像,目标是找到包含相同对象或场景的图像,这些图像可能在不同的视点、光照条件或受遮挡情况下捕获[7,8]。相反,对于类别级别的图像检索,目标是找到与查询相同类的图像(例如,狗、汽车等)。实例级检索更有挑战性,也更有前景,因为它满足许多应用程序的特定目标。请注意,我们将本文的重点限制在实例级的图像检索上,如果没有进一步指定,则认为“图像检索”和“实例检索”是等价的,可以互换使用。

要找到想要的图像,可能需要在数千张、数百万张甚至数十亿张图像中搜索。因此,高效搜索与准确搜索同等重要,并为此不断付出努力[7,8,9,10,11]。为了实现对海量图像的准确高效检索,紧凑而丰富的特征表示是CBIR的核心。

近二十年来,图像特征表示取得了显著进展,主要包括两个重要阶段: 特征工程和特征学习(特别是深度学习)。在特征工程时代(即前深度学习时代),该领域被具有里程碑意义的手工工程特征描述符所主导,如尺度不变特征变换(SIFT)[19]。特征学习阶段,即自2012年开始的深度学习时代,从人工神经网络开始,特别是ImageNet和深度卷积神经网络(DCNN) AlexNet[20]的突破。从那以后,深度学习技术影响了广泛的研究领域,因为DCNNs可以直接从数据中学习具有多层抽象的强大特征表示,绕过了传统特征工程中的多个步骤。深度学习技术引起了人们的极大关注,并在许多计算机视觉任务中取得了长足的突破,包括图像分类[20,21,22]、目标检测[23]、语义分割[24]、图像检索[10,13,14]。

[1, 2, 8]对传统图像检索方法进行了优秀的研究。相比之下,本文侧重于基于深度学习的方法,我们的工作与其他发表的综述[8,14,15,16]比较如表1所示。图像检索的深度学习包含了如图2所示的关键阶段,为了提高检索的准确性和效率,已经提出了针对一个或多个阶段的多种方法。在本综述中,我们对这些方法进行了全面的详细介绍,包括深度网络的结构、特征融合、特征增强方法和网络微调策略,动机是以下问题一直在推动这一领域的研究:

1)通过只使用现成的模型,深度特征如何胜过手工制作特征?

2)在跨训练数据集的领域迁移的情况下,我们如何适应现成的模型来维持甚至提高检索性能?

3)由于深度特征通常是高维的,我们如何有效地利用它们进行高效的图像检索,特别是针对大规模数据集?

在基于AlexNet[20]的图像检索实现非常成功之后,对检索任务的DCNNs进行了重要的探索,大致沿循了上述三个问题。也就是说,DCNN方法被分为(1)现成的模型和(2)经过微调的模型,如图3所示,并并行处理(3)有效的特征。DCNN是现成的还是微调的,取决于DCNN的参数是[25]更新还是基于参数固定的DCNN[25,26,27]。对于特征图,研究人员提出了R-MAC[28]、CroW[10]、SPoC[7]等编码和聚合方法。

最近在改进图像检索方面的进展可以分为网络级和特征级两类,图4给出了详细的分类。这项综述大致包括以下四个范畴:

(1) 网络架构的改进 (第2节)

利用堆叠线性滤波器(如卷积)和非线性激活函数(ReLU等),不同深度的深度网络获得不同层次的特征。层次越深的网络能够提供更强大的学习能力,从而提取高层次的抽象和语义感知特征[21,46]。并行地连接多尺度特性是可能的,例如GoogLeNet [47]中的Inception模块,我们将其称为“扩展”。

(2) 深度特征提取(3.1节)

FC层和卷积层的神经元具有不同的接受域,这提供了三种提取特征的方法:卷积层的局部特征[7,59],FC层的全局特征[32,60],以及两种特征的融合[61,62],融合方案包括层级和模型级方法。深度特征可以从整幅图像中提取,也可以从图像小块中提取,分别对应于单通道和多通道的前馈方案。

(3) 深度特征增强

通过特征增强来提高深度特征的判别能力。直接使用深度网络[17]同时训练聚合特征;另外,特征嵌入方法包括BoW[63]、VLAD[64]和FV[65]将局部特征嵌入到全局特征中。这些方法分别使用深度网络(基于codebook)或联合(无codebook)进行训练。另外,采用哈希方法[18]将实值特征编码为二进制码,提高检索效率。特征增强策略会显著影响图像检索的效率。

(4) 学习表示的网络微调(第4节)

在源数据集上预先训练的用于图像分类的深度网络被转移到新的数据集上进行检索任务。然而,检索性能受到数据集之间的域转移的影响。因此,有必要对深度网络进行微调到特定的领域[34,56,66],这可以通过有监督的微调方法来实现。然而,在大多数情况下,图像标记或标注是耗时和困难的,因此有必要开发无监督的方法进行网络微调。

本文综述了近年来用于图像检索的深度学习方法的研究进展,并根据深度网络的参数更新,将其分为现成的深度图像检索模型和微调模型。

成为VIP会员查看完整内容
0
13

最新内容

Text-based image retrieval has seen considerable progress in recent years. However, the performance of existing methods suffers in real life since the user is likely to provide an incomplete description of a complex scene, which often leads to results filled with false positives that fit the incomplete description. In this work, we introduce the partial-query problem and extensively analyze its influence on text-based image retrieval. We then propose an interactive retrieval framework called Part2Whole to tackle this problem by iteratively enriching the missing details. Specifically, an Interactive Retrieval Agent is trained to build an optimal policy to refine the initial query based on a user-friendly interaction and statistical characteristics of the gallery. Compared to other dialog-based methods that rely heavily on the user to feed back differentiating information, we let AI take over the optimal feedback searching process and hint the user with confirmation-based questions about details. Furthermore, since fully-supervised training is often infeasible due to the difficulty of obtaining human-machine dialog data, we present a weakly-supervised reinforcement learning method that needs no human-annotated data other than the text-image dataset. Experiments show that our framework significantly improves the performance of text-based image retrieval under complex scenes.

0
0
下载
预览

最新论文

Text-based image retrieval has seen considerable progress in recent years. However, the performance of existing methods suffers in real life since the user is likely to provide an incomplete description of a complex scene, which often leads to results filled with false positives that fit the incomplete description. In this work, we introduce the partial-query problem and extensively analyze its influence on text-based image retrieval. We then propose an interactive retrieval framework called Part2Whole to tackle this problem by iteratively enriching the missing details. Specifically, an Interactive Retrieval Agent is trained to build an optimal policy to refine the initial query based on a user-friendly interaction and statistical characteristics of the gallery. Compared to other dialog-based methods that rely heavily on the user to feed back differentiating information, we let AI take over the optimal feedback searching process and hint the user with confirmation-based questions about details. Furthermore, since fully-supervised training is often infeasible due to the difficulty of obtaining human-machine dialog data, we present a weakly-supervised reinforcement learning method that needs no human-annotated data other than the text-image dataset. Experiments show that our framework significantly improves the performance of text-based image retrieval under complex scenes.

0
0
下载
预览
Top