多媒体大数据分析研究进展综述导读

选自ACMCSUR

专知编译

参与:左熠昆、Quan

昨天向大家推荐了最新的相关综述论文最新综述文章推荐:自然语言生成、深度学习算法、多媒体大数据分析,今天为大家详细介绍下多媒体大数据分析综述这篇文章。


Samira Pouyanfar, Yimin Yang, Shu-Ching Chen,Mei-Ling Shyu, and S. S. Iyengar. 2018. Multimedia Big Data Analytics: A Survey. ACM Comput. Surv. 51, 1, Article 10 (January 2018), 34 pages


【导读】随着在线服务和移动技术的激增,世界已经步入多媒体大数据时代。大量的研究工作已经在多媒体领域进行,这些工作针对大数据不同的方面进行分析,例如捕获,存储,索引,挖掘和检索多媒体大数据。然而,很少有研究工作提供对多媒体大数据分析的整个框架进行完整调查,这些工作包括对大量数据的管理和分析、目前存在的挑战和机会以及有希望的研究方向。为了达到这个目的,我们针对多媒体大数据分析领域的最新研究成果进行全面综述。我们旨在目前大数据框架下建立多媒体挑战和大数据解决方案之间的桥梁,讨论它们在多媒体分析中的应用、现存的方法现有的优势和局限性,以及多媒体大数据分析的潜在未来方向。据我们所知这是第一篇针对大规模多媒体管理技术的综述,并介绍了在这个大数据时代的目前多媒体分析研究和技术。

简述

▌多媒体大数据背景



 在过去的几年中,多媒体数据有了快速和广泛使用,图像,音频,视频,和文字,以及多媒体资源的易用性和可用性,都对多媒体管理系统的数据革命产生了很大的影响。目前,多媒体共享网站例如Yahoo Flickr(Flickr.Com 2016),iCloud(iCloud.Com 2016)和YouTube(YouTube.Com 2016),社交网络例如Facebook(Facebook.Com 2016),Instagram(Instagram.Com 2016),Twitter(Twitter.Com 2016)等,这些多媒体巨头被认为拥有独特而有价值的资源数据。例如,迄今为止,Instagram用户已经上传超过200亿张照片,YouTube用户一天内每分钟上传超过100小时的视频,并有2.55亿活跃的视频显示。通过多媒体共享的互联网流量在2016年每个月达到6130 Petabytes。据预测,在2020年数字数据速率将超过40ZB,这意味着世界上每个人都将生产近5200千兆字节的数据。

随着新技术的出现和智能手机和平板电脑的功能越来越先进。人们特别是年轻一代在互联网和社交网络上花费大量时间与他人交流以共享信息并创建多媒体数据。这种丰富的信息由于它们有着巨大的容量和众多品种被称为“大数据”。与只有文本和数字的传统数据不同,多媒体数据通常是非结构化的并且有很多干扰信息。使用传统方法处理这些庞大的复杂数据是不可行的。因此,需要更全面和更复杂的解决方案进行管理这样的大型非结构化多媒体数据。


多媒体分析解决了操纵,管理,挖掘,理解的问题,以有效和高效的方式将不同类型的数据可视化,从而解决实际挑战。解决方案包括但不限于文本分析,图像/视频处理,计算机视觉,音频/语音处理以及数据库管理的多种应用例如医疗保健,教育,娱乐和移动设备。


大数据概念主要用于描述极大的数据集。 但是,不同科学家和技术企业对这个术语有不同的定义。 例如,它首先用于1997年由NASA科学家发表的一篇文章,解释计算机系统挑战。 后来,布赖恩特在2008年使用“大数据计算”这个概念,在2010年,它被定义为“通用计算机在一定范围内无法捕获,管理,处理的数据集“


大数据分析师面临的主要挑战是如何减少计算时间和存储空间量,同时保持与来自小的数据集的结果一样精确。平行计算,即同时使用若干计算资源处理任务,是在分布式环境中提供高效分析的最重要步骤之一。到现在为止,已经开发了几个大数据分析平台,其中包括IBM Big Data Analytics,Microsoft Azure,Oracle Big Data Analytics等等,我们需要最有效的方式分析数据。


在当前的大数据时代,高密度的多媒体数据以及大量的社交数据带来了新的机遇和挑战。因此,多媒体大数据分析近年来在学术界和工业界都引起了很多关注。它被认为是一个由新兴和富有挑战性的研究方向由于其重要和有价值的性质。事实上,多媒体大数据解释了世界上发生的事情,强调每日热点新闻,显示特殊事件,并预测人们的行为和偏好。


多媒体分析大数据的各种应用



目前,多媒体管理系统正在利用大数据分析技术进行操作以合理且经济高效的方式利用多媒体数据。这里有几种流行的多媒体展示大数据应用程序以展示大数据在多媒体分析中的重要作用。


(1)社交网络:这个领域的研究已经发表了大量的文章,社交媒体大数据分析已经有了长足发展。例如,Tufekci通过分析人类社会活动特别是基于他们的Twitter主题标签来解决需求领域的挑战。 Tufekci选择了Twitter是因为其数据的可视性、访问的便利性以及庞大的数据集。然而,Wilson在Facebook上将其作为一项宝贵的社交科学资源进行研究。社交推荐系统技术是另一个新兴的话题,其主要利用多媒体社交网络中的信息。例如,Davidson等人提出了一个YouTube视频推荐框架,其纳入了社交情境信息到视频推荐系统中,根据用户的社交活动和偏好设置进行视频个性化推荐。


(2)智能手机:近年来,智能手机使用量已经超越了其他电子设备,如人们生活中的笔记本电脑和个人电脑。几十亿人几乎都随时随地带着智能手机。由于智能的先进功能和技术手机,如蓝牙,GPS,相机,强大的CPU,网络连接等,他们可以访问和操纵所有多媒体数据格式(例如音频,图像,视频,或文字)。除此之外,创新应用的爆炸式增长使得智能手机成为可能多媒体大数据的重要来源。过去的这种进步为调查智能手机数据的新研究打开了大门分析。 Lane等人解决了目前在智能手机中开放的问题,尤其是在移动感应。另外,不同形式的用户交互挑战如共享,个性化传感,隐私,将在这些大型传感器数据中进行讨论。智能手机在推荐系统中也受到关注。尤其是,根据不同类型的上下文信息及智能手机无处不在的情境感知提出了多媒体推荐系统。其他智能手机应用,例如安全,大数据,移动电子商务和多媒体云计算已经被广泛研究。


(3)监视视频:监视视频是多媒体的最大来源之一数据。随着多媒体数据的创新大数据解决方案的出现,监控录像研究取得重大突破。它被认为因为监视数据量巨大从而有着很高的价值。监控视频的一个显着应用是如何自动检测来自视频传达出来的信息。智能城市监控是另一个新兴的多媒体大数据应用,Dey利用云数据存储来提供可靠和可扩展的多媒体监测框架。


(4)其他应用:多媒体大数据分析的其他应用可以分类纳入计算健康信息学,智能电视,灾害管理系统,多媒体摘要和物联网(IoT)。举个例子,医疗保健和生物医学数据可被视为多媒体大数据源的最重要数据之一。它包括各种数据(结构化或非结构化)如医学图像,医生笔记,基因组测序,患者记录和放射照相影片。大数据技术对于处理如此大的、异构的且重要的数据是至关重要的,其能以高效和有效的方式提高护理质量。在过去的几年中,关于大数据挑战技术和计算健康信息学和生物医学已被广泛研究。


相关多媒体大数据研究综述工作介绍



目前的大数据分析系统通常被缩小到单个平台(例如,一个社交网络如Twitter)或单一数据格式(主要是文本数据)。相关工作可以分为两个主要领域:多媒体分析和大数据分析表1列出了这两个类别的最新调查,以及它们领域的热点及利弊。


关于多媒体类别,以前的综述并未完全涵盖大数据各个方面和目前多媒体分析的所有挑战。而且,这些综述只涵盖多媒体的一个具体方面的应用分析或单一格式的数据。例如,Hu讨论了目前最重要的话题之一:基于内容的图像/视频检索,Bhatt和Kankanhalli回顾了多媒体面临的挑战和机遇。Akyildiz等人讨论了数据挖掘和多媒体无线传感器网络


另一方面,大数据综述主要集中在大数据目前的挑战,技术和其应用。最近的一项研究评论下一代大数据技术和挑战包括存储,隐私和安全,分析,和应用。Chen等人通过针对数据的生成、获取、存储和分析介绍了一般背景下的数据分析的挑战和进展及技术细节。在Chen和Zhang另一篇文章中,对相关大数据进行了大量的综述,不仅对此进行了讨论最先进的大数据技术,但也提出了一些重要的方法,如用云计算和量子计算去处理非常大的数据。Che等人对大数据挖掘技术进行了调查,讨论了使用并行平台(例如Hadoop MapReduce)研究非常大规模的机器学习算法Agrawal和Hashem等人进一步指出大数据分析的重要性,特别是云计算。尽管如此,不少研究已经提出了目前多媒体大数据分析的问题。 Gandomi andHaider针对结构化数据(例如预测分析)和非结构化数据(例如文本,音频和视频)进行大数据分析。但是,一般来说,这一类综述缺乏从多媒体的观点进行技术讨论。

从表1可以推断,大多数现有的多媒体大数据研究都是专注于特定领域或挑战。一些综述纯粹专注于大数据管理和相关工具。一些综述讨论了特定任务中的多媒体挑战而不考虑非结构化多媒体数量的快速增长。相比之下,这篇综述不仅提供了多媒体研究的全面介绍而且还介绍了可用于多媒体分析的解决方案。



本篇综述研究目标



这篇综述的最终目的是展示最先进的多媒体大数据研究。该综述针对现有多媒体大数据技术,挑战和解决方案及未来研究的方向进行了全面的讨论。这是第一篇调查多媒体大数据分析的文章。它的目标是最新的多媒体管理技术用于超大规模数据并且还提供了研究和技术推进了这个大数据时代的多媒体分析。它主要针对讨论目前非常大数据的多媒体管理方法及它们在多媒体分析中的应用,叙述了现有方法的优势和劣势及局限性以及多媒体大数据分析中潜在的未来发展方向。图1总结了本文中介绍的多媒体模块以及相应的大数据挑战。

图1 多媒体大数据分析挑战


综述的其余部分安排如下。 第2节讨论了当前的大数据大规模多媒体数据的技术。 特别是,这些技术被分类为多媒体数据提取、大规模多媒体数据库管理和检索、多媒体大数据共享,最后是多媒体数据挖掘(包含数据预处理,特征分析,机器学习和多媒体大数据挖掘框架和工具)。在第3部分,对多媒体大数据的五个Vs以及几个多媒体大数据挑战和机会进行讨论。最后,第4部分探讨了几个未来的方向和展望。

图2 多媒体大数据挖掘框架

图3 多媒体大数据的5V


更多内容请阅读文章。


-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员