摘要: Web 2.0时代,消费者在在线购物、学习和娱乐时越来越多地依赖在线评论信息,而虚假的评论会误导消费者的决策,影响商家的真实信用,因此有效识别虚假评论具有重要意义。文中首先对虚假评论的范围进行了界定,并从虚假评论识别、形成动机、对消费者的影响以及治理策略4个方面归纳了虚假评论的研究内容,给出了虚假评论研究框架和一般识别方法的工作流程。然后从评论文本内容和评论者及其群组行为两个角度,对近十年来国内外的相关研究成果进行了综述,介绍了虚假评论效果评估的相关数据集和评价指标,统计分析了在公开数据集上实现的虚假评论有效识别方法,并从特征选取、模型方法、训练数据集、评价指标值等方面进行了对比分析。最后对虚假评论识别领域的有标注语料规模限制等未来研究方向进行了探讨。

成为VIP会员查看完整内容
0
24

相关内容

深度学习在大量领域取得优异成果,但仍然存在着鲁棒性和泛化性较差、难以学习和适应未观测任务、极其依赖大规模数据等问题.近两年元学习在深度学习上的发展,为解决上述问题提供了新的视野.元学习是一种模仿生物利用先前已有的知识,从而快速学习新的未见事物能力的一种学习定式.元学习的目标是利用已学习的信息,快速适应未学习的新任务.这与实现通用人工智能的目标相契合,对元学习问题的研究也是提高模型的鲁棒性和泛化性的关键.近年来随着深度学习的发展,元学习再度成为热点,目前元学习的研究百家争鸣、百花齐放. 本文从元学习的起源出发,系统地介绍元学习的发展历史,包括元学习的由来和原始定义,然后给出当前元学习的通用定义,同时总结当前元学习一些不同方向的研究成果,包括基于度量的元学习方法、基于强泛化新的初始化参数的元学习方法、基于梯度优化器的元学习方法、基于外部记忆单元的元学方法、基于数据增强的元学方法等. 总结其共有的思想和存在的问题,对元学习的研究思想进行分类,并叙述不同方法和其相应的算法.最后论述了元学习研究中常用数据集和评判标准,并从元学习的自适应性、进化性、可解释性、连续性、可扩展性展望其未来发展趋势.

引言

随着计算设备并行计算性能的大幅度 进步,以及近些年深度神经网络在各个领域 不断取得重大突破,由深度神经网络模型衍 生而来的多个机器学习新领域也逐渐成型, 如强化学习、深度强化学习[1] [2] 、深度监督 学习等。在大量训练数据的加持下,深度神 经网络技术已经在机器翻译、机器人控制、 大数据分析、智能推送、模式识别等方面取 得巨大成果[3] [4] [5] 。

实际上在机器学习与其他行业结合的 过程中,并不是所有领域都拥有足够可以让 深度神经网络微调参数至收敛的海量数据, 相当多领域要求快速反应、快速学习,如新 兴领域之一的仿人机器人领域,其面临的现 实环境往往极为复杂且难以预测,若按照传 统机器学习方法进行训练则需要模拟所有 可能遇到的环境,工作量极大同时训练成本 极高,严重制约了机器学习在其他领域的扩 展,因此在深度学习取得大量成果后,具有 自我学习能力与强泛化性能的元学习便成 为通用人工智能的关键。

元学习(Meta-learning)提出的目的是 针对传统神经网络模型泛化性能不足、对新 种类任务适应性较差的特点。在元学习介绍 中往往将元学习的训练和测试过程类比为 人类在掌握一些基础技能后可以快速学习并适应新任务,如儿童阶段的人类也可以快 速通过一张某动物照片学会认出该动物,即 机 器 学 习 中 的 小 样 本 学 习 ( Few-shot Learning)[6] [7] ,甚至不需要图像,仅凭描 述就可学会认识新种类,对应机器学习领域 中的(Zero-shot Learning)[8] ,而不需要大 量该动物的不同照片。人类在幼儿阶段掌握 的对世界的大量基础知识和对行为模式的 认知基础便对应元学习中的“元”概念,即一 个泛化性能强的初始网络加上对新任务的 快速适应学习能力,元学习的远期目标为通 过类似人类的学习能力实现强人工智能,当 前阶段体现在对新数据集的快速适应带来 较好的准确度,因此目前元学习主要表现为 提高泛化性能、获取好的初始参数、通过少 量计算和新训练数据即可在模型上实现和 海量训练数据一样的识别准确度,近些年基 于元学习,在小样本学习领域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同时为模拟 人类认知,在 Zero-shot Learning 方向也进行 了大量探索[18] [19] [20] [21] [22] 。

在机器学习盛行之前,就已产生了元学习的相关概念。当时的元学习还停留在认知 教育科学相关领域,用于探讨更加合理的教 学方法。Gene V. Glass 在 1976 年首次提出 了“元分析”这一概念[23] ,对大量的分析结 果进行统计分析,这是一种二次分析办法。G Powell 使用“元分析”的方法对词汇记忆 进行了研究[24] ,指出“强制”和“诱导”意象有 助于词汇记忆。Donald B.Maudsley 在 1979 年首次提出了“元学习”这一概念,将其描述 为“学习者意识到并越来越多地控制他们已 经内化的感知、探究、学习和成长习惯的过 程”,Maudsley 将元学习做为在假设、结构、 变化、过程和发展这 5 个方面下的综合,并 阐述了相关基本原则[25] 。BIGGS J.B 将元学 习描述为“意识到并控制自己的学习的状 态” [26] ,即学习者对学习环境的感知。P Adey 将元学习的策略用在物理教学上[27] , Vanlehn K 探讨了辅导教学中的元学习方法 [28] 。从元分析到元学习,研究人员主要关 注人是如何意识和控制自己学习的。一个具 有高度元学习观念的学生,能够从自己采用 的学习方法所产生的结果中获得反馈信息,进一步评价自己的学习方法,更好地达到学 习目标[29] 。随后元学习这一概念慢慢渗透 到机器学习领域。P.Chan 提出的元学习是一 种整合多种学习过程的技术,利用元学习的 策略组合多个不同算法设计的分类器,其整 体的准确度优于任何个别的学习算法[30] [31] [32] 。HilanBensusan 提出了基于元学习的决 策树框架[33] 。Vilalta R 则认为元学习是通 过积累元知识动态地通过经验来改善偏倚 的一种学习算法[34] 。

Meta-Learning 目前还没有确切的定义, 一般认为一个元学习系统需结合三个要求:系统必须包含一个学习子系统;利用以前学 习中提取的元知识来获得经验,这些元知识 来自单个数据集或不同领域;动态选择学习偏差。

元学习的目的就是为了设计一种机器学习模型,这种模型有类似上面提到的人的 学习特性,即使用少量样本数据,快速学习 新的概念或技能。经过不同任务的训练后, 元学习模型能很好的适应和泛化到一个新任务,也就学会了“Learning to learn”。

成为VIP会员查看完整内容
0
57

近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20190785

21世纪互联网快速发展,文本数据呈指数级增长,用户如何快速有效地从海量信息中提炼出所需的有用资料,已经成为一个亟待解决的问题.自动文本摘要(automaticsummarization)技术,又被称为自动文摘,它的出现恰逢其时,为用户提供简洁而不丢失原意的信息,可以有效地降低用户的信息负担、提高用户的信息获取速度,将用户从繁琐、冗余的信息中解脱出来,节省了大量的人力物力,在信息检索、舆情分析、内容审查等领域具有较高的研究价值.

早期的文本摘要普遍是通过人工来完成的,文本数据量的激增使得这项工作日渐繁重且效率低下,逐渐不能满足用户的需求.近年来,随着对非结构化文本数据研究的进展,自动文摘任务得到了广泛的关注和研究,其已成为自然语言处理领域的研究热点之一.学术界涌现出大量围绕算法技术、数据集、评价指标和系统的相关工作,这些工作在一定程度上取得了较好的效果,快速应用到金融、新闻、医学、媒体等各个领域,如社交媒体摘要[1]、新闻摘要[2]、专利摘要[3]、观点摘要[4]以及学术文献摘要[5].尽管如此,目前计算机自动产生的摘要还远不能达到人工摘要的质量,在该任务上还有很大的提升空间,仍需要相关研究者进一步探索有效的自动文摘技术.

目前已有一些文献对自动文摘任务进行了调研和评估.在早期的工作中,万小军等人[6]首次将自动文摘的研究工作从内容表示、权重计算、内容选择、内容组织4个角度进行了深度剖析,并对发展趋势进行了展望,为之后的研究工作打下了良好的基础.王俊丽等人[7]则主要针对抽取式自动文摘的图排序算法进行了介绍.曹洋等人[8]重点分析了3种主要的机器学习算法在自动文摘中的应用.此外,还有一些相关的研究工作,但他们基本仅针对自动文摘中的单个技术方向进行详细综述,经过调研发现目前尚缺乏对自动文摘任务进行全面的研究综述.

基于此,为了便于研究者在现有研究工作的基础上取得更好的进展,非常有必要对目前自动文摘的研究成果进行全面的分析和总结.因此,我们查阅整理了近年来学术界相关的研究工作,包括自然语言处理、人工智能等相关领域的国际会议和学术期刊,对这些研究成果按照摘要产生的技术算法进行了详细的分类以及优缺点的对比与总结.除此之外,本文对自动文本摘要研究常用的数据集、评价方法进行归纳总结,最后对自动文摘任务未来的研究趋势进行展望与总结.

成为VIP会员查看完整内容
1
16

随着信息技术的快速发展,网络攻击逐渐呈现多阶段、分布式和智能化的特性,单一的防火墙、入侵检测系统等传统网络防御措施不能很好地保护开放环境下的网络系统安全。网络攻击模型作为一种攻击者视角的攻击场景表示,能够综合描述复杂多变环境下的网络攻击行为,是常用的网络攻击分析与应对工具之一。本文首先介绍主要网络攻击模型,包括传统树、图、网结构模型和现代杀伤链、ATT&CK、钻石模型等;然后再对网络攻击模型的分析与应用进行说明,其中以求解攻击指标为目的的分析过程主要包括概率框架、赋值方法和求解方法,基于生命周期的攻击模型应用则包括了攻击者视角和防守者视角的应用过程;最后总结了网络攻击模型及其分析应用的现有挑战与未来方向。

http://www.sicris.cn/CN/abstract/abstract862.shtml

成为VIP会员查看完整内容
1
15

深度学习在计算机视觉领域取得了重大成功,超越了众多传统的方法.然而,近年来深度学习技术被滥用在假视频的制作上,使得以Deepfakes为代表的伪造视频在网络上泛滥成灾.这种深度伪造技术通过篡改或替换原始视频的人脸信息,并合成虚假的语音,来制作色情电影、虚假新闻、政治谣言等.为了消除此类伪造技术带来的负面影响,众多学者对假视频的鉴别进行了深入的研究,并提出一系列的检测方法帮助机构或社区来识别此类伪造视频.尽管如此,目前的检测技术仍然存在依赖特定分布数据、特定压缩率等众多的局限性,远远落后于假视频的生成技术.并且,不同的学者解决问题的角度不同,使用的数据集和评价指标均不统一.迄今为止,学术界对深度伪造与检测技术仍缺乏统一的认识,深度伪造和检测技术研究的体系架构尚不明确.在本综述中,我们回顾了深度伪造与检测技术的发展,并对现有研究工作进行了系统的总结和科学的归类.最后,我们讨论了深度伪造技术蔓延带来的社会风险,分析了检测技术的诸多局限性,并探讨了检测技术面临的挑战和潜在研究方向,旨在为后续学者进一步推动深度伪造检测技术的发展和部署提供指导.

近年来,以 Deepfakes [1]为代表的换脸技术开始在网络兴起.此类技术可将视频中的人脸替换成目标人物, 从而制作出目标人物做特定动作的假视频.随着深度学习技术的发展,自动编码器、生成对抗网络等技术逐渐 被应用到深度伪造中.由于 Deepfakes 技术只需要少量的人脸照片便可以实现视频换脸,一些恶意用户利用互联网上可获取的数据生成众多的假视频并应用在灰色地带,如将色情电影的女主角替换成女明星,给政客、公司高管等有影响力的人伪造一些视频内容,从而达到误导舆论,赢得选取,操纵股价等目的.这些虚假视频内容 极其逼真,在制作的同时往往伴随着音频的篡改,使得互联网用户几乎无法鉴别.如果这些深度伪造的内容作为新闻素材被制作传播,这会损害新闻机构的声誉和公众对媒体的信心.更深层次的,当遇到案件侦查和事故取证时,如果缺乏对 Deepfakes 类虚假影像资料的鉴别,将对司法体系产生巨大的挑战.尽管深度伪造技术有其积极的一面,如“复活”一些去世的人进行影视创作,以及 Zao APP[2]提供大众换脸娱乐服务等,但是目前负面影响远远大于正面,拥有鉴别此类深度伪造视频的能力变得尤为重要.

为了尽量减少深度伪造技术带来的影响,消除虚假视频的传播,学术界和工业界开始探索不同的深度伪 造检测技术.相继有学者构造数据集,展开对 Deepfakes 检测的多角度研究.脸书公司也联合微软一起举办全 球 Deepfakes 检测竞赛[3]以推动检测技术的发展.然而这些 Deepfakes 检测工作各有侧重,存在众多局限性.针 对本领域的综述工作还比较缺乏,只有针对早期图像篡改工作的一些总结[4][5],亟需对现有工作进行系统的整 理和科学的总结、归类,以促进该领域的研究.

本文首先在第1节中介绍深度伪造的各种相关技术,在第2节中列举了当下深度伪造研究的数据集,接着 在第 3 节中对现有的深度伪造检测技术进行系统的总结和归类.第 4 节我们讨论了深度伪造生成和检测技术 的双面对抗性,第 5 节我们总结了面临的挑战和未来可行的研究方向.最后,在第 6 节,我们对全文的工作进行 总结.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6140&flag=1

成为VIP会员查看完整内容
0
23

http://cea.ceaj.org/CN/abstract/abstract39198.shtml

近年来,深度学习技术被广泛应用于各个领域,基于深度学习的预处理模型将自然语言处理带入一个新时代。预训练模型的目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于深度学习的新式模型进行综述;简要分析传统预训练模型的特点及局限性,重点介绍基于深度学习的预训练模型,并针对它们在下游任务的表现进行对比评估;梳理出具有启发意义的新式预训练模型,简述这些模型的改进机制以及在下游任务中取得的性能提升;总结目前预训练的模型所面临的问题,并对后续发展趋势进行展望。

成为VIP会员查看完整内容
0
36

我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.该文章主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化然后与文本特征通过一个强大的特征抽取器产生出表征,其中Transformer[1]作为主要的特征抽取器被应用表征学习的各类任务中.文章分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

成为VIP会员查看完整内容
0
48

推荐系统旨在为用户推荐个性化的在线商品或信息, 其广泛应用于众多Web场景之中, 来处理海量信息数据所导致的信息过载问题, 以此提升用户体验. 鉴于推荐系统强大的实用性, 自20世纪90年代中期以来, 研究者针对其方法与应用两方面, 进行了大量广泛的研究. 近年来, 很多工作发现知识图谱中所蕴含的丰富信息可以有效地解决推荐系统中存在的一系列关键问题, 例如数据稀疏、冷启动、推荐多样性等. 因此, 本文 针对基于知识图谱的推荐系统这一领域进行了全面的综述. 具体地, 首先简单介绍推荐系统与知识图谱中的一些基本概念. 随后, 详细介绍现有方法如何挖掘知识图谱不同种类的信息并应用于推荐系统. 此外, 总结了相关的一系列推荐应用场景. 最后, 提出了对基于知识图谱的推荐系统前景的看法, 并展望了该领域未来的研究方向.

成为VIP会员查看完整内容
0
115

摘要:命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。

成为VIP会员查看完整内容
1
72

人机对话系统能够让机器通过人类语言与人进行交互,是人工智能领域的一项重要工作。因其在虚拟助手和社交聊天机器人等领域的商业价值而广受工业界和学术界的关注。近年来,互联网社交数据快速增长促进了数据驱动的开放领域对话系统研究,尤其是将深度学习技术应用到其中取得了突破性进展。基于深度学习的开放领域对话系统使用海量社交对话数据,通过检索或者生成的方法建立对话模型学习对话模式。将深度学习融入检索式系统中研究提高对话匹配模型的效果,将深度学习融入生成式系统中构建更高质量的生成模型,成为了基于深度学习的开放领域对话系统的主要任务。本文对近几年基于深度学习的开放领域对话系统研究进展进行综述,梳理、比较和分析主要方法,整理其中的关键问题和已有解决方案,总结评测指标,展望未来研究趋势。

成为VIP会员查看完整内容
0
42
小贴士
相关VIP内容
专知会员服务
57+阅读 · 2月4日
专知会员服务
16+阅读 · 1月31日
专知会员服务
15+阅读 · 2020年12月28日
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
36+阅读 · 2020年12月9日
专知会员服务
48+阅读 · 2020年12月3日
专知会员服务
17+阅读 · 2020年8月19日
专知会员服务
115+阅读 · 2020年8月10日
专知会员服务
72+阅读 · 2020年4月21日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
42+阅读 · 2019年10月12日
相关资讯
领域知识图谱研究综述
专知
4+阅读 · 2020年8月2日
最新《多任务学习》综述,39页pdf
专知
4+阅读 · 2020年7月10日
【综述】交通流量预测,附15页论文下载
专知
7+阅读 · 2020年4月23日
【中科院】命名实体识别技术综述
专知
6+阅读 · 2020年4月21日
情感计算综述
人工智能学家
21+阅读 · 2019年4月6日
热点! 虚假新闻检测综述
专知
76+阅读 · 2019年2月26日
【报告分享】刘成林:文档分析及模式识别系统学习领域研究进展与热点
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
13+阅读 · 2017年7月10日
相关论文
Chongming Gao,Wenqiang Lei,Xiangnan He,Maarten de Rijke,Tat-Seng Chua
8+阅读 · 1月23日
Sho Takase,Sosuke Kobayashi
4+阅读 · 2020年5月25日
Qingyu Guo,Fuzhen Zhuang,Chuan Qin,Hengshu Zhu,Xing Xie,Hui Xiong,Qing He
66+阅读 · 2020年2月28日
Extending Machine Language Models toward Human-Level Language Understanding
James L. McClelland,Felix Hill,Maja Rudolph,Jason Baldridge,Hinrich Schütze
4+阅读 · 2019年12月12日
Learning Recommender Systems from Multi-Behavior Data
Chen Gao,Xiangnan He,Dahua Gan,Xiangning Chen,Fuli Feng,Yong Li,Tat-Seng Chua,Depeng Jin
3+阅读 · 2018年11月29日
Joaquin Vanschoren
105+阅读 · 2018年10月8日
Knowledge Based Machine Reading Comprehension
Yibo Sun,Daya Guo,Duyu Tang,Nan Duan,Zhao Yan,Xiaocheng Feng,Bing Qin
3+阅读 · 2018年9月12日
Theme-weighted Ranking of Keywords from Text Documents using Phrase Embeddings
Debanjan Mahata,John Kuriakose,Rajiv Ratn Shah,Roger Zimmermann,John R. Talburt
5+阅读 · 2018年7月16日
Po-Sen Huang,Chong Wang,Sitao Huang,Dengyong Zhou,Li Deng
3+阅读 · 2018年4月18日
Top