论文题目: Deep Learning in Video Multi-Object Tracking: A Survey

论文摘要: 多目标跟踪(MOT)的问题在于遵循序列中不同对象(通常是视频)的轨迹。 近年来,随着深度学习的兴起,提供解决此问题的算法得益于深度模型的表示能力。 本文对采用深度学习模型解决单摄像机视频中的MOT任务的作品进行了全面的调查。 确定了MOT算法的四个主要步骤,并对这些阶段的每个阶段如何使用深度学习进行了深入的回顾。 还提供了对三个MOT数据集上提出的作品的完整实验比较,确定了表现最好的方法之间的许多相似之处,并提出了一些可能的未来研究方向。

0+
0+

论文题目: A Survey of Deep Learning-based Object Detection

论文摘要: 目标检测是计算机视觉中最重要和最具挑战性的分支之一,它已广泛应用于人们的生活中,例如监视安全性,自动驾驶等。随着用于检测任务的深度学习网络的迅速发展,对象检测器的性能得到了极大的提高。为了深入地了解目标检测的主要发展状况,在本次调查中,我们首先分析了现有典型检测模型的方法并描述了基准数据集。之后,我们以系统的方式全面概述了各种对象检测方法,涵盖了一级和二级检测器。此外,我们列出了传统和新的应用程序。还分析了对象检测的一些代表性分支。最后,我们讨论了利用这些对象检测方法来构建有效且高效的系统的体系结构,并指出了一组发展趋势,以更好地遵循最新的算法和进一步的研究。

1+
0+

论文题目: A Review of Visual Trackers and Analysis of its Application to Mobile Robot

论文摘要: 近年来,计算机视觉受到了极大的关注,这是机器人获取外部环境信息的重要部分之一。视觉跟踪器可以为移动机器人提供必要的物理和环境参数,其性能与机器人的实际应用有关。这项研究提供了有关视觉跟踪器的全面调查。在简要介绍之后,我们首先分析了视觉跟踪器的基本框架和难点。然后介绍了生成方法和判别方法的结构,并总结了跟踪器中使用的特征描述符,建模方法和学习方法。后来,我们从三个方向审查并评估了判别式跟踪器的最新进展:相关滤波器,深度学习和卷积特征。最后,分析了移动机器人视觉跟踪器的研究方向,并概述了移动机器人视觉跟踪器的未来趋势。

0+
0+

论文题目: Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

论文摘要: 数码摄影和社交网络的广泛普及使多媒体数据(即图像,音乐和视频)的数量迅速增长,从而导致对管理,检索和理解这些数据的巨大需求。 这些数据的情感计算(AC)可以帮助理解人类行为并实现广泛的应用。 在本文中,我们全面研究了用于大规模异构多媒体数据的最新AC技术。 我们通过介绍在AC中广泛使用的来自心理学的典型情感表示模型来开始本调查。 我们简要描述了用于评估交流算法的可用数据集。 然后,我们总结并比较了针对不同多媒体类型(即图像,音乐,视频和多模式数据)的AC的代表性方法,重点是基于手工特征的方法和深度学习方法。 最后,我们讨论了多媒体情感计算的一些挑战和未来的方向。

1+
0+

论文题目: Attending to Entities for Better Text Understanding

论文作者: Pengxiang Cheng ,Katrin Erk

论文摘要: NLP的最新进展见证了大规模预训练语言模型(GPT,BERT,XLNet等)的发展。基于Transformer(Vaswani等人,2017),并在一系列最终任务中,此类模型取得了最先进的结果,接近人类的表现。当与足够多的层和大量的预训练数据配对时,这清楚地证明了堆叠式自我注意架构的强大功能。但是,在需要复杂而又长距离推理的任务上,表面水平的提示还不够,在预训练的模型和人类绩效之间仍然存在很大的差距。Strubell等。 (2018)最近表明,可以注入句法知识通过监督的自我注意将其构建为模型。我们推测,将语义知识(尤其是共指信息)类似地注入到现有模型中,将会提高此类复杂问题的性能。上在LAMBADA(Paperno et al.2016)任务中,我们显示了从头开始训练并同时作为自我注意的辅助监督的模型优于最大的GPT-2模型,并设置了新的最新技术,而仅包含与GPT-2相比,它只占很小一部分参数。我们还对模型架构和监督配置的不同变体进行了全面分析,为将类似技术应用于其他问题提供了未来的方向。

1+
0+

论文题目: Unsupervised Pre-training for Natural Language Generation

论文摘要: 最近,由于无监督预训练在促进自然语言理解(NLU)方面取得了令人惊讶的成功以及有效利用大规模未标记语料库的潜力,因此在计算语言学领域正变得越来越受欢迎。但是,无论NLU是否成功,当涉及自然语言生成(NLG)时,无监督预训练的功能只能被部分挖掘。 NLG特质的主要障碍是:文本通常是基于特定的上下文生成的,可能会因目标应用程序而异。结果,像在NLU场景中一样,设计用于预训练的通用体系结构是很难的。此外,在目标任务上学习时保留从预训练中学到的知识也是不容置疑的。这篇综述总结了近期在无监督的预训练下增强NLG系统的工作,特别着重于催化将预训练的模型集成到下游任务中的方法。根据它们处理上述障碍的方式,它们分为基于体系结构的方法和基于策略的方法。还提供了讨论,以提供这两种工作方式之间的进一步相互了解,一些有益的经验现象以及未来工作可能涉及的一些方向。

0+
0+

论文题目: Imbalance Problems in Object Detection: A Review

论文摘要: 在本文中,我们对物体检测中的不平衡问题进行了全面回顾。 为了系统地分析问题,我们引入了两种分类法; 一个解决问题,另一个解决方案。 按照问题的分类法,我们深入讨论每个问题,并对文献中的解决方案提出一个统一而又批判性的观点。 此外,我们确定了有关现有不平衡问题以及以前未讨论过的不平衡问题的主要开放问题。 此外,为了使我们的评论保持最新,我们提供了一个随附的网页。

0+
0+

论文题目: Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

论文作者: Sarik Ghazarian, Ralph Weischedel, Aram Galstyan, Nanyun Peng

论文摘要: 用户参与度是评估开放域对话系统质量的关键指标。通过使用启发式构造的功能(例如转数和对话的总时间),先前的工作集中在对话级别的参与上。在本文中,我们调查了估计话语级别参与度的可能性和有效性,并定义了一种用于自动评估开放域对话系统的新指标,预测性参与度。我们的实验表明:(1)人类注释者在评估话语水平的参与分数方面具有很高的一致性; (2)对话级别的参与度得分可以根据适当汇总的话语级别的参与度得分进行预测。此外,我们表明可以从数据中学到话语水平的参与度分数。这些分数可以改善开放域对话系统的自动评估指标,如与人类判断的相关性所示。这表明预测性参与可以用作实时反馈,以训练更好的对话模型。

0+
0+

论文题目: Privacy-Preserving Gradient Boosting Decision Trees

论文作者: Qinbin Li, Zhaomin Wu, Zeyi Wen, Bingsheng He

论文摘要: 梯度提升决策树(GBDT)是近年来用于各种任务的流行机器学习模型。在本文中,我们研究如何在保留差异性隐私的有力保证的同时提高GBDT的模型准确性。敏感度和隐私预算是差异化私人模型有效性的两个关键设计方面。现有的具有差分隐私保护的GBDT解决方案由于过于宽松的敏感性界限和无效的隐私预算分配(尤其是GBDT模型中的不同树)而导致严重的准确性损失。松散的灵敏度范围导致更多的噪声以获得固定的优先级。无效的隐私预算分配使准确性降低,尤其是在树的数量很大时。因此,我们提出了一种新的GBDT训练算法,该算法可实现更严格的灵敏度范围和更有效的噪声分配。具体而言,通过研究梯度的属性和每棵树在GBDT中的贡献,我们提出针对每个迭代和叶节点修剪自适应地控制训练数据的梯度,以收紧敏感度范围。此外,我们设计了一种新颖的增强框架,可以在树之间分配隐私预算,从而可以减少准确性损失。我们的实验表明,与其他基准相比,我们的方法可以实现更好的模型准确性。

0+
0+

题目: 自然语言处理中的表示学习进展:从Transfomer到BERT

报告人: 邱锡鹏 博士 复旦大学

摘要: 目前全连接自注意力模型(比如Transformer)在自然语言处理领域取得了广泛的成功。本报告主要介绍我们在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer等。2)预训练的Transformer模型的迁移方法:虽然预训练的Transformer模型(比如BERT、GPT等)在很多自然语言任务上都取得了非常好的性能,我们通过任务转换、继续预训练、多任务学习等方法来进一步提高其迁移能力。最后,对Transformer模型及其未来发展趋势进行展望。

20191104-MLA2019-自然语言处理中的表示学习进展:从Transfomer到BERT.pdf
0+
0+

论文主题: Recent Advances in Deep Learning for Object Detection

论文摘要: 目标检测是计算机视觉中的基本视觉识别问题,并且在过去的几十年中已得到广泛研究。目标检测指的是在给定图像中找到具有精确定位的特定目标,并为每个目标分配一个对应的类标签。由于基于深度学习的图像分类取得了巨大的成功,因此近年来已经积极研究了使用深度学习的对象检测技术。在本文中,我们对深度学习中视觉对象检测的最新进展进行了全面的调查。通过复习文献中最近的大量相关工作,我们系统地分析了现有的目标检测框架并将调查分为三个主要部分:(i)检测组件,(ii)学习策略(iii)应用程序和基准。在调查中,我们详细介绍了影响检测性能的各种因素,例如检测器体系结构,功能学习,建议生成,采样策略等。最后,我们讨论了一些未来的方向,以促进和刺激未来的视觉对象检测研究。与深度学习。

0+
0+

简介: 深度学习通常被认为具有解决问题的近乎形而上的能力。 然而,深度学习背后的技术通常被视为神秘的黑匣子。 在本教程中,我们试图为深入了解深度学习提供坚实的基础。 我们的主要重点是反向传播和自动微分,但我们还将讨论各种相关主题,包括梯度下降和出现的各种参数。 此外,我们指出了深度学习与其他非深度技术之间的许多联系,这些联系主要是隐马尔可夫模型(HMM)和支持向量机(SVM)。 但是首先,我们讨论人工神经网络,这是深度学习的基本组成部分。

大纲介绍:

  • 介绍
  • 神经网络的发展
  • 为什么是神经网络呢?
  • 决定
  • 自动微分
  • 反向传播
  • 结论
  • 问题
  • 附件
2+
0+
登录查看的更多。 返回顶部
本周荟萃主题
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习 (Reinforcement learning) 是受到行为心理学启发,机器学习中研究个体 (agent) 如何在环境中采取行动以最大化奖赏 (reward) 的领域。

这一问题由于其普遍性,在许多领域中都有研究,例如博弈论,控制论,运筹学,信息论等等。
信息推荐
信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。俗称推荐系统。
卷积神经网络
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,[1]对于大型图像处理有出色表现。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
图灵奖
图灵奖(A.M. Turing Award,又译“杜林奖”),由 美国计算机协会(ACM)于1966年设立,又叫“A.M. 图灵奖”,专门奖励那些对计算机事业作出重要贡献的个人。其名称取自计算机科学的先驱、英国科学家 阿兰·麦席森·图灵
图像识别
从图像中提取出有意义、有实用价值的信息。
Top