信息与通信解决方案供应商

VIP内容

题目主题: Small Data Challenges in Big Data Era: Unsupervised and Semi-Supervised Methods

简介: 在本教程中,我们将回顾在训练深度神经网络中使用有限带注释的数据克服小数据挑战的最新进展。我们将以无监督和半监督的方法来复习文献,包括基本原理,标准,考虑因素和网络设计,并希望对如何有效利用大量未标记的数据促进模型训练和推断提供一些启示。

小数据挑战已经在许多学习问题中出现,因为深度神经网络的成功通常依赖于大量标记数据的可用性,而这些数据收集起来很昂贵。为了解决这些挑战,以无监督和半监督的方式训练带有小数据的复杂模型方面已经做出了很多努力。在本教程中,我们将回顾这两种主要方法的最新进展。各种各样的小型数据模型将被概括为一幅大图,在这里我们将展示它们如何相互作用。具体来说,我们将回顾学习变换等,自我监督和半监督表示形式的标准,这些标准为最近的发展奠定了基础。

作者介绍: Guo-Jun Qi是华为的首席科学家,领导并监督着多个智能云服务领域的国际研发团队,包括智能城市,视觉计算服务,医疗智能服务和互联车辆服务。 他自2014年8月起担任佛罗里达大学计算机科学系的教授,并担任机械感知与学习(MAPLE)实验室的主任。在此之前,他还是研究人员在IBM TJ纽约州约克敦高地的沃森研究中心。他的研究兴趣包括从多模式数据源(例如图像,视频,文本和传感器)中进行机器学习和知识发现,以构建智能,可靠的信息和决策系统。他的研究得到了政府机构和行业合作者(包括NSF,IARPA,微软,IBM和Adobe)的资助和项目的赞助。

Jiebo Luo在柯达研究实验室工作了十五年多之后,于2011年秋天加入罗切斯特大学,在那里他是负责研究和先进开发的高级首席科学家。 他参加过许多技术会议,并担任ACM Multimedia 2010,IEEE CVPR 2012,ACM ICMR 2016和IEEE ICIP 2017的程序联席主席。研究方向为智能系统和技术交易,模式识别,机器视觉和应用,知识和信息系统以及电子成像杂志。 罗博士是SPIE,IAPR,IEEE,ACM和AAAI的会员。

大纲介绍:

  • 回顾:小样本数据
  • 无监督
    • TER
      • 等价图卷积
      • 自编码器转换
    • 生成表示
      • 自编码器介绍
      • 基于GAN的表示
      • 生成模型
    • 自监督方法
  • 半监督
    • 半监督生成模型
      • 半监督自编码器
      • 半监督GAN
      • 半监督Disentangled 表示
    • teacher-student模型
      • 嘈杂teacher
      • teacher集成
      • 对抗teacher
成为VIP会员查看完整内容
6+
0+
更多VIP内容

最新论文

System logs record detailed runtime information of software systems and are used as the main data source for many tasks around software engineering. As modern software systems are evolving into large scale and complex structures, logs have become one type of fast-growing big data in industry. In particular, such logs often need to be stored for a long time in practice (e.g., a year), in order to analyze recurrent problems or track security issues. However, archiving logs consumes a large amount of storage space and computing resources, which in turn incurs high operational cost. Data compression is essential to reduce the cost of log storage. Traditional compression tools (e.g., gzip) work well for general texts, but are not tailed for system logs. In this paper, we propose a novel and effective log compression method, namely logzip. Logzip is capable of extracting hidden structures from raw logs via fast iterative clustering and further generating coherent intermediate representations that allow for more effective compression. We evaluate logzip on five large log datasets of different system types, with a total of 63.6 GB in size. The results show that logzip can save about half of the storage space on average over traditional compression tools. Meanwhile, the design of logzip is highly parallel and only incurs negligible overhead. In addition, we share our industrial experience of applying logzip to Huawei's real products.

0+
0+
下载
预览
更多最新论文
Top