2012年,我出版了一本1200页的书《机器学习:概率视角》(Machine learning: a probability perspective),在概率建模的统一视角下,对当时的机器学习(ML)领域进行了较为全面的覆盖。这本书很受欢迎,并在2013年获得了 De Groot奖。

2012年也被普遍认为是“深度学习革命”的开始。术语“深度学习”指的是ML的一个分支,它基于多层神经网络(因此术语“深度”)。尽管这种基本技术已经存在很多年了,但直到2012年,它才开始在一些具有挑战性的基准测试上显著优于其他更“经典”的ML方法。例如,[KSH12]使用深度神经网络(DNNs)赢得了ImageNet图像分类挑战赛,[CMS12]使用DNNs赢得了另一场图像分类挑战赛,[DHK13]使用DNNs在语音识别方面大大优于现有方法。这些突破的实现得益于硬件技术的进步(特别是,从视频游戏到ML的快速图形处理单元的再利用)、数据收集技术(特别是,使用众包收集大型标记数据集,如ImageNet),以及各种新的算法思想。

自2012年以来,深度学习领域出现了爆炸式的发展,新的进展不断加快。由于该技术的商业成功以及其应用范围的广泛,人们对该领域的兴趣也出现了爆炸式的增长。因此,在2018年,我决定写我的书的第二版,试图总结一些进展。

我的书的第二版,试图总结一些进展。到2020年春天,我的第二版草稿已经增加到大约1600页,但我仍然没有完成。此时,发生了3件大事。首先,COVID-19大流行袭来,所以我决定“转向”,这样我就可以把大部分时间花在COVID-19建模上。其次,麻省理工学院出版社告诉我,他们不能出版1600页的书,我需要把它分成两卷。第三,我决定招募几个同事来帮我完成最后⇠15%的“缺失的内容”。(见下面的确认。)

结果是两本新书,“概率机器学习:简介”,你目前正在阅读,以及“概率机器学习:高级主题”,这是这本书的续集[Mur22]。这两本书使用了我在第一本书中使用的概率建模和贝叶斯决策理论的统一视角,试图对ML c. 2020领域进行相当广泛的覆盖。

第一本书的大部分内容都被重复使用了,但现在它被两本新书平均分配了。此外,每本书都有大量的新材料,涵盖了一些主题从深度学习,但也在其他领域的进展,如生成模型,变分推理和强化学习。为了使这本书更加完备和对学生有用,我还添加了一些更多的背景内容,关于优化和线性代数等主题,这些内容由于篇幅不足在第一本书中被省略了。

另一个主要的变化是几乎所有的软件现在都使用Python而不是Matlab。新代码利用了标准的Python库,如numpy、scipy、scikit-learn等。有些例子也依赖于各种深度学习库,如TensorFlow、PyTorch和JAX。除了创建一些图形的脚本之外,每一章还配有Jupyter记事本,这些记事本讨论了我们在主要文本中没有空间覆盖的实际方面。详情请访问http://mlbayes.ai。

地址: https://probml.github.io/pml-book/book1.html

目录内容:

成为VIP会员查看完整内容
0
84
自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

关于图信号处理、图分析、图机器学习比较全面的一本书,值得关注!

当前强大的计算机和庞大的数据集正在为计算数学创造新的机会,将图论、机器学习和信号处理的概念和工具结合在一起,创建图数据分析。

在离散数学中,图仅仅是连接一些点(节点)和线的集合。这些图表的强大之处在于,节点可以代表各种各样的实体,比如社交网络的用户或金融市场数据,这些可以转换成信号,然后使用数据分析工具进行分析。《图数据分析》是对生成高级数据分析的全面介绍,它允许我们超越时间和空间的标准常规采样,以促进建模在许多重要领域,包括通信网络,计算机科学,语言学,社会科学,生物学,物理学,化学,交通,城市规划,金融系统,个人健康和许多其他。

作者从现代数据分析的角度重新审视了图拓扑,并着手建立图网络的分类。在此基础上,作者展示了频谱分析如何引导最具挑战性的机器学习任务,如聚类,以直观和物理上有意义的方式执行。作者详细介绍了图数据分析的独特方面,例如它们在处理从不规则域获取的数据方面的好处,它们通过局部信息处理微调统计学习过程的能力,图上的随机信号和图移位的概念,从图上观察的数据学习图拓扑,以及与深度神经网络、多路张量网络和大数据的融合。包括了大量的例子,使概念更加具体,并促进对基本原则的更好理解。

本书以对数据分析的基础有良好把握的读者为对象,阐述了图论的基本原理和新兴的数学技术,用于分析在图环境中获得的各种数据。图表上的数据分析将是一个有用的朋友和伙伴,所有参与数据收集和分析,无论应用领域。

地址: https://www.nowpublishers.com/article/Details/MAL-078-1

Graph Signal Processing Part I: Graphs, Graph Spectra, and Spectral Clustering

图数据分析领域预示着,当我们处理数据类的信息处理时,模式将发生改变,这些数据类通常是在不规则但结构化的领域(社交网络,各种特定的传感器网络)获得的。然而,尽管历史悠久,目前的方法大多关注于图本身的优化,而不是直接推断学习策略,如检测、估计、统计和概率推理、从图上获取的信号和数据聚类和分离。为了填补这一空白,我们首先从数据分析的角度重新审视图拓扑,并通过图拓扑的线性代数形式(顶点、连接、指向性)建立图网络的分类。这作为图的光谱分析的基础,图拉普拉斯矩阵和邻接矩阵的特征值和特征向量被显示出来,以传达与图拓扑和高阶图属性相关的物理意义,如切割、步数、路径和邻域。通过一些精心选择的例子,我们证明了图的同构性使得基本属性和描述符在数据分析过程中得以保留,即使是在图顶点重新排序的情况下,在经典方法失败的情况下也是如此。其次,为了说明对图信号的估计策略,通过对图的数学描述符的特征分析,以一般的方式介绍了图的谱分析。最后,建立了基于图谱表示(特征分析)的顶点聚类和图分割框架,说明了图在各种数据关联任务中的作用。支持的例子展示了图数据分析在建模结构和功能/语义推理中的前景。同时,第一部分是第二部分和第三部分的基础,第二部分论述了对图进行数据处理的理论、方法和应用,以及从数据中学习图拓扑。

https://www.zhuanzhi.ai/paper/64f73fba1fafb627ee688a6feb117c15

Graph Signal Processing Part II: Processing and Analyzing Signals on Graphs

本专题第一部分的重点是图的基本性质、图的拓扑和图的谱表示。第二部分从这些概念着手,以解决围绕图上的数据/信号处理的算法和实际问题,也就是说,重点是对图上的确定性和随机数据的分析和估计。

https://www.zhuanzhi.ai/paper/ee501d68e18f34725aca6097f575bdc8

Graph Signal Processing -- Part III: Machine Learning on Graphs, from Graph Topology to Applications

许多关于图的现代数据分析应用都是在图拓扑而不是先验已知的领域上操作的,因此它的确定成为问题定义的一部分,而不是作为先验知识来帮助问题解决。本部分探讨了学习图拓扑。随着越来越多的图神经网络(GNN)和卷积图网络(GCN)的出现,我们也从图信号滤波的角度综述了GNN和卷积图网络的主要发展趋势。接着讨论了格结构图的张量表示,并证明了张量(多维数据数组)是一类特殊的图信号,图的顶点位于高维规则格结构上。本部分以金融数据处理和地下交通网络建模的两个新兴应用作为结论。

图片

https://www.zhuanzhi.ai/paper/b0a0a3b647f965a121a83343d4b47153

成为VIP会员查看完整内容
0
63

机器学习使用各种数学领域的工具。本文试图对机器学习入门课程所需的数学背景进行总结,这门课在加州大学伯克利分校被称为CS 189/289A。我们假设读者已经熟悉多变量微积分和线性代数的基本概念(UCB数学53/54的水平)。这里介绍的大多数主题都很少涉及; 我们打算给出一个概述,并向感兴趣的读者指出更全面的处理以获得进一步的细节。请注意,本文关注的是机器学习的数学背景,而不是机器学习本身。我们将不讨论具体的机器学习模型或算法,除非可能通过强调数学概念的相关性。该文件的早期版本不包括校样。我们已开始在有助于理解的相当短的证明里加上证明。这些证明不是cs189的必要背景,但可以用来加深读者的理解。

成为VIP会员查看完整内容
0
61

线性代数是计算和数据科学家的基本工具之一。这本书“高级线性代数:基础到前沿”(ALAFF)是一个替代传统高级线性代数的计算研究生课程。重点是数值线性代数,研究理论、算法和计算机算法如何相互作用。这些材料通过将文本、视频、练习和编程交织在一起来保持学习者的参与性。

我们在不同的设置中使用了这些材料。这是我们在德克萨斯大学奥斯汀分校名为“数值分析:线性代数”的课程的主要资源,该课程由计算机科学、数学、统计和数据科学、机械工程以及计算科学、工程和数学研究生课程提供。这门课程也通过UT-Austin计算机科学硕士在线课程提供“高级线性代数计算”。最后,它是edX平台上名为“高级线性代数:基础到前沿”的大规模在线开放课程(MOOC)的基础。我们希望其他人可以将ALAFF材料重新用于其他学习设置,无论是整体还是部分。

为了退怕学习者,我们采取了传统的主题的数字线性代数课程,并组织成三部分。正交性,求解线性系统,以及代数特征值问题。

  • 第一部分:正交性探讨了正交性(包括规范的处理、正交空间、奇异值分解(SVD)和解决线性最小二乘问题)。我们从这些主题开始,因为它们是其他课程的先决知识,学生们经常与高等线性代数并行(甚至在此之前)进行学习。

  • 第二部分:求解线性系统集中在所谓的直接和迭代方法,同时也引入了数值稳定性的概念,它量化和限定了在问题的原始陈述中引入的误差和/或在计算机算法中发生的舍入如何影响计算的正确性。

  • 第三部分:代数特征值问题,重点是计算矩阵的特征值和特征向量的理论和实践。这和对角化矩阵是密切相关的。推广了求解特征值问题的实用算法,使其可以用于奇异值分解的计算。本部分和本课程以在现代计算机上执行矩阵计算时如何实现高性能的讨论结束。

成为VIP会员查看完整内容
0
52

随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831

成为VIP会员查看完整内容
0
49

深度神经网络在计算机视觉、计算语言学和人工智能等领域的广泛应用无疑带来了巨大的成功。然而,DNNs成功的基本原理、DNNs的可信性和DNNs对抗攻击的恢复能力仍然很大程度上缺乏。在可解释人工智能的范围内,对网络预测解释可信度的量化和DNN特征可信度的分析成为一个引人注目但又有争议的话题。相关问题包括: (1)网络特征可信度的量化; (2)DNNs解释的客观性、鲁棒性、语义严谨性; (3)可解释神经网络解释性的语义严谨性等。重新思考现有可解释机器学习方法的可信性和公平性,对可解释机器学习的进一步发展具有重要的价值。

本教程旨在将关注人工智能可解释性、安全性和可靠性的研究人员、工程师以及行业从业人员聚集在一起。本教程介绍了一些关于上述问题的新发现,这些发现来自演讲者最近的论文和一些经典研究。对当前可解释人工智能算法的优点和局限性的批判性讨论提供了新的前瞻性研究方向。本教程预计将对医疗诊断、金融和自动驾驶等关键工业应用产生深远影响。

https://ijcai20interpretability.github.io/

成为VIP会员查看完整内容
0
46

【导读】2020注定是写入到历史的一年,新冠变成主题词。在2019年机器学习领域继续快速发展,深度学习理论、对比学习、自监督学习、元学习、持续学习、小样本学习等取得很多进展。在此,专知小编整理这一年这些研究热点主题的综述进展,共十篇,了解当下,方能向前。

1、Recent advances in deep learning theory(深度学习理论)

陶大程院士等最新《深度学习理论进展》综述论文,41页pdf255篇文献阐述六大方面进展

作者:Fengxiang He,Dacheng Tao

摘要:深度学习通常被描述为一个实验驱动的领域,并不断受到缺乏理论基础的批评。这个问题已经部分地被大量的文献解决了,这些文献至今没有被很好地组织起来。本文对深度学习理论的最新进展进行了综述和整理。文献可分为六类: (1)基于模型复杂度和容量的深度学习泛化; (2)用于建模随机梯度下降及其变量的随机微分方程及其动力学系统,其特征是深度学习的优化和泛化,部分受到贝叶斯推理启发; (3)驱动动力系统轨迹的损失的几何结构; (4)深度神经网络的过参数化从积极和消极两个方面的作用; (5)网络架构中几种特殊结构的理论基础; (6)对伦理和安全及其与泛化性的关系的日益关注。

网址: https://www.zhuanzhi.ai/paper/b5ac0f259b59817b890b6c253123ee84

2、Learning from Very Few Samples: A Survey(少样本学习)

清华大学张长水等最新《少样本学习FSL》2020综述论文,30页pdf414篇参考文献

作者:Jiang Lu,Pinghua Gong,Jieping Ye,Changshui Zhang

摘要:少样本学习(FSL)在机器学习领域具有重要意义和挑战性。成功地从很少的样本中学习和归纳的能力是区分人工智能和人类智能的一个明显的界限,因为人类可以很容易地从一个或几个例子中建立他们对新颖性的认知,而机器学习算法通常需要数百或数千个监督样本来保证泛化能力。尽管FSL的悠久历史可以追溯到21世纪初,近年来随着深度学习技术的蓬勃发展也引起了广泛关注,但迄今为止,有关FSL的调研或评论还很少。在此背景下,我们广泛回顾了2000年至2019年FSL的200多篇论文,为FSL提供了及时而全面的调研。在本综述中,我们回顾了FSL的发展历史和目前的进展,原则上将FSL方法分为基于生成模型和基于判别模型的两大类,并特别强调了基于元学习的FSL方法。我们还总结了FSL中最近出现的几个扩展主题,并回顾了这些主题的最新进展。此外,我们重点介绍了FSL在计算机视觉、自然语言处理、音频和语音、强化学习和机器人、数据分析等领域的重要应用。最后,我们对调查进行了总结,并对未来的发展趋势进行了讨论,希望对后续研究提供指导和见解。

网址:

https://www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1

3、A Survey on Knowledge Graphs: Representation, Acquisition and Applications(知识图谱研究综述论文)

最新!知识图谱研究综述论文: 表示学习、知识获取与应用,25页pdf详述Knowledge Graphs技术趋势

作者:Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu

摘要:人类知识提供了对世界的认知理解。表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向。在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。知识图谱嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了不同任务的数据集和开源库的集合。最后,我们对几个有前景的研究方向进行了深入的展望。

网址:

https://www.zhuanzhi.ai/paper/00ef54883a71e52b240e26b2a6d25255

4、A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications(生成式对抗网络综述论文)

密歇根大学28页最新《GANs生成式对抗网络综述:算法、理论与应用》最新论文,带你全面了解GAN技术趋势

作者:Jie Gui,Zhenan Sun,Yonggang Wen,Dacheng Tao,Jieping Ye

摘要:生成对抗网络(GANs)是最近的热门研究主题。自2014年以来,人们对GAN进行了广泛的研究,并且提出了许多算法。但是,很少有全面的研究来解释不同GANs变体之间的联系以及它们是如何演变的。在本文中,我们尝试从算法,理论和应用的角度对各种GANs方法进行叙述。首先,详细介绍了大多数GANs算法的动机,数学表示形式和结构。此外,GANs已与其他机器学习算法结合用于特定应用,例如半监督学习,迁移学习和强化学习。本文比较了这些GANs方法的共性和差异。其次,研究了与GANs相关的理论问题。第三,说明了GANs在图像处理和计算机视觉,自然语言处理,音乐,语音和音频,医学领域以及数据科学中的典型应用。最后,指出了GANs未来的开放性研究问题。

网址:

https://www.zhuanzhi.ai/paper/8b531e33d7c934d81892a029bc080a9c

5、A Survey on Causal Inference(因果推断综述论文)

最新「因果推断Causal Inference」综述论文38页pdf,阿里巴巴、Buffalo、Georgia、Virginia

作者:Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang

摘要:数十年来,因果推理是一个跨统计、计算机科学、教育、公共政策和经济学等多个领域的重要研究课题。目前,与随机对照试验相比,利用观测数据进行因果关系估计已经成为一个有吸引力的研究方向,因为有大量的可用数据和较低的预算要求。随着机器学习领域的迅速发展,各种针对观测数据的因果关系估计方法层出不穷。在这项综述中,我们提供了一个全面的综述因果推理方法下的潜在结果框架,一个众所周知的因果推理框架。这些方法根据是否需要潜在结果框架的所有三个假设分为两类。对于每一类,分别对传统的统计方法和最近的机器学习增强方法进行了讨论和比较。并介绍了这些方法的合理应用,包括在广告、推荐、医药等方面的应用。此外,还总结了常用的基准数据集和开放源代码,便于研究者和实践者探索、评价和应用因果推理方法。

网址:

https://www.zhuanzhi.ai/paper/a37f27ed97e5318b30be2999e9a768c3

6、Pre-trained Models for Natural Language Processing: A Survey(预训练语言模型)

【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献

作者:Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang

摘要:近年来,预训练模型(PTMs)的出现将自然语言处理(NLP)带入了一个新的时代。在这项综述中,我们提供了一个全面的PTMs调研。首先简要介绍了语言表示学习及其研究进展。然后,我们根据四种观点对现有的PTMs进行了系统的分类。接下来,我们将描述如何将PTMs的知识应用于下游任务。最后,我们概述了未来PTMs研究的一些潜在方向。本调查旨在为理解、使用和开发各种NLP任务的PTMs提供实际指导。

网址:

https://www.zhuanzhi.ai/paper/09d78eda59ebfb6f51a54a3ba0a4c4b1

7、A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources(异质图网络嵌入)

异质图嵌入综述: 方法、技术、应用和资源, 23页pdf

作者:Xiao Wang, Deyu Bo, Chuan Shi, Shaohua Fan, Yanfang Ye, Philip S. Yu

摘要:

异质图(Heterogeneous Graph, HG)也称为异质信息网络(Heterogeneous Information Network, HIN),在现实世界中已经无处不在。异质图嵌入(Heterogeneous Graph Embedding, HGE),旨在在低维的空间中学习节点表示,同时保留异质结构和语义用于下游任务(例如,节点/图分类,节点聚类,链接预测),在近年来受到了广泛的关注。在综述中,我们对异质图嵌入的方法和技术的最新进展进行了全面回顾,探索了异质图嵌入的问题和挑战,并预测了该领域的未来研究方向。

该论文的主要贡献如下:

讨论了与同质图相比,异质图的异质性带来的独特挑战 。该论文对现有的异质图嵌入方法进行了全面的调研,并基于它们在学习过程中使用的信息进行分类,以解决异质性带来的特定的挑战。 对于每类代表性的异质图嵌入方法和技术,提供详细的介绍并进一步分析了其优缺点。此外,该论文首次探索了异质图嵌入方法在现实工业环境中的可转换性和适用性。 总结了开源代码和基准数据集,并对现有的图学习平台进行了详细介绍,以促进该领域的未来研究和应用。 探讨异质图嵌入的其他问题和挑战,并预测该领域的未来研究方向。

网址:

https://arxiv.org/abs/2011.14867

8、Graph Neural Networks: Taxonomy, Advances and Trends(图神经网络)

太原理工最新《图神经网络:分类,进展,趋势》综述论文,50页pdf400篇文献

作者:Yu Zhou,Haixia Zheng,Xin Huang

摘要:图神经网络为根据特定任务将真实世界的图嵌入低维空间提供了一个强大的工具包。到目前为止,已经有一些关于这个主题的综述。然而,它们往往侧重于不同的角度,使读者看不到图神经网络的全貌。本论文旨在克服这一局限性,并对图神经网络进行了全面的综述。首先,我们提出了一种新的图神经网络分类方法,然后参考了近400篇相关文献,全面展示了图神经网络的全貌。它们都被分类到相应的类别中。为了推动图神经网络进入一个新的阶段,我们总结了未来的四个研究方向,以克服所面临的挑战。希望有越来越多的学者能够理解和开发图神经网络,并将其应用到自己的研究领域。

网址:

https://www.zhuanzhi.ai/paper/5d0088fdc236ec1a522b91077290e6f2

9、Efficient Transformers: A Survey(高效Transformer)

【Google】最新《高效Transformers》综述大全,Efficient Transformers: A Survey

作者:Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler

摘要:Transformer模型架构最近引起了极大的兴趣,因为它们在语言、视觉和强化学习等领域的有效性。例如,在自然语言处理领域,Transformer已经成为现代深度学习堆栈中不可缺少的主要部分。最近,提出的令人眼花缭乱的X-former模型如Linformer, Performer, Longformer等这些都改进了原始Transformer架构的X-former模型,其中许多改进了计算和内存效率。为了帮助热心的研究人员在这一混乱中给予指导,本文描述了大量经过深思熟虑的最新高效X-former模型的选择,提供了一个跨多个领域的现有工作和模型的有组织和全面的概述。

图片

网址:

https://www.zhuanzhi.ai/paper/6f9193ca17c92d58e9e93a21335039f1

10、Self-supervised Learning: Generative or Contrastive(自监督学习)

作者:Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang

摘要:深度监督学习在过去的十年中取得了巨大的成功。然而,它依赖于手工标签的缺陷和易受攻击的弱点促使人们探索更好的解决方案。作为另一种学习方式,自监督学习以其在表征学习领域的飞速发展吸引了众多研究者的关注。自监督表示学习利用输入数据本身作为监督,并使得几乎所有类型的下游任务从中受益。在这项综述中,我们着眼于新的自监督学习方法,用于计算机视觉、自然语言处理和图学习。我们全面回顾了现有的实证方法,并根据它们的目的将它们归纳为三大类:生成型、对比型和生成-对比型(对抗型)。我们进一步研究了相关的理论分析工作,以提供对自监督学习如何工作的更深层次的思考。最后,我们简要讨论了自监督学习有待解决的问题和未来的发展方向。

网址: https://www.zhuanzhi.ai/paper/3bcc4f616c3e16d8b13a95a32e335101

成为VIP会员查看完整内容
0
41

大学里的计算机课程通常专注于讲授从操作系统到机器学习这些学院派的课程或主题,而对于如何精通工具这一主题则往往会留给学生自行探索。在这个系列课程中,我们讲授命令行、强大的文本编辑器的使用、使用版本控制系统提供的多种特性等等。学生在他们受教育阶段就会和这些工具朝夕相处(在他们的职业生涯中更是这样)。因此,花时间打磨使用这些工具的能力并能够最终熟练地、流畅地使用它们是非常有必要的。

精通这些工具不仅可以帮助您更快的使用工具完成任务,并且可以帮助您解决在之前看来似乎无比复杂的问题。

目录: 1/13: 课程概览与 shell 1/14: Shell 工具和脚本 1/15: 编辑器 (Vim) 1/16: 数据整理 1/21: 命令行环境 1/22: 版本控制(Git) 1/23: 调试及性能分析 1/27: 元编程 1/28: 安全和密码学 1/29: 大杂烩 1/30: 提问&回答

视频: https://www.youtube.com/playlist?list=PLyzOVJj3bHQuloKGG59rS43e29ro7I57J

地址: https://missing.csail.mit.edu/

开设此课程的动机

在传统的计算机科学课程中,从操作系统、编程语言到机器学习,这些高大上课程和主题已经非常多了。然而有一个至关重要的主题却很少被专门讲授,而是留给学生们自己去探索。这部分内容就是:精通工具。

这些年,我们在麻省理工学院参与了许多课程的助教活动,过程当中愈发意识到很多学生对于工具的了解知之甚少。计算机设计的初衷就是任务自动化,然而学生们却常常陷在大量的重复任务中,或者无法完全发挥出诸如 版本控制、文本编辑器等工具的强大作用。效率低下和浪费时间还是其次,更糟糕的是,这还可能导致数据丢失或 无法完成某些特定任务。

这些主题不是大学课程的一部分:学生一直都不知道如何使用这些工具,或者说,至少是不知道如何高效 地使用,因此浪费了时间和精力在本来可以更简单的任务上。标准的计算机科学课程缺少了这门能让计算 变得更简捷的关键课程。

The missing semester of your CS education

为了解决这个问题,我们开启了一个课程,涵盖各项对成为高效率计算机科学家或程序员至关重要的 主题。这个课程实用且具有很强的实践性,提供了各种能够立即广泛应用解决问题的趁手工具指导。该课在 2020 年 1 月”独立活动期“开设,为期一个月,是学生开办的短期课程。虽然该课程针对 麻省理工学院,但我们公开提供了全部课程的录制视频与相关资料。

如果该课程适合你,那么以下还有一些具体的课程示例:

命令行与 shell 工具

如何使用别名、脚本和构建系统来自动化执行通用重复的任务。不再总是从文档中拷贝粘贴 命令。不要再“逐个执行这 15 个命令”,不要再“你忘了执行这个命令”、“你忘了传那个 参数”,类似的对话不要再有了。

例如,快速搜索历史记录可以节省大量时间。在下面这个示例中,我们展示了如何通过convert命令 在历史记录中跳转的一些技巧。

版本控制

如何正确地使用版本控制,利用它避免尴尬的情况发生,与他人协作,并且能够快速定位 如何正确地使用版本控制,利用它避免尴尬的情况发生。与他人协作,并且能够快速定位 有问题的提交 不再大量注释代码。不再为解决 bug 而找遍所有代码。不再“我去,刚才是删了有用的代码?!”。我们将教你如何通过拉取请求来为他人的项目贡献代码。

下面这个示例中,我们使用git bisect来定位哪个提交破坏了单元测试,并且通过git rever来进行修复。

文本编辑

不论是本地还是远程,如何通过命令行高效地编辑文件,并且充分利用编辑器特性。不再来回复制 文件。不再重复编辑文件。

Vim 的宏是它最好的特性之一,在下面这个示例中,我们使用嵌套的 Vim 宏快速地将 html 表格转换成了 csv 格式。

远程服务器

使用 SSH 密钥在远程机器下工作如何保持清醒,并且终端能够复用。不再为了仅执行个别命令 总是打开许多命令终端。不再每次连接都总输入密码。不再因为网络断开或必须重启笔记本时 就丢失全部上下文。

以下示例,我们使用tmux来保持会话在远程服务器活跃,并使用mosh来支持网络漫游和断开连接。

查找文件

如何快速查找你需要的文件。不再挨个点击项目中的文件,直到找到你所需的代码。

以下示例,我们通过fd快速查找文件,通过rg找代码片段。我们也用到了fasd快速cd并vim最近/常用的文件/文件夹。

数据处理

如何通过命令行直接轻松快速地修改、查看、解析、绘制和计算数据和文件。不再从日志文件拷贝 粘贴。不再手动统计数据。不再用电子表格画图。

虚拟机

如何使用虚拟机尝试新操作系统,隔离无关的项目,并且保持宿主机整洁。不再因为做安全实验而 意外损坏你的计算机。不再有大量随机安装的不同版本软件包。

安全

如何在不泄露隐私的情况下畅游互联网。不再抓破脑袋想符合自己疯狂规则的密码。不再连接不安全 的开放 WiFi 网络。不再传输未加密的信息。

结论 这 12 节课将包括但不限于以上内容,同时每堂课都提供了能帮助你熟悉这些工具的练手小测验。如果不能 等到一月,你也可以看下黑客工具,这是我们去年的 试讲。它是本课程的前身,包含许多相同的主题。

无论面对面还是远程在线,欢迎你的参与。

成为VIP会员查看完整内容
0
40

2012年,我回到清华大学语音语言技术中心(CSLT)任教,继续关于语音和语言信息处理领域的研究。在这些研究中,机器学习是基础工具,掌握机器学习方法和学会敲代码一样,属于基本功。因此,不论是在授课还是在研究中,我们一向重视向学生传授机器学习的基础知识。

当前关于机器学习方面的资料非常丰富:Andrew NG在Coursera上的机器学习教程、Bishop的《模式识别与机器学习》和周志华老师的《机器学习》都是非常好的基础教材;Goodfellow等人的《深度学习》是学习深度学习技术的首选资料;MIT、斯坦福等名校的公开课也非常有价值;一些主要会议的Tutorial、Keynote也都可以在网上搜索到。然而,在教学过程中,我深感这些资料专业性强,入门不易。一方面可能是由于语言障碍,另一方面是因为机器学习覆盖面广,研究方向众多,各种新方法层出不穷,初学者往往在各种复杂的名词和算法面前产生畏难情绪,导致半途而废。

2016年7月到8月,我在CSLT组织了一次关于机器学习的内部暑期研讨班,主要目的不是细致讨论各种具体算法,而是将各种看似高深的方法有机组织起来,告诉学生们每种方法的基本思路、基本用法及与其它技术的关联,帮助其走入机器学习的宏伟殿堂。除了我讲以外,还有冯洋、王彩霞、王卯宁三位老师,分别讲述图模型、核方法和遗传算法。研讨班取得了意想不到的效果,很多学生不仅掌握了基础知识和基本方法,对这些方法与具体应用研究的结合也有了更深刻的理解,为在本领域的深入研究打下了基础。

本书的主体内容是基于该研讨班形成的总结性资料,从2016年8月开始整理,历经数次大规模修正,直到2019年1月定稿。全书共分十一章,内容如下: 第一章:介绍机器学习研究的总体思路,发展历史与关键问题; 第二章:介绍线性模型,包括线性预测模型,线性分类模型和线性高斯概率模型; 第三章:介绍神经网络的基础知识、基础结构和训练方法; 第四章:介绍深度神经网络的基础方法和最新进展; 第五章:介绍核方法,特别是支持向量机模型; 第六章:介绍图模型的基本概念和基于图模型的学习和推理方法; 第七章:介绍非监督学习方法,特别是各种聚类方法和流形学习; 第八章:介绍非参数非贝斯模型,重点关注高斯过程和狄利克雷过程; 第九章:介绍遗传算法、遗传编程、群体学习等演化学习方法; 第十章:介绍强化学习,包括基础算法及近年来兴起的深度强化学习方法; 第十一章:介绍各种数值优化方法。

基于作者的研究背景,这本书很难说是机器学习领域的专业著作,而是一本学习笔记,是从一个机器学习技术使用者角度对机器学习知识的一次总结,并加入作者在本领域研究中的一些经验和体会。与其说是一本专业著作,不如说是一本科普读物,用简洁的语言和深入浅出的描述为初学者打开机器学习这扇充满魔力的大门。打开大门以后,我们会发现这是个多么让人激动人心的领域,每天都有新的知识、新的思路、新的方法产生,每天都有令人振奋的成果。我们希望这本书可以让更多学生、工程师和相关领域的研究者对机器学习产生兴趣,在这片异彩纷呈的海域上找到属于自己的那颗贝壳。

本书的出版凝聚了很多人的心血。冯洋、王卯宁、王彩霞、邢超、李蓝天、汤志远、张纪袁、李敖东、刘艾婷、白紫薇、罗航、石颖、林靖伊、汪洋、张安迪、陈怿详等老师和同学对本书资料进行了整理,并形成了初始版本。张淼同学对全书进行了校对。蔡云麒博士对全部引用和图片做了整理。张雪薇、林靖伊、蔡佳音、景鑫、富豪、何丹、于嘉威、齐诏娣、吴嘉瑶、张阳、姜修齐、刘逸博、张镭镧等同学参与了文字整理工作。

感谢朱小燕老师为本书做序并提出了很多中肯建议。感谢苏红亮、戴海生、利节、黄伟明等老师对部分章节的审读和建设性意见。感谢语音语言中心的郑方、周强及其他老师,中心宽松的治学环境是本书得以完成的前提。感谢清华大学出版社的刘翰鹏老师为本书出版所做的大量工作。

感谢我的家人,他们为我承担了学术以外的所有生活压力,没有他们的支持,就没有本书的出版。

由于作者在知识和经验上的局限性,书中难免会出现各种错误和疏漏,敬请各位读者批评指正。

--王东,清华园 2020年12月

http://166.111.134.19:7777/mlbook/

成为VIP会员查看完整内容
0
40

语言是一种固有的时间现象。当我们理解和产生口语时,我们处理不确定长度的连续输入流。即使在处理书面文本时,我们通常也按顺序处理。语言的时代性反映在我们使用的隐喻中;我们谈论的是对话流、新闻源和twitter流,所有这些都唤起了这样一种观念:语言是一个随时间展开的序列。这种时间性质反映在我们用来处理语言的算法中。例如,当应用于词性标注问题时,维特比算法每次递增地输入一个单词,并将沿途收集到的信息传递下去。另一方面,我们研究的用于情感分析和其他文本分类任务的机器学习方法没有这种时间性质——它们假设同时访问输入的所有方面。前馈神经网络尤其如此,包括它们在神经语言模型中的应用。这些完全连接的网络使用固定大小的输入,以及相关的权重,一次性捕获示例的所有相关方面。这使得处理不同长度的序列变得困难,并且无法捕捉语言的重要时间方面。

本章涵盖了两个密切相关的深度学习架构,旨在解决这些挑战:循环神经网络和transformer网络。这两种方法都具有直接处理语言的顺序性质的机制,允许它们处理可变长度的输入,而不使用任意固定大小的窗口,并捕获和利用语言的时间性质。

成为VIP会员查看完整内容
0
38

《Python机器学习经典实例(影印版 英文版)》这本实用指南提供了近200则完整的攻略,可帮助你解决日常工作中可能遇到的机器学习难题。如果你熟悉Python以及包括pandas和scikit-learn在内的库,那么解决一些特定问题将不在话下,比如数据加载、文本处理、数值数据、模型选择、降维以及诸多其他主题。

  每则攻略中都包含代码,你可以将其复制并粘贴到实验数据集中,以确保代码的确有效。你可以插入、组合、修改这些代码,从而协助构建你自己的应用程序。攻略中还包括相关的讨论,对解决方案给出了解释并提供有意义的上下文。

  《Python机器学习经典实例(影印版 英文版)》在理论和概念之外提供了构造实用机器学习应用所需的具体细节。

https://www.oreilly.com/library/view/machine-learning-with/9781491989371/

成为VIP会员查看完整内容
0
39

一份简短的关于训练神经网络的技巧,值得一看, 包括:

一般建议 -分析你的数据 -考虑你的架构

  • 好的训练实践 改进不好的网络
  • Pytorch Bug
  • 模型不work
  • 模型过拟合
成为VIP会员查看完整内容
0
38

通过使用用大规模标记数据训练的深度学习模型,计算机视觉取得了令人印象深刻的进展。然而,标签需要专业知识和管理,而且收集起来很贵。如果不使用显式管理的标签,人们能发现有用的视觉表示吗?在这次演讲中,我将介绍几个探索自我监督学习范式的案例研究——将原始数据作为自己的监督。我们将讨论在高维空间中定义目标函数的几种方法,包括使用一般对抗网络(GANs)直接从数据中学习目标函数。将展示图像合成中的应用,包括自动着色、成对和非成对图像到图像的转换(aka pix2pix和cycleGAN)、基于好奇心的探索

成为VIP会员查看完整内容
0
35

近年来,图表示学习的研究激增,包括深度图嵌入(deep graph embeddings)技术、卷积神经网络对图结构数据的泛化以及受置信传播启发的神经信息传递方法。

与此同时,图表示学习的这些进步促成了许多领域的最新成果,包括化学合成、3D 视觉、推荐系统、问题解答和社交网络分析等。

加拿大麦吉尔大学计算机科学助理教授 William Hamilton 的《图表示学习》(Graph Representation Learning)报告系统性介绍最新图表示学习的进展。

  • 图表示学习的简史
  • 两个理论范式
  • 三个未决问题和一个重大挑战

成为VIP会员查看完整内容
0
35

本课程涵盖了每个专业程序员需要了解的关于算法和数据结构的基本信息,重点是应用程序和Java实现的科学性能分析。第一部分介绍基本的数据结构、排序和搜索算法。第二部分重点介绍图形和字符串处理算法。

https://algs4.cs.princeton.edu/

《算法(第四版》是普林斯顿超级大神教授Robert Sedgewick的神作,该书还有配套的MOOC课程,是算法领域经典的参考书。

这本书涵盖所有程序员必须掌握的50种算法,全面介绍了关于算法和数据结构的必备知识,并特别针对排序、搜索、图处理和字符串处理进行了论述。第4版具体给出了每位程序员应知应会的50个算法,提供了实际代码,而且这些Java代码实现采用了模块化的编程风格,读者可以方便地加以改造。

成为VIP会员查看完整内容
0
33

获得金融、医疗保健和零售领域的机器学习实用技能。这本书通过提供这些领域的案例研究,使用了动手的方法:你将看到如何使用机器学习作为商业增强工具的例子。作为一名领域专家,您不仅会发现机器学习在金融、医疗保健和零售领域是如何应用的,而且还会通过实施机器学习的实际案例研究进行工作。

使用Python的机器学习应用程序分为三个部分,分别针对每个领域(医疗保健、金融和零售)。每一节都以机器学习和该领域的关键技术进展的概述开始。然后,您将通过案例研究了解更多关于组织如何改变其所选择市场的游戏规则。这本书有实际的案例研究与Python代码和领域特定的创新想法赚钱的机器学习。

你会学到什么

  • 发现应用的机器学习过程和原理
  • 在医疗保健、金融和零售领域实现机器学习
  • 避免应用机器学习的陷阱
  • 在三个主题领域构建Python机器学习示例

这本书是给谁的

  • 数据科学家和机器学习专家。
成为VIP会员查看完整内容
0
34

随着IT存储、处理、计算和传感技术的发展,大数据已经成为一种新的生活规范。直到最近,计算机才能够捕获和分析各种领域的各种大规模数据——人、行为、信息、设备、传感器、生物信号、金融、交通工具、占星学、神经学等。几乎所有行业都准备好迎接大数据的挑战,并希望挖掘有价值的信息,以获得解决挑战的洞见。

本课程将提供基本知识,使学生能够处理这些挑战。这门学科本质上涉及许多领域。由于它的重要性和广泛的影响,新的软件和硬件工具和算法正在迅速出现。数据科学家需要跟上这种不断变化的趋势,以便能够为现实世界的挑战创造最先进的解决方案。

这门大数据分析课程首先要介绍应用概述、市场趋势和需要学习的东西。接下来,我将介绍基础平台,如Hadoop, Spark,以及其他工具,如Linked Big Data。之后,本课程将介绍几种数据存储方法以及如何上传、分发和处理它们。包括HDFS、HBase、KV存储、文档数据库、图形数据库。本课程将继续介绍在不同平台上处理分析算法的不同方法。接下来,我将介绍大数据分析中的可视化问题和移动问题。学生将掌握大数据分析的基本知识,以应对各种现实世界的挑战。

之后,课程将聚焦于讨论大型机器学习方法,这是人工智能和认知网络的基础。本课程将讨论基于不同硬件平台优化分析的几种方法,如Intel & Power芯片、GPU、FPGA等。讲座的最后将介绍大数据的未来挑战,特别是正在进行的大数据关联问题,包括图形、图形模型、时空分析、认知分析等。

https://www.ee.columbia.edu/~cylin/course/bigdata/

成为VIP会员查看完整内容
0
31

本路线图主要面向数学专业的学生。这并不一定意味着来自物理和计算机科学等其他学科的学生就不能从中受益;然而,着眼于路线图可能会让他们不知所措,但这是因为数学包含了许多领域,而路线图也打算将它们包含在内。

成为VIP会员查看完整内容
0
33

https://users.utu.fi/harju/graphtheory/

这些是图论的入门讲义。内容包括 绪论(图及其平面图形、子图、路径和循环); 图的连通性;色素;图曲面;有向图。

成为VIP会员查看完整内容
0
34

刚刚,阿里巴巴达摩院发布2021十大科技趋势,这是达摩院成立三年以来第三次发布年度科技趋势。 2020年是不平凡的一年,经历疫情的洗礼,许多行业重启向上而生的螺旋,但疫情并未阻挡科技前进的脚步,量子计算、基础材料、生物医疗等领域的一系列重大科技突破纷至沓来。 后疫情时代,基础技术及科技产业将如何发展,达摩院为科技行业提供了全新预测。

趋势一 以氮化镓、碳化硅为代表的 第三代半导体迎来应用大爆发

以氮化镓(GaN)和碳化硅(SiC)为代表的第三代半导体,具备耐高温、耐高压、高频率、大功率、抗辐射等优异特性,但受工艺、成本等因素限制,多年来仅限于小范围应用。 近年来,随着材料生长、器件制备等技术的不断突破,第三代半导体的性价比优势逐渐显现,并正在打开应用市场:SiC元件已用作汽车逆变器,GaN快速充电器也大量上市。 未来五年,基于第三代半导体材料的电子器件将广泛应用于5G基站、新能源汽车、特高压、数据中心等场景。

趋势二 后“量子霸权”时代 量子纠错和实用优势成核心命题

2020年为后“量子霸权”元年,世界对量子计算的投入持续上涨,技术和生态蓬勃发展,多个平台异彩缤纷。 这一潮流将在2021年继续推高社会的关注和期待,量子计算的研究需要证明自身的实用价值;业界需要聚焦“后霸权”时代的使命:协同创新,解决众多的科学和工程难题,为早日到达量子纠错和实用优势两座里程碑铺路奠基。

趋势三 碳基技术突破加速柔性电子发展

柔性电子是指经扭曲、折叠、拉伸等形状变化后仍保持原有性能的电子设备,可用作可穿戴设备、电子皮肤、柔性显示屏等。 柔性电子发展的主要瓶颈在于材料——目前的柔性材料,或者“柔性”不足容易失效,或者电性能远不如“硬质”硅基电子。 近年来,碳基材料的技术突破为柔性电子提供了更好的材料选择:碳纳米管这一碳基柔性材料的质量已可满足大规模集成电路的制备要求,且在此材料上制备的电路性能超过同尺寸下的硅基电路;而另一碳基柔性材料石墨烯的大面积制备也已实现。

趋势四 AI提升药物及疫苗研发效率

AI已广泛应用于医疗影像、病历管理等辅助诊断场景,但AI在疫苗研发及药物临床研究的应用依旧处于探索阶段。 随着新型AI算法的迭代及算力的突破,AI将有效解决疫苗/药物研发周期长、成本高等难题,例如提升化合物筛选、建立疾病模型、发现新靶点、先导化合物发现及先导药物优化等环节的效率。 AI与疫苗、药物临床研究的结合可以减少重复劳动与时间消耗,提升研发效率,极大地推动医疗服务和药物的普惠化。

趋势五 脑机接口帮助人类超越生物学极限

脑机接口是新一代人机交互和人机混合智能的关键核心技术。脑机接口对神经工程的发展起到了重要支撑与推动作用,帮助人类从更高维度空间进一步解析人类大脑的工作原理。 脑机接口这一新技术领域,探索性地将大脑与外部设备进行通信,并借由脑力意念控制机器。例如在控制机械臂等方面帮助提升应用精度,将为神智清醒、思维健全,但口不能言、手不能动的患者提供精准康复服务。

趋势六 数据处理实现“自治与自我进化”

随着云计算的发展、数据规模持续指数级增长,传统数据处理面临存储成本高、集群管理复杂、计算任务多样性等巨大挑战;面对海量暴增的数据规模以及复杂多元的处理场景,人工管理和系统调优捉襟见肘。 因此,通过智能化方法实现数据管理系统的自动优化,成为未来数据处理发展的必然选择。 人工智能和机器学习手段逐渐被广泛应用于智能化的冷热数据分层、异常检测、智能建模、资源调动、参数调优、压测生成、索引推荐等领域,有效降低数据计算、处理、存储、运维的管理成本,实现数据管理系统的“自治与自我进化”。

趋势七 云原生重塑IT技术体系

在传统IT开发环境里,产品开发上线周期长、研发效能不高,云原生架构充分利用了云计算的分布式、可扩展和灵活的特性,更高效地应用和管理异构硬件和环境下的各类云计算资源。通过方法论工具集、最佳实践和产品技术,开发人员可专注于应用开发过程本身。 未来,芯片、开发平台、应用软件乃至计算机等将诞生于云上,可将网络、服务器、操作系统等基础架构层高度抽象化,降低计算成本、提升迭代效率,大幅降低云计算使用门槛、拓展技术应用边界。

趋势八 农业迈入数据智能时代

传统农业产业发展存在土地资源利用率低和从生产到零售链路脱节等瓶颈问题。以物联网、人工智能、云计算等为代表的数字技术正在与农业产业深度融合,打通农业产业的全链路流程。 结合新一代传感器技术,农田地面数据信息得以实时获取和感知,并依靠大数据分析与人工智能技术快速处理海量领域农业数据,实现农作物监测、精细化育种和环境资源按需分配。 同时,通过5G、物联网、区块链等技术的应用,确保农产品物流运输中的可控和可追溯,保障农产品整体供应链流程的安全可靠。农业将告别“靠天”吃饭,进入智慧农业时代。

趋势九 工业互联网从单点智能走向全局智能

受实施成本和复杂度较高、供给侧数据难以打通、整体生态不够完善等因素限制,目前的工业智能仍以解决碎片化需求为主。 疫情中数字经济所展现出来的韧性,让企业更加重视工业智能的价值,加之数字技术的进步普及、新基建的投资拉动,这些因素将共同推动工业智能从单点智能快速跃迁到全局智能。 特别是汽车、消费电子、品牌服饰、钢铁、水泥、化工等具备良好信息化基础的制造业,贯穿供应链、生产、资产、物流、销售等各环节在内的企业生产决策闭环的全局智能化应用,将大规模涌现。

趋势十 智慧运营中心成为未来城市标配

在过去十年时间里,智慧城市借助数字化手段切实提升了城市治理水平。但在新冠疫情防控中,一些所谓的智慧城市集中暴露问题,特别是由于“重建设轻运营”所导致的业务应用不足。 在此背景下,城市管理者希望通过运营中心盘活数据资源,推动治理与服务的全局化、精细化和实时化。 而AIoT技术的日渐成熟和普及、空间计算技术的进步,将进一步提升运营中心的智慧化水平,在数字孪生基础上把城市作为统一系统并提供整体智慧治理能力,进而成为未来城市的数字基础设施。

成为VIP会员查看完整内容
0
33
登录查看的更多。 返回顶部
本周荟萃主题
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
新闻
新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。
图灵奖
图灵奖(A.M. Turing Award,又译“杜林奖”),由 美国计算机协会(ACM)于1966年设立,又叫“A.M. 图灵奖”,专门奖励那些对计算机事业作出重要贡献的个人。其名称取自计算机科学的先驱、英国科学家 阿兰·麦席森·图灵
Top