AI一周热闻：微软拒绝出售人脸识别产品；波士顿动力机器人将商用

2019 年 4 月 24 日 AI前线

作者 | Jack Clark

编译 | Debra，核子可乐

编辑 | Natalie

AI 前线导读：
- 波士顿动力机器人 SpotMini 拉货车，即将商用
- 苹果与高通意外和解，英特尔退出 5G 调制解调器业务
- 斯坦福大学用居民住宅照片预测个人出车祸的风险
- 香港科技大学研发路面分析无人机系统
- 用 iWildCam30 万张图像数据集训练 AI 观察研究野生动物
- 强化学习先驱 Max Welling：计算很重要，数据同样非常重要
- 莫勒图沃大学用胶囊网络通过少量数据教会机器识别手写字符
- GLUE 难度太低，纽约大学创建新基准 SUperGLUE
- 考虑到人权问题，微软公司拒绝出售人脸识别产品

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

波士顿动力机器人 SpotMini 拉货车，即将商用

近日，波士顿动力发布一段视频，视频中十只四足机器人 SpotMini 拉着一辆货车前进，展示了 SpotMini 的另一项技能。

据波士顿动力透露，SpotMini 即将投入商用，但未公布价格。此前早就有 SpotMini 将商用的消息传出，表示波士顿动力计划到 2019 年 7 月，每年量产 1000 台 SpotMini 机器狗，聚焦建筑、送货、安全和家庭助理领域。

苹果与高通意外和解，英特尔退出 5G 调制解调器业务

近日，苹果与高通宣布结束为期两年的专利许可争夺战，并已经在全球范围内达成和解，这意味着美国外，中国、德国和其他国家的诉讼全面终止。根据联合声明，苹果将向高通支付一笔未明确数字的款项，双方还达成了一项为期六年的全球专利许可协议，包括两年的延期选项权和多年芯片组供应协议，该协议于 2019 年 4 月 1 日生效。

随后，英特尔宣布退出 5G 调制解调器业务，并完成对 PC、物联网设备和其他以数据为中心的设备中 4G 和 5G 调制解调器机会的评估。英特尔还将继续投资其 5G 网络基础设施业务。该公司将继续满足其现有 4G 智能手机调制解调器产品线的客户承诺，但不希望在智能手机领域推出 5G 调制解调器产品，包括最初计划于 2020 年推出的产品。

斯坦福大学用居民住宅照片预测个人出车祸的风险

…尽管数据类型有所不同，但其之间所存在着令人惊讶的对应关系…

来自华沙大学与斯坦福大学的研究人员们展示了如何利用居民住宅的照片更好地预测对应个体发生车祸的可能性。（作者注：这里所提到的「相关性」并不代表二者之间存在因果关系。）

在这个项目中，研究人员分析来自保险公司客户的 2 万个家庭住址，具体数据源自 2012 年 1 月至 2015 年 12 月由波兰各保险公司收集到的随机样本。对于每一个地址，研究人员们分别收集了谷歌卫星视图与谷歌街景图像。以此为基础，他们采用房产类型、年龄、条件、居民财富估算值等作为标签，同时结合周边建筑物的类型与密度对图像内容进行标注。最后，他们对这些变量进行测试，并发现全部七种变量中的五种在保险预估问题中具有重要意义。

研究人员写道，“尽管数据的波动性很大，但在我们将五个简单变量添加到保险公司的模型当中之后，发现其在 20 次重新取样试验中实现了高达 90% 的效能改善比例，并在基尼系数计算中实现近 2% 的平均预测准确率。”

最终，研究人员得出结论——“房屋图片中的可见特征能够有效用于车祸风险预测，且这些特征独立于传统常用的各类变量，例如年龄或邮政编码等。”更重要的是，这一论断具有强力的统计结果支持。

重要意义： 此类研究再次证明了大规模数据分析的力量，让我们意识到在对大量数据进行比较与比对时，某些独立来看无关紧要的数据也有可能拥有重大意义。研究人员们另外指出，“现代数据收集与计算技术，使我们能够以前所未有的方式对个人数据加以运用，而这有可能超过立法速度并提高隐私层面的风险。”

了解更多：

Google Street View image of a house predicts car accident risk of its resident (Arxiv)

https://arxiv.org/abs/1904.05270

香港科技大学研发路面分析无人机系统

…无人机 + 英伟达卡 + 智能算法 = 自动机器人检测员…

来自香港科技大学机器人研究所的研究人员们创造出一套无人机原型系统，可用于对路面状况做出自动分析。在该项目中，研究人员们开发出一种密集型立体视觉算法，可供无人机分析路面条件。利用这项算法，无人机收集到的道路图像将得到实时处理，同时自动识别出路面的差异性状况。

相关硬件: 为了完成这一目标，研究人员们在一台大疆 Matrice 100 无人机上安装了 ZED 立体摄像头，并为无人机本体安装了 JETSON TX2 GPU 以进行实时数据处理。

重要意义：AI 技术使得机器人能够自动感知并分析真实世界中的各项指标。此类实验的出现，代表着我们正在快速迈向通过无人机实现各类监控活动（包括民用与军用）的自动化新时代。

了解更多：

Real-Time Dense Stereo Embedded in a UAV for Road Inspection (Arxiv)

https://arxiv.org/abs/1904.06017

Get the datasets used in the experiment here (Rui Fan, HKUST, personal website)

http://www.ruirangerfan.com/2019/04/real-time-dense-stereo-embedded-in-uav.html

用 iWildCam30 万张图像数据集训练 AI 观察研究野生动物

…深度学习系统开始对我们的蔚蓝星球展开监测…

来自加州理工学院的研究人员们发布了 iWildCam 数据集，据称利用这套数据集训练出的系统，能够自动分析美国西南部触发式相机所拍摄到的野生动物。此外，研究人员们还组织了一次基于该数据集的挑战赛，邀请全球各地的更多爱好者开发出能够自动监测真实世界的 AI 系统。

测试概述: 研究人员们写道，“如果我们希望构建起一套能够广泛检测动物对象并进行分类的系统，并在无需进一步训练的前提下将其部署至各类新环境中，我们就必须对机器学习与计算机视觉的环境适应能力进行一番深入测试。”

常见难题： 从陷阱触发式相机中收集数据，主要存在六大难题——照明环境多变、运动模糊、焦点区大小（动物本体可能很小且距离相机较远）、遮挡、伪装以及透视。

iWildCam： 这套数据集中的图像全部来自安装在美国西南部的摄像头，具体为来自 143 个地点的总计 292732 张图像。iWildCam 旨在帮助生物学家理解所需要处理的数据集的复杂程度。研究人员们写道，“可以看到，各个位置的图像数量、当地物种分布以及物种的总体分布都是不平衡的。”

重要意义： 这样的数据集，外加以其为基础构建而成的 AI 系统，将成为我们自动观察并分析周遭世界的有力工具；考虑到日益混乱的自然环境，利用机器资源自动分析环境变化对人类将具有重大的现实意义。

了解更多：

The iWildCam 2018 Challenge Dataset (Arxiv)

https://arxiv.org/abs/1904.05986

获取数据集：

iWildCam 2019 challenge https://github.com/visipedia/iwildcam_comp

强化学习先驱 Max Welling：计算很重要，数据同样非常重要

…“机器学习中最基本的教训，就是在偏差 - 方差间的权衡”…

几周之前，强化学习领域的先驱之一 Richard Sutton 撰写了一篇关于 AI 研究中“痛苦教训”的文章，其中提到从业者应当将高计算量、低算法难度作为一项基本原则。如今，阿姆斯特丹大学的研究员 Max Welling 在文章中回应称，数据的重要意义丝毫不逊于计算。

“机器学习中最基本的教训，就是在偏差 - 方差间的权衡：当拥有充足的数据时，我们就不需要在模型之上投入大量人为干涉以归纳偏差。但是，如果数据不够充分，那么就必须得利用人类知识填补这种空白。”

Welling 指出，无人驾驶汽车就是一个很好的例子，其再次证明单凭强大的算力并不足以解决全部问题。很明显，无人驾驶汽车要求我们在模型当中注入更为强大的先验信息（例如对真实世界中物理学效应的解释）。此外，他还建议生成模型以填补其中的某些空白，特别是在与泛化相关的场景当中。

最终，Welling 认为正确的答案应该介于“计算重要论”与“强大先验论（例如数据）”之间。“在我看来，如果我们希望解决人工通用智能，也就是 ASGI 的问题，那么我们真正需要的是基于模型的强化学习。如果不解决数据可用性这一前提，我们根本无法判断到底是否需要对模型进行人工设计。”

重要意义：AI 研究当中天然存在一种对立关系，即到底应该将主要精力放在计算身上，还是放在数据身上。不同的侧重倾向，往往带来完全不同的研究途径与专业化取向。我很担心这种趋势最终引发分裂，即那些选择进行大量“大计算”的研究者，会与更看重很先验因素的研究者们彻底失去相互交流的能力。

了解更多：

https://staff.fnwi.uva.nl/m.welling/wp-content/uploads/Model-versus-Data-AI-1.pdf

莫勒图沃大学用胶囊网络通过少量数据教会机器识别手写字符

…利用胶囊网络生成合成数据…

莫勒图沃大学的研究人员们希望能够利用极少量数据教会机器如何识别手写字符。为了达成目标，他们采用一种被称为“胶囊网络（Capsule Networks）”的方法——这一新兴技术受到深度学习先驱 Geoff Hinton 的大力支持——使得系统得以仅利用 200 个例子即获得手写字母的分类能力。

实现这一目标的主要方式，在于利用胶囊网络的一些特殊性质实现小型数据集的合成增强。具体来讲，研究人员利用“由协议实现的路由”等技术使系统能够理解数据表示，而这种表示能够很好地适应系统从未见过的情况。利用这些特征，研究人员能够直接操作系统观察时接收到的各种数据表示，并利用算法生成看起来与训练数据集类似的手写字符；最神奇的是，二者又并不完全相同。如此一来，系统即可获得训练所必需的大量额外数据，且再不必从（昂贵的）现实环境中采集更多数据。

研究人员们写道，“通过向表示实体属性的实例化参数中添加包含受控变量的噪声，我们得以将实体转换为能够表征实际对象的变体。这带来了一种新颖的数据生成技术，且真实性高于仿射变换数据。从基本思路来看，我们提出的这种扰动算法旨在将受控随机噪声添加到实例化的矢量值当中，从而创建出与原始图像截然不同的新图像，从而有效增加训练数据集的规模。”

实际效果： 为了寻求答案，研究人员们从 EMNIST、MNIST 以及视觉效果更为复杂的 Fashion MNIST 数据集当中提取 200 个数据样本，并在训练完成后利用系统识别 TextCaps 完整数据集以测试其具体效果。当使用三种 EMNIST 变体的全部数据进行训练时，系统对 TextCaps 的识别效果最佳；但仅使用 200 项样本时，系统的表现同样趋近于最佳水平。更重要的是，单纯使用 MINIST 与 Fashion MNIST 的 200 项样本训练时效果仍然非常理想（不过在单独使用 Fashion MNIST 时系统的识别能力则相当糟糕，这可能与该数据集的复杂性有关）。

重要意义： 这样的方法表明，当我们开发出越来越复杂的 AI 系统时，在其中添加一些限制反而有可能使系统获得更好的现实处理能力——在某些场景下，我们可能既希望使用 AI 方案，又缺少规模可观且标记良好的数据集（例如在学习识别及分类多种语言的手写文字时，某些语言的示例可能相对有限）。研究人员们写道，“我们打算将这套框架扩展至 RGB 空间中的图像上，同时提高样本分辨率，例如引入来自 ImageNet 与 COC 的图像。此外，我们还打算从字体文件当中提取训练图像，从而利用这套框架实现自动语言本地化。”

了解更多：

https://arxiv.org/abs/1904.08095

https://medium.com/ai%C2%B3-theory-practice-business/understanding-hintons-capsule-networks-part-i-intuition-b4b559d1159b

https://pechyonkin.me/capsules-2/

https://jhui.github.io/2017/11/03/Dynamic-Routing-Between-Capsules/

GLUE 难度太低，纽约大学创建新基准 SUperGLUE

…拜拜了，GLUE——你的难度太低啦！…

由于某些类型的语言建模进展快于预期，纽约大学的研究人员不得不抛弃他们去年开发的基准，转而通过新基准提高考核难度。这套新的“SuperGLUE”基准正是 GLUE 的继承者，旨在提供难度高于 GLUE 的更多任务。

更多新任务挑战你的系统：SuperGLUE 中的任务包括：CommitmentBank，其目标是要求系统判断作者对于句子当中特定子句的肯定程度；合理替代项选择（简称 COPA），要求系统在两种场景下选择可能性更高的句子；性别模糊代词共指任务（简称 GAP），系统需要“确定模糊代词的准确指示物”；多句阅读理解数据集，一套是否问题判断题集；RTE，GLUE 1.0 中已经具有的文本补全任务；WIC，要求系统消除歧义；Winograd Schema Challenge，一项阅读理解任务，专门测试系统是否具有某些基本常识（例如是否认为可以将大物体装进小物体当中，反之亦然）。

PyTorch 工具包：研究人员们还计划发布基于 PyTorch 与 AllenNLP 软件的工具包，其中包括 OpenAI GPT 以及谷歌 BERT 等预训练模型，可用于实现快速实验与原型设计。与 GLUE 一样，新版本同样提供可供人们参与竞争的在线排行榜。

重要意义： 精心设计的基准测试，无疑是我们用于判断 AI 进展的最佳工具之一。因此当 AI 的发展进度超越基准测试时，就代表着这一领域的前进脚步相当迅猛。研究人员们认为 SuperGLUE 的难度可以让人满意，至少还能够难住 AI 系统一段时间。他们还提议，“SuperGLUE 中包含一系列难度较高的 NLP 任务，请拿出具有新鲜创意的方法将其攻克。”

了解更多：

https://medium.com/@wang.alex.c/introducing-superglue-a-new-hope-against-muppetkind-2779fd9dcdd5

https://w4ngatang.github.io/static/papers/superglue.pdf

考虑到人权问题，微软公司拒绝出售人脸识别产品

在最近于斯坦福大学进行的一次演讲中，微软公司 CEO Brad Smith 提到微软方面最近因道德考量而拒绝了一笔交易。他透露称，微软公司拒绝向加州执法机构提供人脸识别技术。总结来讲，微软认为这套方案的交付将给妇女与少数族裔带来不公正的影响。由于担心相关方案被用于破坏集会自由，微软公司亦拒绝了某外国政府在其首都安装人脸识别系统的要求。

了解更多：

https://www.reuters.com/article/us-microsoft-ai/microsoft-turned-down-facial-recognition-sales-on-human-rights-concerns-idUSKCN1RS2FV

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果你想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：

https://jack-clark.net/2019/04/22/import-ai-143-predicting-car-accident-risks-by-looking-at-the-houses-people-live-in-why-data-matters-as-much-as-compute-and-using-capsule-networks-to-generate-synthetic-data/