AI一周热闻：特斯拉发布Q1财报，净亏7亿美元；美国机场采用人脸识别引发争议

2019 年 5 月 1 日 AI前线

作者｜Jack Clark

编译 & 编辑｜Jennifer

AI 前线导读：
- 亚马逊开发产品数据集 ProductNet，协助高效标记数据
- 美国机场采用 AI 面部识别引发争议
- 爱荷华州立大学研究人员发论文，探讨如何在特定环境中部署 AI
- 研究人员利用 GPT2 模型创建在线 AI Dungeon 游戏
- Facebook 发布 vid2game，可以从日常视频中随意创建游戏角色
- 俄罗斯一反常态呼吁就军事 AI 领域达成国际协议
- Facebook 创建 TextVQA 数据集，训练 AI 模型阅读图片中的文字
- 特斯拉发布 Q1 季度财报，净亏 7 亿美元，汽车业务营收环比下降达 41%

更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

亚马逊开发产品数据集 ProductNet，协助高效标记数据

...... 我们听闻你非常喜欢 AI，于是我们把 AI 置入你的 AI 数据标签系统中......

近日，亚马逊披露了一个受到 ImageNet 启发的产品数据集 ProduceNet。ProductNet 旨在帮助研究人员训练出那种像等效培训系统（equivalently-trained systems ）对图像类别具有的微妙且全面理解的模型。简言之，亚马逊的目标就是更好地学习如何对产品进行分类，研究人员在测试中表示，该系统可以显著提高人类数据贴标机的效率。

该数据集 ProductNet 由 3900 类产品组成，每种类别大约有 40-60 个产品。“我们的目标是实现产品的多样性和代表性。只有具有代表性，标签数据才能够被用作参考产品，进而为产品搜索、定价和其他商业应用提供动力，”亚马逊方面表示， “只有实现多样化，模型才能够拥有对未标记数据的强大泛化能力，产品嵌入才能够代表更丰富的信息”。

那么，ProductNet 最终用途是什么呢？

ProductNet 的主要目的即是帮助亚马逊开发更优化的系统，以帮助其人类承包商更加高效地标记数据，并创建一个可以直接进行自我标记的系统。亚马逊也表示，应用这一系统，则意味着将为亚马逊带来超过 20 倍的收益。

阅读更多：ProductNet：用于产品代表性学习的高质量数据集（https://arxiv.org/abs/1904.09037）

美国机场采用 AI 面部识别引发争议

当航空公司不再依靠护照和登机牌，而是开始使用面部识别来帮助乘客办理登机时，这意味着什么呢？

事实上，有相当一部分人在美国机场已经先行体验过了，他们在 Twitter 上分享到：“我刚刚登上了一架国际航班 @JetBlue（航空公司）。不同以往的是，登记时，我不需要扫描我的登机牌，甚至没有出示护照，而是在进入飞机之前看向一个相机就可以了。

难道面部识别真的已经取代了登机牌吗？（采用我的个人信息）得到我的允许了吗？”

因为涉及到私人信息，这位乘客在 Twitter 上质问航空公司：“据推测，这些面部识别扫描仪将我的图像与某些东西进行匹配，以便验证我的身份。 @JetBlue 你们又是如何知道我的样子的呢？”

JetBlue 航空公司如实答道：“这些信息都是由美国国土安全部根据目前掌握情况提供的。”

“所以，说的明白点，政府将我的生物识别数据提供给一家私营公司，对吗？这经过我的我允许了吗？ @JetBlue 你们已经持有我的数据多久了？

即使我选择退出扫描仪...... 你们也已经掌握了我的信息，对吗？”

……双方针对面部识别隐藏的隐私权、肖像权等人权问题开始了一轮轮的质询和应答。点击下面链接即可阅读帖子原文，感受双方的唇枪舌剑。由此可见，也许航空公司要实现在机场全面推行 AI 面部识别技术的愿景还有不少难题需要应对。

阅读更多：当有人发现登机口已部署面部识别系统时会发生什么 (https://twitter.com/mackenzief/status/1118509708673998848)

爱荷华州立大学研究人员发论文，探讨如何在特定环境中部署 AI

... 除非你能够部署 AI，否则 AI 是无用的......

脑袋里浮现出一个想法和最终实现这一想法之间有着天壤之别；爱荷华州立大学的研究通过讨论从选择一个问题（例如：训练图像识别系统以识别建筑工地的图像）到解决该问题所需的各个步骤来强调这一点。

“基于广泛的文献综述，我们发现大多数研究都侧重于开发改进的图像分析技术，但很少考虑最终部署的经济性，也很少在准确性和部署成本之间进行权衡，”作者写道。 “本文旨在为研究人员和工程师提供一个实用且全面的基于深度学习的解决方案，实现从开发的最初阶段到最后阶段的施工设备监测工作，即解决方案的部署”。

部署——不仅仅是一个独立的步骤：本文重点介绍了人们在尝试部署系统时需要做出的各种权衡，包括从缺乏针对特定环境的良好开放数据集（例如，用户尝试训练模型运用于建筑施工现场的 ImageNet 中相对较小的'AIM'子集），到使用 MobileNet 时，需要寻找高效模型的来源，再到为特定硬件平台定制这些模型，诸如 Raspberry Pis，Intel Jetsons，Intel Neural Compute Sticks 等等。

为什么这很重要： 随着 AI 进入部署阶段，诸如此类的研究让我们感受到大多数研究论文与实际可部署系统之间存在的鸿沟。此外，它还提供了一些支持“MobileNet”的证据。总之，我们会看到越来越多的论文涉及部署 AI 系统方面的内容，而不仅仅是创造 AI。

阅读更多：基于深度学习的建筑设备检测解决方案：从开发到部署(https://arxiv.org/abs/1904.09021)

研究人员利用 GPT2 模型创建在线 AI Dungeon 游戏

...... 一个大型语言模型 + 一些精心设计的句子 = 有趣......

研究人员开始将灵活的组件（例如 Transformers）与大型数据集相结合，用来培养大型高效的通用模型（参见：ULMFiT，GPT2，BERT 等）。语言模型与图像分类器非常相似，拥有一系列的用途，因此看到有人利用 GPT2 模型来创建在线 AI Dungeon 游戏是非常有趣的，你可以通过阅读文本块及选中具体选项来进行场景操纵，而这些均是由模型生成。

Facebook 发布 vid2game，可从日常视频中随意创建游戏角色

... vid2game 从视频中提取可播放的角色......

近日，Facebook AI 研究团队发布了一人工智能系统 vid2game，可以让你在互联网上的公共视频中选择一个人，并培养能力控制他们，仿佛他们就是电子游戏当中的角色。这种方法也让他们能够改变活动背景，比如，让网球运动员可以走出球场，走上土路等等。

该技术依赖于两个组件：Pose2Pose 和 Pose2Frame；Pose2Pose 允许你一些连续镜头中选出一个人，通过构建他们身体的 3D 模型来提取其姿势信息，并且可以用来帮助你移动这些选中的人物。Pose2Frame 则负责将此选中的人物身体与背景相匹配，你也可以进一步用此技术去施加控制以及更改人物周围的情景。

为什么这很重要： 诸如这样的系统主要揭示了我们如何使用人工智能来人为地操作我们周围的世界。Facebook 认为，这种方法“为逼真、个性化的全新游戏做了良好铺垫，让人们可以从日常视频中随意创建游戏角色”。

阅读更多：Vid2Game：从真实世界视频中提取可控的游戏角色 (https://arxiv.org/abs/1904.08379)

俄罗斯一反常态呼吁就军事 AI 领域达成国际协议

俄罗斯安全部门负责人已公开发表观点，强调有必有对应用人工智能和新兴技术的军事领域进行国际监管，他认为这与大规模杀伤性武器一样危险。他表示，有必要“调动全球社会的力量，主要是联合国”，以制定国际监管框架。这一表态着实让世人惊讶，因为俄罗斯一直以来都是抵制针对致命性自主武器（指具有人工智能而无需人类干预就能袭击目标的武器）签署国际协议的主要国家之一。

阅读更多：俄罗斯安全部长呼吁加强监管军事领域（TASS）新技术的使用(http://tass.com/defense/1055346)

Facebook 创建 TextVQA 数据集，训练 AI 模型阅读图片中的文字

... Facebook 创建数据集并开发相关技术，帮助其训练 AI 模型用以阅读图片中的文字......

Facebook AI 研究团队与佐治亚理工学院的研究人员表示，希望创建一种可以查看我们周围世界的人工智能系统并回答有关问题。这样的系统可能对有视力障碍的人有益处，他们可以通过 AI 系统询问周围的情况，实现与周遭世界的互动，例如：现在我面前的是什么？餐厅菜单上有哪些食物？哪个是餐厅菜单上最便宜的商品？等等问题。

如果这听起来如此简单，那么难点又在哪里呢？思考一下，当你需要解析图像中的某些文本以回答有关问题时，你会要求计算机做些什么呢？要求包括：

知道问题何时关涉文本
找出包含文本的图像部分
将这些像素符号转换为单词
对文本和视觉空间进行推论
确定问题的答案是否涉及到从图像中复制一些文本并将其提供给用户，或者答案是否涉及理解图片中的文本并利用它来进一步推理内容。

TextVQA 数据集： 为帮助研究人员解决这个问题，作者发布了 TextVQA，这是一个包含来自 OpenImages 中 28,408 个图像的数据集，以及与这些图像相关的 45,336 个问题，以及 453,360 个真实答案。

学习阅读图像： 研究人员开发了一个名为 LoRRA 的模型，即 Look，Read，Reason＆Answer 的简称。LoRRA 将一些现有的视觉问答（VQA）系统与一个专用的光学字符识别（OCR）模块结合在一起。此外，它还有一个答案模块，在 Pointer 网络上进行了松散建模，它能够确定何时合并 OCR 模块已经解析过但 VQA 模块不必理解的单词。

为什么这很重要： 构建可以摄取足够的有关周围世界信息的人工智能系统，以便为人类赋能，这似乎是该技术最直接且最具影响力的用途之一。不言而喻，一种新型数据集的发布将会鼓励人们在这项重要使命上取得更多进展。

阅读更多：向可阅读的 VQA 模型迈进 (https://arxiv.org/abs/1904.08920)

获取数据集：(https://textvqa.org/)

特斯拉 Q1 季度净亏 7 亿美元，汽车业务营收环比下降达 41%

本月 24 日，特斯拉对外公布 2019 年第一季度财报。财报披露，2019 年 Q1 季度特斯拉营收达 45.4 亿美元，较去年同期增长 33%，环比下降 37%。此外，该季度净亏损达 6.68 亿美元，较去年同期略有好转。

尽管马斯克在今年 2 月就早早给大众打了预防针，表示“别乐观，一季度可能亏损”，但财报公布后，特斯拉最大跌幅近 2%，随后企稳回升。由此可见，这样一份答卷还是让不少人失落。

据悉，特斯拉亏损的一大主因是汽车业务方面表现不佳。这一点财报中也有体现：特斯拉在第一季度中主营的汽车业务营收为 37.238 亿美元，同比增长 36%，但环比下降高达 41%。而这一数字的背后不仅仅是汽车销量未达预期，另外，特斯拉也开年后迎来政策寒冬——成为首家无法享受全额 $7500 联邦税收抵免的汽车制造商，尽管特斯拉方面继续通过降价的方式刺激销量，但效果如何依然有待观察。

阅读更多：特斯拉 2019 第一季度财报 (https://ir.tesla.com/static-files/b2218d34-fbee-4f1f-ac95-050eb29dd42f)

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果你想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：

https://jack-clark.net/2019/04/29/import-ai-144-facial-recognition-sighted-in-us-airports-amazon-pairs-humansai-for-data-labeling-facebook-translates-videos-into-videogames/