Facebook发布新购物AI,通用产品识别的计算机视觉系统让「一切皆可购买」

2020 年 5 月 21 日 新智元



  新智元报道  

来源:VentureBeat等

编辑:啸林

【新智元导读】Facebook发布最新AI技术,要让“任何物品皆可购买”成真——基于物品分割、检测和分类三个方面的进步。Facebook的长期目标是创建一个全面的AI驱动的系统,实现无缝消费。


Facebook发布新AI:让“一切皆可购买”


昨天,Facebook首 席执行官马克·扎克伯格宣布推出Facebook Shops。 

Facebook Shops 为企业建立单一在线商店 ,以让客户直接连接到Facebook和Instagram上


“我们的长期愿景是 建立一个多功能的Al生活方式助手 ,它可以准确搜索和排名数十亿种产品,同时根据个人口味进行个性化。” 
 
同一系统将使在线购物具有社交性,就像现实生活中和朋友一起购物一样 。再进一步,它将推进 视觉搜索 ,以 使您的现实环境就可以支持虚拟购物

如果您看到喜欢的东西(衣服,家具,电子产品等等), 您可以为它拍张照片,系统会找到确切的商品,以及从那时到那里立即购买的几个类似商品,并提供购物建议 。” 
 
这听起来 有点像科幻电影《少数派报告》中的场景:

阿汤哥 在街上走,视网膜被自动扫描、提取身份信息,得知 他喜欢喝 吉尼斯黑啤 ,于是便开始 对他 投放吉尼斯广告: “嘿,吉尼斯就在你身后!

不论在现实中的任何地方,都能看到个性化商品投放

想要实现这个魔幻场景,要归功于Facebook新开发的三个AI系统。

第一个是通用计算机视觉系统GrokNet,目标是 在图片或视频中识别所有的产品,实现“一切皆可购买”。

它在七个数据集中进行了训练,其中包含数百万个用户发布、购买和出售的产品图像,从SUV到细高跟鞋、再到各种形 状的桌子,无所不包。
 
第二个可以通过 处理某个产品的2D视频而创建其3D视图 ,并且还能带来强大的 AR试穿

第三个被称为实例蒙版投影,可以 从图像中自动分割识别服装产品


通用产品识别的计算机视觉系统:GrokNet


为了实现这一愿景,Facebook正在部署一种 新的通用计算机视觉系统 ,称为 GrokNet 。设计这种新产品识别模型的目的是 使“几乎所有照片都可以用于购物” 。 
 
GrokNet目前为Facebook的点对点购物平台Marketplace中的买卖双方提供功能。当卖家将照片上传到Marketplace时, 系统会自动列出相应属性 ,例如商品的颜色或材料。

       


Facebook表示, GrokNet可以检测出数十亿张照片中的精确、相似(通过相关属性)或一同出现的产品 ,且在Marketplace上执行搜索和过滤的效率至少是类似算法的两倍。
 
例如,与Facebook基于文本的归因系统(只能识别33%)相比,它能够识别90%的家庭和花园列表。
 
作为有限测试的一部分,除了在Marketplace卖家列出商品之前从图像 生成颜色和材料的标签 外,它还用于在页面管理员上传照片时 在Facebook Pages上标记产品

看来,以后在Facebook上被自动标记的,不只是你朋友的脸。
 
Facebook表示 ,在培训GrokNet的过程中,它使用了具有挑战性角度的真实卖方照片以及目录样式的价差。

为了 使所有国家,语言,年龄,大小和文化尽可能地具有包容性 ,它抽样了不同体型,肤色,位置,社会经济阶层,年龄和姿势的示例。
 
Facebook开发了一种 使用GrokNet作为反馈循环自动生成其他标识符 的技术,而不是使用会花很多时间的产品标识符来手动注释每个图像,因为产品标识符已经使用了很长时间。
 
利用对象检测器,该方法可以识别图像中可能产品周围的框,然后将框与已知产品列表进行匹配,以将匹配项保持在相似度阈值内。结果的匹配将被添加到训练集中。
   

Facebook的GrokNet架构


Facebook还 利用了每个培训数据集都具有固有难度的情况 。较简单的任务不需要那么多图像或注释,而较困难的任务则需要更多图像或注释。
 
公司工程师通过 将大部分培训分配给具有挑战性的集 ,而每批只分配少量图像给简单的图像, 从而同时提高了GrokNet在不同任务上的准确性
 
产品化的GrokNet具有83个损失函数(即,将变量的事件映射到表示与事件相关的某些成本的数字的函数),可以预测给定图像的一系列属性,包括其类别,属性和可能的搜索查询。
 
它仅使用256位来表示每个产品,就产生了类似于指纹的嵌入, 可用于诸如产品识别,视觉搜索,视觉上相似的产品推荐,排名,个性化,价格建议和规范化 等任务。
 
Facebook表示,将来,它将把GrokNet用来为Marketplace的店面赋能, 以便客户可以更轻松地找到产品,了解这些产品的穿着方式并获得相关的配件建议
 
“这种通用模型使我们能够利用更多的信息源,从而提高了准确性,并且胜过了单一的垂直关注模型。” 


基于SLAM技术的3D重建和AR试用/试穿

 
第二个AI模型为Facebook的3D视图功能提供了支持,该功能现已通过测试,在iOS的Marketplace上提供。
 
基于2月份推出的Facebook 3D照片 工具,这个模型 对手机实时视频进行后期处理,以创建可旋转并向上移动至360度的交互式伪3D表示

 
Facebook使用一种称为 同步本地化和映射(SLAM) 的方法进行重建,该方法可以在跟踪代理人(智能手机)位置的同时创建和更新未知环境或对象的地图。
 
智能手机的姿态在3D空间中重建,其路径通过检测异常间隙的系统进行平滑处理,并将每个姿态映射到校正不连续性的坐标空间中。
 
为了保持一致性, 将平滑的相机路径映射回原始空间 ,从而重新引入了不连续性并确保了物体的可识别性。
 
Facebook的SLAM技术还 结合了对帧的观察以获得稀疏的点云 ,该点云由任何给定捕获场景中最突出的特征组成。
 
这个云充当了相机姿势的指导,这些姿势与最能代表3D对象的视点相对应; 图像以某种方式失真,看起来像是从视点拍摄的
 
启发式离群值检测器会发现可能引入失真的关键点,并将其丢弃,而相似性约束使重构的无特征部分变得更加僵硬,而散焦区域看起来更加自然。
 
除了3D重建之外,Facebook表示将很快利用其 Spark AR平台 结帐功能 ,使客户能够看到物品在各个地方的外观。
 
已经有Nyx,Nars和Ray-Ban等品牌在Facebook Ads和Instagram中使用它来 增强现实的“试穿”体验

 
该公司计划支持试穿各种物品,包括家居装饰。和家具-包括商店在内的各种应用程序和服务,Facebook的功能使企业可以通过网络直接进行销售。


自动分割识别服装产品:实例蒙版投影


为了使诸如Marketplace之类的服务能够 在图像中自动隔离服装产品 ,Facebook开发了一种 细分技术 ,该技术声称与几种基准相比,它可以实现最先进的性能。
 
这项技术被称为 实例蒙版投影 (Instance Mask Projection) 可以发现腕带、项链、裙子和毛衣等在不均匀的光线下拍摄或部分被遮盖的物品,甚至可以以不同的姿势出现在衬衫和夹克等其他物品下
       

Instance Mask Projection可以 检测整个服装产品并大致预测其形状 该预测用作改进每个像素的估计的指南 ,允许合并来自检测的全局信息。预测的实例图被投影到一个功能图中,用作语义分割的输入。
 
据Facebook称,这种设计 更便于进行服装分析(涉及复杂的分层、大的变形和非凸体)以及街道场景分割(重叠实例和小对象)


下一步:AI时尚助手!


Facebook表示,其目标是有一天将这些不同的方法结合到一个系统中, 即时提供与个人口味和风格相匹配的产品推荐
 
它设想了一个助手,该助手可以 通过分析一个人的衣橱中的图像来学习喜好 ,例如,让人可以尝试收藏并出售其他人可以预览的服装。
 
为此,Facebook表示,其研究人员正在制作一个 “智能数字壁橱” 的原型,该壁橱不仅 根据计划的活动或天气提供服装建议,而且还根据个人产品和美学提供时尚灵感
       

 
Facebook预计最终将 需要新的系统来适应不断变化的趋势和偏好 ,理想情况下,该系统将从对潜在所需产品的图像的反馈中学习。
 
它最近在 Fashion ++ 方面取得了进展,它使用AI来提供个性化的穿搭建议,比如添加皮带或半折衬衫。
 
但该公司表示,在真正的预测性时尚助手成为可能之前, 必须在语言理解和个性化体验方面取得进步

可能,AI充分渗透进现实,开启社交无缝购物、智能穿搭助手的那一天,离我们真的不远了。



参考链接:


Facebook详细介绍了其购物体验背后的AI

https://venturebeat.com/2020/05/19/facebook-details-the-ai-behind-its-shopping-experiences/
 
Facebook开发了新的AI技术,有一天可以使“一切都可以购物”
https://www.zdnet.com/article/facebook-develops-new-ai-techniques-to-one-day-make-anything-shoppable/


登录查看更多
0

相关内容

Facebook 是一个社交网络服务网站,于 2004 年 2 月 4 日上线。从 2006 年 9 月到 2007 年 9 月间,该网站在全美网站中的排名由第 60 名上升至第 7 名。同时 Facebook 是美国排名第一的照片分享站点。 2012年 2 月 1 日,Facebook向美国证券交易委员会提交集资规模为 50 亿美元的上市申请。
AI创新者:破解项目绩效的密码
专知会员服务
32+阅读 · 2020年6月21日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
34+阅读 · 2020年4月5日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
105+阅读 · 2020年1月2日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
计算机视觉在制造业应用的十大最新案例
极市平台
27+阅读 · 2019年8月25日
HoloLens新应用:扫描脸部就能读出你的心跳
雷锋网
3+阅读 · 2018年3月3日
亚马逊发布实时人脸识别功能,精度提高10%
AI前线
4+阅读 · 2017年11月22日
PornHub 用计算机视觉识别 A 片中的演员和内容
TechCrunch中国
4+阅读 · 2017年10月13日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
5+阅读 · 2015年9月14日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关论文
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
5+阅读 · 2015年9月14日
Arxiv
3+阅读 · 2012年11月20日
Top
微信扫码咨询专知VIP会员