华为人大清华最新论文：推荐领域的Benchmark终于出现了？ - 专知VIP

会员服务 ·

4

干货 · Benchmark · 推荐 ·

2022 年 6 月 26 日

华为人大清华最新论文：推荐领域的Benchmark终于出现了？

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

今天这篇博文将讨论一下推荐领域Benchmark的一些问题，也会介绍一下最新论文《BARS: Towards Open Benchmarking for Recommender Systems》中的一些观点。首先讲讲什么是Benchmark，所谓Benchmark就是用来做比较的规范。在现在的AI领域中，包括NLP、CV等，一个典型的Benchmark通常包含数据集、指标和计算性能的方式。当然它的前提是领域内的人都愿意接受这个规范。因此，为了确保让大家接受，近期的许多基准，要么选择一组具有代表性的标准任务，例如GLUE 或 XTREME；要么会通过征集的意见来构建，例如SuperGLUE、GEM 或 BIG-Bench等。那么这个规范有什么用呢？没有这个规范会怎么样呢？这个规范就是用来对比的，做出让大家信服的对比。如果没有这样一个规范，比如某论文在一些冷门数据集上做实验，甚至用一些冷门的评价指标，告诉大家XXX模型取得了多少多少的提升，这很难让大家信服。而当前推荐领域的Benchmark是一直被诟病的一件事情，目前该领域的研究存在一些问题：

没有被一致认同的数据集和评价指标。推荐由于其强烈的工业属性，一般在工业界被划分为召回和排序，再细分可能还有粗排、精排、重排等等。其中在召回阶段，候选项（Candidate Items）是很多的，常常上亿，而现有的公开数据集往往达不到这一个要求。这也成为了一个学术界和工业界的鸿沟，就是数据规模问题。其次，在推荐领域的评价指标五花八门，现在往往是拿信息检索的指标来做评价的，而在工业界普遍认为，如果评价指标看的是AUC就是排序，评价指标是Recall和NDCG就是召回，但是学术界在撰写论文的时候并没有写的那么清楚。
不可复现性。这个就不说了，懂得都懂。
没有一套易上手的框架。现在在推荐领域比较知名的框架是RecBole，但它只能算是一个代码库，就是方便研究人员对比一些常见Baseline，离真正意义上的Benchmark还有一些距离。

《BARS: Towards Open Benchmarking for Recommender Systems》是华为、人大、清华和港中文联合发布的最新的推荐领域的Benchmark，他们开源了这一工具https://openbenchmark.github.io/BARS/，这篇论文我很推荐初学者去阅读，其中没有冷门的词汇，通读下来很顺畅，也能对推荐有一个大体的了解。好了言归正传，我们今天主要来看看这篇论文中一些有趣的结论。

上图是召回领域一些工作的对比，论文发现了一些有趣的结论：

GNN确实有一定的效果
每个类别都有表现在top-5以内的模型，说明召回任务还没有被任何类型的方法所主导，仍然有很大的发展空间，任何方法都有可能出现新的突破
基于item相关性的方法对效果能有很大的提升
简单的YouTubeDNN就能取得非常不错的效果，其他方法的提升其实都一般

上图对比的是AUC，就是排序的工作对比，依旧有一些令人大跌眼镜的结论：

没有一个模型可以统治所有的数据集，这与现有论文报道的结果相矛盾
以DeepFM，xDeepFM为首的一些模型很能打
排序阶段想提升效果很难

所以，看到这些结论，我们确实迫切地需要一个被大家所认可的Benchmark，BARS不一定能被认可，但是需要有科研人员来做这样的工作，来治一治动辄十几个点提升的方法和论文。

成为VIP会员查看完整内容

11

相关内容

信息检索顶会SIGIR2022最佳论文奖出炉，墨尔本理工大学最佳论文，UMass大学等最佳短论文

信息检索顶会SIGIR2022最佳论文奖出炉，墨尔本理工大学最佳论文，UMass大学等最佳短论文

专知会员服务

17+阅读 · 2022年7月15日

北大首篇《基于图神经网络的推荐系统》综述，211篇参考文献，已被ACM Computing Survey接收

北大首篇《基于图神经网络的推荐系统》综述，211篇参考文献，已被ACM Computing Survey接收

专知会员服务

64+阅读 · 2022年5月8日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

从200多篇顶会论文看推荐系统前沿方向与最新进展

专知会员服务

41+阅读 · 2021年4月3日

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知会员服务

47+阅读 · 2021年1月17日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【综述】金融领域中的深度学习，附52页论文下载

【综述】金融领域中的深度学习，附52页论文下载

专知会员服务

165+阅读 · 2020年2月27日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

梳理总结211篇论文，首篇基于图神经网络的推荐系统综述

梳理总结211篇论文，首篇基于图神经网络的推荐系统综述

图与推荐

2+阅读 · 2022年5月18日

华为开源CTR Benchmark，学术界SOTAs的照妖镜？

华为开源CTR Benchmark，学术界SOTAs的照妖镜？

夕小瑶的卖萌屋

0+阅读 · 2022年3月21日

最新基于GNN的推荐系统综述(附110篇论文下载链接)

最新基于GNN的推荐系统综述(附110篇论文下载链接)

机器学习与推荐算法

2+阅读 · 2022年2月19日

SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark

SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark

机器学习与推荐算法

1+阅读 · 2022年2月8日

推荐系统领域13个开源工具总结

推荐系统领域13个开源工具总结

机器学习与推荐算法

1+阅读 · 2021年12月7日

推荐场景下的对比学习总结

推荐场景下的对比学习总结

机器学习与推荐算法

1+阅读 · 2021年11月23日

Recsys2021 | 推荐系统论文整理与导读

Recsys2021 | 推荐系统论文整理与导读

机器学习与推荐算法

1+阅读 · 2021年10月19日

Recsys2021 | 推荐系统论文整理和导读

Recsys2021 | 推荐系统论文整理和导读

图与推荐

0+阅读 · 2021年10月7日

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

机器学习与推荐算法

0+阅读 · 2021年9月22日

CVPR2019 论文解读汇总（包括目标检测、姿态估计、语义分割等，更新中）

CVPR2019 论文解读汇总（包括目标检测、姿态估计、语义分割等，更新中）

极市平台

12+阅读 · 2019年3月11日

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

化学图的谱及相关性质

国家自然科学基金

0+阅读 · 2015年12月31日

利用基于同步辐射光源的角分辨光电子能谱仪（ARPES）研究凝聚态系统中的不寻常拓扑性质

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

超分子聚合物的单链机械稳定性及弹性力学

国家自然科学基金

0+阅读 · 2013年12月31日

信息领域基础研究实力调研

国家自然科学基金

5+阅读 · 2013年6月9日

基于高分辨率遥感的城市边缘区景观格局信息提取方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

InSAR支持下数据与知识驱动的区域滑坡空间预测

国家自然科学基金

0+阅读 · 2012年12月31日

铜互连阻挡层新材料钌、锇的化学机械抛光机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

Benchmarking Validation Methods for Unsupervised Domain Adaptation

Benchmarking Validation Methods for Unsupervised Domain Adaptation

Arxiv

0+阅读 · 2022年8月15日

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data

Arxiv

0+阅读 · 2022年8月15日

Dense Nested Attention Network for Infrared Small Target Detection

Arxiv

0+阅读 · 2022年8月15日

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data

Arxiv

0+阅读 · 2022年8月12日

Towards Large-Scale Small Object Detection: Survey and Benchmarks

Arxiv

40+阅读 · 2022年7月28日

Recommender systems based on graph embedding techniques: A comprehensive review

Arxiv

23+阅读 · 2021年9月20日

Hierarchical Graph Capsule Network

Hierarchical Graph Capsule Network

Arxiv

20+阅读 · 2020年12月16日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Arxiv

10+阅读 · 2018年3月29日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

VIP会员

相关主题

相关VIP内容

信息检索顶会SIGIR2022最佳论文奖出炉，墨尔本理工大学最佳论文，UMass大学等最佳短论文

信息检索顶会SIGIR2022最佳论文奖出炉，墨尔本理工大学最佳论文，UMass大学等最佳短论文

专知会员服务

17+阅读 · 2022年7月15日

北大首篇《基于图神经网络的推荐系统》综述，211篇参考文献，已被ACM Computing Survey接收

北大首篇《基于图神经网络的推荐系统》综述，211篇参考文献，已被ACM Computing Survey接收

专知会员服务

64+阅读 · 2022年5月8日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

从200多篇顶会论文看推荐系统前沿方向与最新进展

专知会员服务

41+阅读 · 2021年4月3日

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知会员服务

47+阅读 · 2021年1月17日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【综述】金融领域中的深度学习，附52页论文下载

【综述】金融领域中的深度学习，附52页论文下载

专知会员服务

165+阅读 · 2020年2月27日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

梳理总结211篇论文，首篇基于图神经网络的推荐系统综述

梳理总结211篇论文，首篇基于图神经网络的推荐系统综述

图与推荐

2+阅读 · 2022年5月18日

华为开源CTR Benchmark，学术界SOTAs的照妖镜？

华为开源CTR Benchmark，学术界SOTAs的照妖镜？

夕小瑶的卖萌屋

0+阅读 · 2022年3月21日

最新基于GNN的推荐系统综述(附110篇论文下载链接)

最新基于GNN的推荐系统综述(附110篇论文下载链接)

机器学习与推荐算法

2+阅读 · 2022年2月19日

SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark

SIGIR2021@Elliot | 一个全新且全面的推荐系统Benchmark

机器学习与推荐算法

1+阅读 · 2022年2月8日

推荐系统领域13个开源工具总结

推荐系统领域13个开源工具总结

机器学习与推荐算法

1+阅读 · 2021年12月7日

推荐场景下的对比学习总结

推荐场景下的对比学习总结

机器学习与推荐算法

1+阅读 · 2021年11月23日

Recsys2021 | 推荐系统论文整理与导读

Recsys2021 | 推荐系统论文整理与导读

机器学习与推荐算法

1+阅读 · 2021年10月19日

Recsys2021 | 推荐系统论文整理和导读

Recsys2021 | 推荐系统论文整理和导读

图与推荐

0+阅读 · 2021年10月7日

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

机器学习与推荐算法

0+阅读 · 2021年9月22日

CVPR2019 论文解读汇总（包括目标检测、姿态估计、语义分割等，更新中）

CVPR2019 论文解读汇总（包括目标检测、姿态估计、语义分割等，更新中）

极市平台

12+阅读 · 2019年3月11日

相关基金

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

化学图的谱及相关性质

国家自然科学基金

0+阅读 · 2015年12月31日

利用基于同步辐射光源的角分辨光电子能谱仪（ARPES）研究凝聚态系统中的不寻常拓扑性质

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

超分子聚合物的单链机械稳定性及弹性力学

国家自然科学基金

0+阅读 · 2013年12月31日

信息领域基础研究实力调研

国家自然科学基金

5+阅读 · 2013年6月9日

基于高分辨率遥感的城市边缘区景观格局信息提取方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

InSAR支持下数据与知识驱动的区域滑坡空间预测

国家自然科学基金

0+阅读 · 2012年12月31日

铜互连阻挡层新材料钌、锇的化学机械抛光机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Benchmarking Validation Methods for Unsupervised Domain Adaptation

Benchmarking Validation Methods for Unsupervised Domain Adaptation

Arxiv

0+阅读 · 2022年8月15日

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data

SYN-MAD 2022: Competition on Face Morphing Attack Detection Based on Privacy-aware Synthetic Training Data

Arxiv

0+阅读 · 2022年8月15日

Dense Nested Attention Network for Infrared Small Target Detection

Arxiv

0+阅读 · 2022年8月15日

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data

Arxiv

0+阅读 · 2022年8月12日

Towards Large-Scale Small Object Detection: Survey and Benchmarks

Arxiv

40+阅读 · 2022年7月28日

Recommender systems based on graph embedding techniques: A comprehensive review

Arxiv

23+阅读 · 2021年9月20日

Hierarchical Graph Capsule Network

Hierarchical Graph Capsule Network

Arxiv

20+阅读 · 2020年12月16日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Arxiv

10+阅读 · 2018年3月29日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

微信扫码咨询专知VIP会员