KuaiRand: 快手–中科大发布含随机曝光的无偏推荐数据集, 完美支持多种前沿研究

2022 年 9 月 28 日 机器学习与推荐算法

嘿，记得给“机器学习与推荐算法”添加星标

作者：高崇铭（中科大博士生）

数据集：https://kuairand.com

论文：https://arxiv.org/abs/2208.08696

继发布全曝光数据集KuaiRec（官网: https://kuairec.com）后，快手联合中科大继续发布另一重量级数据集：KuaiRand，名字寓意为Kuaishou的Random推荐数据。该数据集牺牲了一部分推荐性能以收集用户对随机视频的真实反馈，以利好后续的科学研究，在业界难能可贵！现本文已中CIKM '22的Resource Paper，详情查看本数据集的官网：https://kuairand.com。更多CIKM2022推荐系统论文可移步CIKM2022推荐系统论文集锦。

本文在简单介绍该数据集后，将浅谈一下该数据集对领域的独特贡献。

一、KuaiRand数据集简介：

如今短视频成为人们熟知的内容载体。上图展现了快手的视频推荐界面，左边是双列界面，需点击特定视频才能播放；右边是单列的界面，默认自动播放，上下滑可切换到下一个视频。页面上有大量的交互按钮，如“喜欢”、“转发”、“分享”等，均可作为用户对推荐视频的反馈信号。

而KuaiRand数据集，是这样视频序列推荐场景中第一个插入了随机视频的数据集。下图展现了某个用户的一个视频推荐流。时间跨度从2022年4月08日到2022年5月8日。四周的数据被分为两部分，前两周的数据均是正常推荐的视频，而后两周的数据则在正常推荐流中的任意位置以小概率插入了随机的视频。本次发布的数据集忠实地公布了15个推荐场景（不同页面）中用户对所有推荐视频的12种反馈。

二、本数据集的优势：

✅ 首个在业界真实序列推荐场景中插入随机商品的推荐数据集。
✅ 包含用户、视频的id及用户视频侧大量的属性特征（均已清洗）
✅ 忠实记录了用户在四周内所有交互记录，以及其来源场景（共15个）且包含用户对其的12种反馈（是否点击、观看时长、是否喜欢等）。
✅ 平均每个用户在四周内的交互视频数目都超过1000个。
✅ 针对不同的研究场景，本数据集分为三个版本：KuaiRand-27K, KuaiRand-1K，以及KuaiRand-Pure。

下表将对比本数据集与目前最主流的包含随机数据的推荐数据集，以说明本数据集全方面的优势。

目前主流使用的具有随机曝光商品的推荐数据集是Coat和Yahoo!R3, 最近又有一个发布的Open Bandit数据集。然而，它们要么缺乏显式的用户id（仅以特征向量表示每个用户），要么信息量过于小（如Coat仅包含上百个用户和商品，Yahoo!R3没有额外特征）。在所有维度上，KuaiRand数据集都具有碾压级优势。

另外，再谈谈KuaiRand比起此前发布的KuaiRec的优势：（1）KuaiRand的无偏性更强，其随机视频是随机插入到用户的标准推荐流中，避免了曝光偏差、流行性偏差;（2）KuaiRand的数据具有很强的时序性，把所有用户在四周内的所有交互视频全都忠实记录了下来；（3）KuaiRand记录了用户的12种反馈，更能从用户的行为中发现其兴趣。

三、支持的研究：

以下研究方向都是目前推荐检索关注的很有前景的研究方向：

推荐去偏任务：推荐系统在数据收集阶段存在各种偏差，例如选择偏差、曝光偏差、流行偏差。为了解决这个问题，再做评估模型时候，我们需要可靠的无偏数据（一般在训练时用有偏数据，测试时用无偏数据）。KuaiRand这个高度还原业界真实场景的数据集能很好的支持这个需求。而且，目前在序列推荐任务中做去偏的工作还不多，该数据在这方面的挖掘潜力巨大！
交互式推荐：真实世界的推荐场景都是交互式推荐的场景，系统根据用户的实时反馈进行决策，而非监督式学习中的简单预测。详情可见笔者的这篇博文深度剖析 | 推荐系统中的信息茧房问题——因果强化学习在交互式推荐的前沿探索。KuaiRand忠实记录下来的交互序列，则完美地还原了这个交互场景。
Off-policy Evaluation（OPE）问题：OPE的提出是为了克服我们在研究中不能像业界进行真实A/B测试的问题。OPE的基本思想是用历史策略的数据来衡量当前策略的性能。KuaiRand包含15个场景（可视为15种策略）下所有交互记录的12种反馈，完美支持该场景。
超长序列建模：目前工业界很关注的一个方向就是超长序列的建模。目前淘宝团队和抖音快手团队都发现了超长序列对业务指标的提升，并发表了一系列论文。大概来说，当序列长度从几十到上百，没有实质变化，但该长度达到成千上万时，业务指标能有高达5%左右的巨大提升。KuaiRand一个月的数据人均有上千的交互历史，对该任务支持非常友好。
多任务学习：真实的工业界，需要优化的推荐指标非常多，如短期的准确性、多样性或者长期的用户留存率等。如何去协同提升这些指标成为一个难题。KuaiRand包含的12种反馈，非常良好地支持该任务。

总之，该数据集潜力巨大，在很多前沿方向上有着不可代替的价值。

四、使用建议：

为方便研究，我们一次性发布了数据集的三个版本：

KuaiRand-27K（23GB 交互记录 +23GB 属性特征)：完整的KuaiRand数据，具有两万七千个用户在三千二百万视频上的记录。
KuaiRand-1K（829MB 交互记录 + 3.5GB 属性特征）：为了缩小规模方便研究，在上述数据的基础上，随机取出了一千用户。涉及的视频也缩减到了四百多万。
KuaiRand-Pure（184MB 交互记录 + 10MB 属性特征)：只保留了随机推荐视频池子里的7583个视频，去掉了其他视频的交互记录（破坏了连续性）。

三个版本的数据示意图如下，用户ID与视频ID已经严格按照下图所示重新编号。

使用建议：若你的研究需要严格的连续序列，则用27K和1K版本，例如OPE问题、交互式推荐、强化学习、Bandit Learning、超长序列建模。若你的研究侧重点在其他方面，比如推荐的去偏、多任务学习以及传统静态推荐模型，则可以用更精简的Pure版本。

此外，如果你的需求还包括对在线模型进行evaluation，可以尝试之前发布的全曝光数据集，详情请参见这篇博文：快手+中科大 | 全曝光推荐数据集KuaiRec 2.0版本。

五、下载事宜：

由于国家最近出台了个人隐私信息保护法以及数据出境安全评估办法，快手积极响应并进行严格实施。故目前暂时不能将数据完全公开，且暂时不能提供给境外机构和境外个体使用。

目前的数据获取方式为合作制获取：需要的老师同学们以国内大学的名义给下面专用邮箱发邮件申请。填写快手拟定的协议，以大学或实验室为单位与快手建立合作，即可获得本数据集。

快手在确定使用协议之后，会第一时间回复专用邮箱中的申请。同时，快手也在努力推动本数据的出境申请以及公开事项，争取为科学研究做出贡献。

本数据集的详情以及最新进展请见官网：https://kuairand.com

📮数据集申请专用邮箱： kuairand@gmail.com

欢迎 干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【NeurIPS2022】M4I：多模态模型成员推断

专知会员服务

15+阅读 · 2022年9月17日

微信搜一搜中的智能问答技术

专知会员服务

38+阅读 · 2022年6月18日

知识图谱在美团推荐场景中的应用

专知会员服务

66+阅读 · 2022年5月21日

王晓伟：图神经网络在快手推荐召回中的应用和挑战

专知会员服务

26+阅读 · 2022年3月23日