直播预告 | 滴滴AI Labs：探索资源约束的Contextual Bandits问题 - 专知

会员服务 ·

0

直播预告 | 滴滴AI Labs：探索资源约束的Contextual Bandits问题

2020 年 5 月 9 日 PaperWeekly

「PW Live」是 PaperWeekly 的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

Contextual bandits (CB) 因为强大的序列决策能力，已经被广泛的应到推荐系统和广告优化中。

在现实世界的应用中，在线学习的成本往往是比较高的，一个折中的方案是给策略的学习设定一个探索资源的约束。所以这个问题转变成如何在固定的探索资源预算约束下，去平衡 exploration（探索）和 exploitation（挖掘）的问题。

本文提出了一种层次化结构的优化方法，达到资源分配策略和个性化推荐策略同时优化的目的。该方法在 Yahoo 的广告数据上得到了验证，并且在理论上证明了 regret bound 是

。

本期 PW Live，我们邀请到滴滴 AI Labs / 美国研究院专家研究科学家李卿阳，为大家带来探索资源约束的 Contextual Bandits 问题的主题分享。

等等！以为这就完了？还有干货分享！近期 KDD Cup 2020 & 滴滴在 biendata 竞赛平台开展了强化学习挑战赛，邀请全球算法高手共同挑战共享出行领域优化难题。本期还邀请到滴滴 AI Lab（人工智能实验室）专家算法工程师唐小程为大家带来 KDD CUP 学习如何在共享出行平台上派单和调度的主题分享。

对本期主题感兴趣的小伙伴，5 月 9 日（周六）下午 2 点，我们准时相约 PaperWeekly B 站直播间。

分享提纲

本文提出了一种层次化结构的优化方法，达到资源分配策略和个性化推荐策略同时优化的目的。该方法在 Yahoo 的广告数据上得到了验证，并且在理论上证明了 regret bound 是

。

本次分享的具体内容有：

强化学习 Contextual Bandits 背景介绍
基于层次自适应的 Contextual Bandits 方法
累积遗憾（Cumulative Regret）分析
实验结果验证
方法总结

嘉宾介绍

图片 1.png

未标题-2.png

李卿阳 / 滴滴AI Labs专家研究科学家

李卿阳博士，滴滴 AI Labs/美国研究院专家研究科学家。 致力于网约车交易平台的供需策略优化。博士毕业于美国亚利桑那州立大学，拥有计算机博士学位，本科毕业于北京航空航天大学计算机专业。

未标题-3.jpg

唐小程 / 滴滴AI Labs专家算法工程师

唐小程博士，滴滴AI Labs（人工智能实验室）专家算法工程师 ，美国理海大学优化运筹学博士学位，曾先后就职于 IBM Watson，硅谷雅虎 Labs，初创公司 Pivotal Software。

直播地址 & 交流群

本次直播将在 PaperWeekly B 站直播间进行，扫描下方海报二维码或点击阅读原文即可免费观看。线上分享结束后，嘉宾还将在直播交流群内实时 QA，在 PaperWeekly 微信公众号后台回复「PW Live」，即可获取入群通道。

B 站直播间：

https://live.bilibili.com/14884511

合作伙伴

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

2

相关内容

Bandits

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

140+阅读 · 2020年7月6日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

12+阅读 · 2020年6月8日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

35+阅读 · 2020年6月3日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

20+阅读 · 2020年5月16日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

20+阅读 · 2020年4月3日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

29+阅读 · 2020年2月26日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

76+阅读 · 2019年11月23日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

54+阅读 · 2019年11月8日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

40+阅读 · 2019年11月5日

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

专知会员服务

60+阅读 · 2019年8月10日

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

6+阅读 · 2020年3月25日

直播丨数据到文本生成：方法与挑战（第六期NLG论坛专题报告）

直播丨数据到文本生成：方法与挑战（第六期NLG论坛专题报告）

AI科技评论

5+阅读 · 2019年12月19日

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

AI科技评论

7+阅读 · 2019年8月10日

【ICME2019】出行领域计算机视觉技术，滴滴AI Labs教程，117页PPT

【ICME2019】出行领域计算机视觉技术，滴滴AI Labs教程，117页PPT

专知

56+阅读 · 2019年7月16日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

9+阅读 · 2018年3月23日

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

PaperWeekly

5+阅读 · 2017年12月20日

今晚8点：基于强化学习的关系抽取和文本分类 | PhD Talk #18

今晚8点：基于强化学习的关系抽取和文本分类 | PhD Talk #18

PaperWeekly

4+阅读 · 2017年11月22日

基于双语主题模型的跨语言层次分类体系匹配 | 直播预告·PhD Talk #16

基于双语主题模型的跨语言层次分类体系匹配 | 直播预告·PhD Talk #16

PaperWeekly

5+阅读 · 2017年9月12日

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec智能推荐

5+阅读 · 2017年6月12日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation

Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation

Arxiv

3+阅读 · 2018年9月27日

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

Arxiv

13+阅读 · 2018年9月7日

Learning to Focus when Ranking Answers

Learning to Focus when Ranking Answers

Arxiv

5+阅读 · 2018年8月8日

Reciprocal Attention Fusion for Visual Question Answering

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年7月22日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Dynamic and Static Topic Model for Analyzing Time-Series Document Collections

Arxiv

8+阅读 · 2018年5月6日

Outline Objects using Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年4月20日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

VIP会员

相关主题

个性化推荐

相关VIP内容

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

140+阅读 · 2020年7月6日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

12+阅读 · 2020年6月8日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

35+阅读 · 2020年6月3日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

20+阅读 · 2020年5月16日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

20+阅读 · 2020年4月3日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

29+阅读 · 2020年2月26日

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

【新书稿：强化学习：理论与算法】《Reinforcement Learning: Theory and Algorithms》by Alekh Agarwal, Nan Jiang, Sham M. Kakade (2019)，(附83页pdf)

专知会员服务

76+阅读 · 2019年11月23日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

54+阅读 · 2019年11月8日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

40+阅读 · 2019年11月5日

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

专知会员服务

60+阅读 · 2019年8月10日

热门VIP内容

相关资讯

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

6+阅读 · 2020年3月25日

直播丨数据到文本生成：方法与挑战（第六期NLG论坛专题报告）

直播丨数据到文本生成：方法与挑战（第六期NLG论坛专题报告）

AI科技评论

5+阅读 · 2019年12月19日

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

AI科技评论

7+阅读 · 2019年8月10日

【ICME2019】出行领域计算机视觉技术，滴滴AI Labs教程，117页PPT

【ICME2019】出行领域计算机视觉技术，滴滴AI Labs教程，117页PPT

专知

56+阅读 · 2019年7月16日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

9+阅读 · 2018年3月23日

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

PaperWeekly

5+阅读 · 2017年12月20日

今晚8点：基于强化学习的关系抽取和文本分类 | PhD Talk #18

今晚8点：基于强化学习的关系抽取和文本分类 | PhD Talk #18

PaperWeekly

4+阅读 · 2017年11月22日

基于双语主题模型的跨语言层次分类体系匹配 | 直播预告·PhD Talk #16

基于双语主题模型的跨语言层次分类体系匹配 | 直播预告·PhD Talk #16

PaperWeekly

5+阅读 · 2017年9月12日

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec 每周算法：parameter-free contextual bandits (SIGIR'15)

LibRec智能推荐

5+阅读 · 2017年6月12日

相关论文

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation

Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation

Arxiv

3+阅读 · 2018年9月27日

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

Arxiv

13+阅读 · 2018年9月7日

Learning to Focus when Ranking Answers

Learning to Focus when Ranking Answers

Arxiv

5+阅读 · 2018年8月8日

Reciprocal Attention Fusion for Visual Question Answering

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年7月22日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Dynamic and Static Topic Model for Analyzing Time-Series Document Collections

Arxiv

8+阅读 · 2018年5月6日

Outline Objects using Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年4月20日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

大家都在搜

大型语言模型

伯克利博士论文

图与推荐指南针

基于几何特征的激光雷达地面点云分割

微信扫码咨询专知VIP会员