Future human action forecasting from partial observations of activities is an important problem in many practical applications such as assistive robotics, video surveillance and security. We present a method to forecast actions for the unseen future of the video using a neural machine translation technique that uses encoder-decoder architecture. The input to this model is the observed RGB video, and the target is to generate the future symbolic action sequence. Unlike most methods that predict frame or clip level predictions for some unseen percentage of video, we predict the complete action sequence that is required to accomplish the activity. To cater for two types of uncertainty in the future predictions, we propose a novel loss function. We show a combination of optimal transport and future uncertainty losses help to boost results. We evaluate our model in three challenging video datasets (Charades, MPII cooking and Breakfast). We outperform other state-of-the art techniques for frame based action forecasting task by 5.06\% on average across several action forecasting setups.


翻译:从部分活动观测到的未来人类行动预测是许多实际应用中的一个重要问题,例如辅助机器人、视频监视和安全。我们提出了一个方法,用使用编码器解码器结构的神经机器翻译技术预测视频的不可见未来行动。对模型的投入是观测到的 RGB 视频,目标是生成未来的象征性行动序列。与预测某些不可见的视频百分比的框架或剪辑水平预测的大多数方法不同,我们预测完成活动所需的完整行动序列。为了迎合未来预测中的两种不确定性,我们提出了一个新的损失函数。我们展示了最佳运输和未来不确定性损失的组合,以帮助提高结果。我们用三种具有挑战性的视频数据集(Charades、MPII烹饪和早餐)来评估我们的模型。我们比其他基于框架的行动预测技术要优于5.06 ⁇ /平均每5.06 ⁇,以若干行动预测设置的平均数为基础。

0
下载
关闭预览

相关内容

损失函数,在AI中亦称呼距离函数,度量函数。此处的距离代表的是抽象性的,代表真实数据与预测数据之间的误差。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
6+阅读 · 2019年4月4日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员