可以看看youtube 这篇文章
Collaborative Deep Metric Learning for Video Understanding
主要就是利用CF signals train一个基于content -ware的video embedding .
当然它只利用video feature 和audio feature 的fusion , fusion 方式也比较简单,early fusion 和late fusion 两种。
我之前做过短视频推荐召回就是在这篇文章的基础上魔改各种结构,堆attention, 加文本和封面的特征。