Vision-language models (VLMs) have demonstrated impressive multimodal comprehension capabilities and are being deployed in an increasing number of online video understanding applications. While recent efforts extensively explore advancing VLMs' reasoning power in these cases, deployment constraints are overlooked, leading to overwhelming system overhead in real-world deployments. To address that, we propose Venus, an on-device memory-and-retrieval system for efficient online video understanding. Venus proposes an edge-cloud disaggregated architecture that sinks memory construction and keyframe retrieval from cloud to edge, operating in two stages. In the ingestion stage, Venus continuously processes streaming edge videos via scene segmentation and clustering, where the selected keyframes are embedded with a multimodal embedding model to build a hierarchical memory for efficient storage and retrieval. In the querying stage, Venus indexes incoming queries from memory, and employs a threshold-based progressive sampling algorithm for keyframe selection that enhances diversity and adaptively balances system cost and reasoning accuracy. Our extensive evaluation shows that Venus achieves a 15x-131x speedup in total response latency compared to state-of-the-art methods, enabling real-time responses within seconds while maintaining comparable or even superior reasoning accuracy.


翻译:视觉语言模型(VLMs)已展现出卓越的多模态理解能力,并正被部署于日益增多的在线视频理解应用中。尽管近期研究广泛探索了在这些场景下提升VLMs的推理能力,但实际部署中的约束条件常被忽视,导致现实部署中系统开销过高。为此,我们提出Venus,一种用于高效在线视频理解的设备端记忆与检索系统。Venus提出一种边云解耦架构,将记忆构建与关键帧检索从云端下沉至边缘,分两阶段运行。在摄入阶段,Venus通过场景分割与聚类持续处理流式边缘视频,所选关键帧经多模态嵌入模型编码,构建分层记忆以实现高效存储与检索。在查询阶段,Venus从记忆中索引输入查询,并采用基于阈值的渐进采样算法进行关键帧选择,以增强多样性并自适应平衡系统成本与推理精度。我们的广泛评估表明,与现有先进方法相比,Venus在总响应延迟上实现了15倍至131倍的加速,能够在数秒内实现实时响应,同时保持相当甚至更优的推理精度。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员