The growing adoption of augmented and virtual reality (AR and VR) technologies in industrial training and on-the-job assistance has created new opportunities for intelligent, context-aware support systems. As workers perform complex tasks guided by AR and VR, these devices capture rich streams of multimodal data, including gaze, hand actions, and task progression, that can reveal user intent and task state in real time. Leveraging this information effectively remains a major challenge. In this work, we present a context-aware large language model (LLM) assistant that integrates diverse data modalities, such as hand actions, task steps, and dialogue history, into a unified framework for real-time question answering. To systematically study how context influences performance, we introduce an incremental prompting framework, where each model version receives progressively richer contextual inputs. Using the HoloAssist dataset, which records AR-guided task executions, we evaluate how each modality contributes to the assistant's effectiveness. Our experiments show that incorporating multimodal context significantly improves the accuracy and relevance of responses. These findings highlight the potential of LLM-driven multimodal integration to enable adaptive, intuitive assistance for AR and VR-based industrial training and assistance.


翻译:增强现实和虚拟现实技术在工业培训和现场作业辅助中的日益普及,为智能化的上下文感知支持系统创造了新的机遇。当工作人员在AR和VR引导下执行复杂任务时,这些设备能够捕获丰富的多模态数据流,包括视线追踪、手部动作和任务进展,从而实时揭示用户意图和任务状态。如何有效利用这些信息仍然是一个重大挑战。本研究提出了一种上下文感知的大语言模型辅助系统,该系统将手部动作、任务步骤和对话历史等多种数据模态整合到统一的实时问答框架中。为系统研究上下文如何影响性能,我们引入了渐进式提示框架,其中每个模型版本逐步接收更丰富的上下文输入。利用记录AR引导任务执行的HoloAssist数据集,我们评估了每种模态对辅助系统效能的贡献。实验结果表明,融入多模态上下文能显著提升回答的准确性和相关性。这些发现突显了基于大语言模型的多模态整合在实现自适应、直观的AR与VR工业培训及辅助方面的潜力。

0
下载
关闭预览

相关内容

【NeurIPS2021】InfoGCL:信息感知图对比学习
专知会员服务
37+阅读 · 2021年11月1日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员