There is a growing demand for mobile user interface (UI) automation, driven by its broad applications across industries. With the advent of visual language models (VLMs), GUI automation has progressed from generating text-based instructions for humans to autonomously executing tasks, thus optimizing automation workflows. Recent approaches leverage VLMs for this problem due to their ability to 1) process on-screen content directly, 2) remain independent of device-specific APIs by utilizing human actions (e.g., clicks, typing), and 3) apply real-world contextual knowledge for task understanding. However, these models often have trouble accurately identifying widgets and determining actions due to limited spatial information in vision encoder features. Additionally, top-performing models are often large, requiring extensive training and resulting in inference delays. In this work, we introduce AFRAgent, an instruct-BLIP-based multimodal architecture that achieves superior performance in GUI automation while being less than one-fourth the size of its nearest competitor. To enhance image embeddings in the large language model (LLM) pipeline, we propose an adaptive feature renormalization-based (a token-level affine transformation) technique that effectively enriches low-resolution image embeddings and fuses high-resolution details. We evaluate AFRAgent on Meta-GUI and AITW benchmarks, establishing a new state-of-the-art baseline for smartphone automation.


翻译:移动用户界面(UI)自动化的需求日益增长,因其在各行业的广泛应用而备受关注。随着视觉语言模型(VLMs)的出现,GUI自动化已从生成基于文本的人工指令发展为自主执行任务,从而优化了自动化工作流程。近期方法利用VLMs解决此问题,得益于其能够:1)直接处理屏幕内容;2)通过模拟人类操作(如点击、输入)保持与设备特定API的独立性;3)运用现实世界情境知识进行任务理解。然而,由于视觉编码器特征中空间信息有限,这些模型常难以准确定位界面组件并确定操作。此外,性能最优的模型通常规模庞大,需要大量训练并导致推理延迟。本研究提出AFRAgent,一种基于instruct-BLIP的多模态架构,其在GUI自动化中实现卓越性能,而模型规模仅为最接近竞争者的四分之一以下。为增强大语言模型(LLM)流程中的图像嵌入,我们提出一种基于自适应特征重归一化(即令牌级仿射变换)的技术,有效增强低分辨率图像嵌入并融合高分辨率细节。我们在Meta-GUI和AITW基准测试中评估AFRAgent,为智能手机自动化建立了新的最先进基准。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ICML'21:一种计算用户嵌入表示的新型协同过滤方法
专知会员服务
15+阅读 · 2021年12月31日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
ICML'21:一种计算用户嵌入表示的新型协同过滤方法
专知会员服务
15+阅读 · 2021年12月31日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
相关资讯
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员