Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in general Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the Gemini-3.0-pro model on Multiple-Choice Question (MCQ) and outperforms the GPT-4o model 36.7% on Open-Style Question (OSQ). Generalization experiments also show that our framework can effectively benefit general VQA and visual reasoning tasks. Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.


翻译:图像中的隐喻理解仍是人工智能系统面临的关键挑战,现有模型难以把握视觉内容中蕴含的微妙文化、情感与语境隐含意义。尽管多模态大语言模型(MLLMs)在通用视觉问答(VQA)任务中表现出色,但在图像隐含意义任务上存在根本性局限:语境缺失导致不同视觉元素与其抽象含义之间的关系难以辨识。受人类认知过程启发,我们提出"让安卓梦见"(LAD)——一种新颖的图像隐含意义理解与推理框架。LAD通过三阶段框架解决语境缺失问题:(1)感知:将视觉信息转化为丰富的多层次文本表征;(2)搜索:迭代式检索并整合跨领域知识以消解歧义;(3)推理:通过显式推理生成语境对齐的图像隐含意义。在英文图像隐含意义基准测试中,本框架结合轻量级GPT-4o-mini模型相比15余种MLLMs达到SOTA性能,在中文基准测试上实现大幅提升,在多项选择题(MCQ)任务中与Gemini-3.0-pro模型表现相当,在开放式问题(OSQ)任务上超越GPT-4o模型36.7%。泛化实验表明本框架能有效提升通用VQA与视觉推理任务性能。此外,本研究为人工智能如何更有效解读图像隐含意义提供了新见解,推动了视觉语言推理与人机交互领域的发展。项目已开源:https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep。

0
下载
关闭预览

相关内容

【AAAI2023】MAPS-KB:一个百万级概率明喻知识库
专知会员服务
10+阅读 · 2022年12月15日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员