Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.


翻译:在智能体时代,代码已成为一种精确且可执行的推理与行动媒介。然而,相关进展主要集中于以语言为中心的任务,如程序合成与调试,而视觉为中心的编码任务尚未得到充分探索。受人类基于草图进行推理的启发,我们倡导将SVG代码作为一种紧凑、可解释且可执行的视觉表示形式。我们提出了VCode基准,该基准将多模态理解任务重构为代码生成问题:给定一张图像,模型必须生成能够保留符号意义以支持下游推理的SVG代码。VCode涵盖三个领域——通用常识(MM-Vet)、专业学科(MMMU)以及以视觉为中心的感知(CV-Bench)。为评估符号保真度,我们提出了CodeVQA,一种新颖的评估协议:策略模型基于渲染后的SVG回答问题;正确答案表明符号得到了忠实保留。实证研究表明,前沿视觉语言模型在生成忠实SVG方面存在困难,揭示了以语言为中心的编码与以视觉为中心的编码之间存在持续差距。为弥合这一差距,我们提出了VCoder,一种智能体框架,从两个维度增强视觉语言模型:(i)基于修订的思考,迭代分析差异并优化SVG代码;(ii)基于视觉工具的行动,利用检测器和解析器提供模型内在能力之外的结构化线索,如物体、形状和文本。在各项基准测试中,具备强大推理能力的前沿视觉语言模型总体得分较高,但在专业知识和3D推理方面仍存在局限。VCoder相较于表现最佳的Claude-4-Opus实现了12.3分的整体提升。人工研究表明,人类和视觉语言模型在渲染后的SVG上表现均有所下降,但两者表现的一致性揭示了符号化视觉表示的应用潜力。基准数据与代码已发布于https://github.com/CSU-JPG/VCode。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员