视觉语言模型(VLMs)通过将大型语言模型(LLMs)与图文对集成在一起,经历了迅速的发展,但由于视觉编码器的空间意识有限,以及使用缺乏详细、特定区域字幕的粗粒度训练数据,它们在详细区域视觉理解方面面临挑战。为了解决这一问题,我们介绍了RegionGPT(简称为RGPT),这是一个为复杂区域级字幕和理解而设计的新颖框架。RGPT通过对现有VLMs中的视觉编码器进行简单而有效的修改,增强了区域表示的空间意识。我们进一步通过在训练和推理阶段整合任务引导的提示(提示),提高了对特定输出范围任务的性能,同时保持了模型对通用任务的多功能性。此外,我们开发了一个自动化的区域字幕数据生成管道,丰富了训练集,增加了详细的区域级字幕。我们展示了一个通用的RGPT模型可以有效地应用,并显著提高了一系列区域级任务的性能,包括但不限于复杂区域描述、推理、对象分类和指代表达理解。代码将在项目页面发布。

成为VIP会员查看完整内容
21

相关内容

【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
16+阅读 · 2023年3月17日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
12+阅读 · 2022年12月14日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
19+阅读 · 2021年9月13日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
456+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
【CVPR2023】MSeg3D:面向自动驾驶的多模态3D语义分割
专知会员服务
16+阅读 · 2023年3月17日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
12+阅读 · 2022年12月14日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
19+阅读 · 2021年9月13日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员