多模态论文 - 专知

会员服务 ·

多模态

多模态

HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning

Arxiv

0+阅读 · 12月12日

ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

Arxiv

0+阅读 · 11月28日

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Arxiv

0+阅读 · 11月10日

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Arxiv

0+阅读 · 11月2日

MMDocIR: Benchmarking Multimodal Retrieval for Long Documents

Arxiv

0+阅读 · 11月7日

Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model

Arxiv

0+阅读 · 12月7日

SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

Arxiv

0+阅读 · 11月10日

SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

Arxiv

0+阅读 · 11月7日

LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?

Arxiv

0+阅读 · 11月26日

An Integrative Approach for Subtyping Mental Disorders Using Multimodal Data

Arxiv

0+阅读 · 11月6日

SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models

Arxiv

0+阅读 · 11月28日

SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models

Arxiv

0+阅读 · 12月4日

Multimodal Deep Learning for Stroke Prediction and Detection using Retinal Imaging and Clinical Data

Arxiv

0+阅读 · 12月16日

RoadBench: A Vision-Language Foundation Model and Benchmark for Road Damage Understanding

Arxiv

0+阅读 · 12月9日

RoadBench: A Vision-Language Foundation Model and Benchmark for Road Damage Understanding

Arxiv

0+阅读 · 11月16日

参考链接

微信扫码咨询专知VIP会员