标签 - 多模态 - 小熊的小站

12-27

SmartSight：通过时间注意力坍缩在不损害视频理解的前提下缓解视频大模型中的幻觉问题

12-25

Investigating Spatial Attention Bias in Vision-Language Models

12-15

AVG-LLaVA：一种具有自适应视觉粒度的高效大型多模态模型

12-12

VISUAL AGENTS AS FAST AND SLOW THINKERS

12-11

Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality

12-10

Video-LLaVA： Learning United Visual Representation by Alignment Before Projection

11-29

IBD：通过图像有偏解码减轻大型视觉-语言模型中的幻觉

11-27

VASparse：通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解

11-26

Be My Eyes：通过多智能体协作将大型语言模型扩展到新模态

11-24

把MoE整合进LLaVA