Bear
  • 首页
  • 目录
  • 标签
  • latex识别
  • 每日arxiv
  • 关于
标签 - 多模态

共计 26 篇文章


2025

12-27
SmartSight:通过时间注意力坍缩在不损害视频理解的前提下缓解视频大模型中的幻觉问题
12-25
Investigating Spatial Attention Bias in Vision-Language Models
12-15
AVG-LLaVA: 一种具有自适应视觉粒度的高效大型多模态模型
12-12
VISUAL AGENTS AS FAST AND SLOW THINKERS
12-11
Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality
12-10
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
11-29
IBD:通过图像有偏解码减轻大型视觉-语言模型中的幻觉
11-27
VASparse:通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解
11-26
Be My Eyes:通过多智能体协作将大型语言模型扩展到新模态
11-24
把MoE整合进LLaVA
123

搜索

LJX Hexo
博客已经运行 天