Investigating Spatial Attention Bias in Vision-Language Models

（arxiv 2025）

本论文关注一种有趣的空间注意力偏差：当输入为左右拼接的双图时，模型在生成描述顺序上显著倾向于先描述左侧内容。

motivation

在幻觉方面，有所谓的“物体共现”或者“统计偏差”的现象，模型会因训练统计而幻觉出未出现的常见伴随物。

但“空间处理”的偏差尚未被深入探讨。

研究问题： 当模型面对水平拼接的两张不同图像时，它们会优先描述哪一边的内容？这种优先权是随机的，还是存在系统性的偏差？

重要性： 这种偏差可能会影响模型在用户界面（UI）、机器人技术和决策支持系统中的可靠性，特别是在需要公平和平衡视觉解释的场景中。

Caltech-101 控制对： 选取50对物体图像，生成“左-右”和水平翻转后的“右-左”版本，共100张测试图。这确保了偏差不是由某张图片内容更有趣引起的，而是纯粹的位置效应。

桌面 UI 数据集 (Desktop UI)： 包含10张信息密集的数字界面截图（如 LinkedIn, Gmail 等），用于测试在高密度文本环境下模型的表现。生成了所有无序成对组合（10 选 2 = 45 个唯一组合）。

中性提示： “描述这张图片”，不给方向指示。

方向性提示： 明确要求“从左到右描述”或“从右到左描述”，包括简单指令和结构化的 JSON 指令。

在没有方向指示的中性提示下，模型表现出了极强的左侧优先倾向：

97% 的左侧优先率： 在中性条件下，模型在约 97% 的情况下会先描述左边的内容。
与语言方向无关： 最令人惊讶的发现是，即使是针对阿拉伯语（从右向左阅读，RTL）微调的 AIN 模型，依然在 97% 的情况下先描述左边的图像。这有力地证明了语言的阅读方向并不是导致这种视觉扫描偏差的主要原因。

开源模型： 表现出显著的左侧偏差。例如，InternVL2-8B 在被要求“从左到右”描述时，其输出长度比“从右到左”平均多出 472.8 个字符，说明它更倾向于分配注意力给左侧内容。
闭源模型： 如 GPT-5 Nano 和 Claude 4.5 Haiku 在物体图像上的表现相对平衡，偏差较小。

当测试数据从简单的物体图像换成密集的 UI 界面时，偏差发生了有趣的偏移：

右侧/近期偏差 (Right/Recency Bias)： 在高密度信息语境下，GPT-5 Nano 和 Gemini 2.0 Flash 等模型从原本的低偏差或左偏差，转变为强烈的右侧偏差（优先关注后半部分/右侧内容）。
指令遵循失败： Qwen2.5-VL-7B 在面对复杂的 UI 图像时，经常无法遵循“从右到左”的指令，强行先描述左侧图像。

可能原因1——语言阅读方向（已排除）： 如前所述，阿拉伯语模型的实验结果排除了语言阅读顺序（RTL vs LTR）作为主要原因的可能性。

可能原因2——训练数据标注（已排除）： 研究者检查了 PixMo 和 Visual Genome 等主要数据集的标注指南，发现其中并没有明确规定要“先左后右”进行描述。

可能原因3——架构因素（主要假设）： 作者认为偏差主要源于模型架构设计。

位置编码 (Positional Embeddings)： 图像 token 的空间位置编码可能引入了非对称的注意力模式。
视觉编码器设计 (Vision Encoder)： Vision Transformer 处理图像 patch 的顺序（通常是光栅扫描顺序）可能在跨模态交互前就已经固化了这种偏差。

#深度学习 #多模态 #大模型

Investigating Spatial Attention Bias in Vision-Language Models

https://lijianxiong.space/2025/20251225/

作者

LJX

发布于

2025年12月25日

许可协议