SmartSight:通过时间注意力坍缩在不损害视频理解的前提下缓解视频大模型中的幻觉问题
(arxiv 2025)
两个关键发现
时间注意力崩溃(Temporal Attention Collapse, TAC):研究发现,当模型产生幻觉时,其注意力往往会过度集中在单个视频帧或语义贫乏的片段上,从而忽略了视频的其他关键部分 。
视觉注意力消失(Visual Attention Vanishing, VAV):在生成过程中,模型对视觉信息的注意力会在某个点之后突然大幅下降。
方法

针对一个提问,模型并行生成 $N$ 个候选答案。
幻觉评估(TAC Score):利用模型自身的注意力分布计算“时间注意力崩溃得分”。该得分结合了帧级崩溃(注意力是否集中在单帧)和片段级崩溃(模型盯着一段几乎没有动作或物体变化的视频发呆,然后根据这种无意义的视觉输入胡乱推理) 。
- 帧级崩溃得分 ($S_f(y)$):
使用熵来衡量,
$$S_f(y) = -\sum _ {t=1} ^ {T} \hat{a}_t \log \hat{a}_t$$
- 片段级崩溃得分 ($S_c(y)$):
首先计算**运动感知成本矩阵(Motion-Aware Cost Matrix)**来衡量帧间差异 :
$$C _ {ij} ^ {(t)} = (1 - \cos(v_i ^ {t-1}, v_j^t)) + \lambda \cdot |u _ {t,j} - u _ {t-1,i}|_2$$
通过解决一个二分图最小完美匹配问题来确定两帧之间的总位移距离:
$$d _ {t}=\sum _ {i=1} ^ {M}C _ {i,\pi ^ {\ast}(i)} ^ {(t)}; \quad \pi ^ {\ast}=\arg \min _ {\pi\in\mathcal{B} _ {M}}\sum _ {i=1} ^ {M}C _ {i,\pi(i)} ^ {(t)}$$
设定一个阈值 $\gamma$ 。如果 $d_t > \gamma$,说明视频内容发生了显著变化,这里被标记为一个边界 。
两个边界之间的部分被定义为一个时间连续片段(Temporally Contiguous Segment) $s_k$。
继续通过熵来衡量:
$$\mathcal{S} _ {c}(y)=-\sum _ {k=1} ^ {K}\hat{a} _ {s _ {k}}(y)log\hat{a} _ {s _ {k}}(y)$$
最终总分为:$S(y) = S_f(y) + S_c(y)$ 。分数越高,代表注意力分布越健康,响应越可靠。
动态早停(Early Stopping at VAV Point):为了提高效率,SmartSight 不等全句生成完,而是在 VAV 点(即模型不再关注视觉信息时)就根据 TAC 得分评估响应质量。
- 触发条件:当该比例连续 $w$ 步低于阈值 $\alpha$ 时,判定为 VAV 点 :
$$j _ {vav}(y) = \min \{ j \mid \frac{a_k ^ {vis}}{a_k ^ {text}} < \alpha, \forall k \in [j-w+1, j] \}$$
择优继续:终止幻觉严重的路径,只保留质量最高的候选路径完成最终生成 。