小熊的小站

VISUAL AGENTS AS FAST AND SLOW THINKERS

（ICLR 2025）同级的sgy之作。（标题看上去有一些梁小丹老师的味道）。

2025-12-12

#深度学习 #peer #多模态 #大模型

Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality

（ICLR 2025）通过解码注意力因果关系缓解多模态大语言模型中模态先验引起的幻觉。

2025-12-11

#深度学习 #多模态 #大模型

Video-LLaVA： Learning United Visual Representation by Alignment Before Projection

2025-12-10

#深度学习 #多模态 #大模型

五种LORA

受@Avi Chawla启发。

2025-12-05

#深度学习 #大模型

Soft Instruction De-Escalation Defense

《Soft Instruction De-Escalation Defense》（软指令降级防御）。主要作者来自 CISPA Helmholtz Center 和 Google DeepMind 。 ICLR 2026在投，6666。

2025-12-04

#深度学习 #大模型

Jigsaw-Agile Community Rules Classification第一名方案

这次竞赛的任务是预测一条评论是否违反了特定的社区规则。难点在于测试集中包含了训练集中没有出现的新规则（Unseen Rules），要求模型具备极强的零样本（Zero-shot）或少样本（Few-shot）泛化能力。

2025-12-03

#深度学习 #kaggle #大模型

DoRA： Weight-Decomposed Low-Rank Adaptation

（ICML 2024）

2025-12-02

#深度学习 #大模型

IBD：通过图像有偏解码减轻大型视觉-语言模型中的幻觉

（CVPRW 2025）也是对比解码。

2025-11-29

#深度学习 #多模态 #大模型

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

（CVPR 2025）作者来自武汉大学，中大网安。

2025-11-28

#深度学习 #大模型

VASparse：通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解

（CVPR 2025）

2025-11-27

#深度学习 #多模态 #大模型