目录 - 小熊的小站

12-12

VISUAL AGENTS AS FAST AND SLOW THINKERS

12-11

Mitigating Modality Prior-Induced Hallucinations in Multimodal Large Language Models via Deciphering Attention Causality

12-10

Video-LLaVA： Learning United Visual Representation by Alignment Before Projection

12-05

五种LORA

12-04

Soft Instruction De-Escalation Defense

12-03

Jigsaw-Agile Community Rules Classification第一名方案

12-02

DoRA： Weight-Decomposed Low-Rank Adaptation

11-29

IBD：通过图像有偏解码减轻大型视觉-语言模型中的幻觉

11-28

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

11-27

VASparse：通过视觉感知的 token 稀疏化实现高效视觉幻觉缓解