把MoE整合进LLaVA (ICLR 2025)《LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation》 (TMM 2025)《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》 2025-11-24 #深度学习 #多模态 #大模型
UpSafe℃: Upcycling for Controllable Safety in Large Language Models (ICLR 2026)分数:4 4 4 6 2025-11-18 #深度学习 #大模型
Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging (AAAI 2026) 创新性很强,理论性很强的一篇论文。是不是可以拿个Oral。 2025-11-17 #深度学习 #大模型
非文本的上下文学习 《VECTOR-ICL: IN-CONTEXT LEARNING WITH CONTINUOUS VECTOR REPRESENTATIONS》(ICLR 2025) 《Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Lea 2025-11-13 #深度学习 #大模型
借助主动检索增强缓解大型视觉语言模型的幻觉问题 TOMM,CCF-B类,三区 方法主动触发检索置信度感知 (Confidence-aware):基于输出token的置信度 。如果置信度低于阈值则触发。实验证明这种方法不稳定 。 图像感知 (Image-aware):比较模型对“原始图像”和“加噪图像”的回答概率差异 。 问题感知 (Question-aware):(本文最终采用的方法) “问题感知”详解: 此方法的核心是评估模型在多大程度上 2025-11-11 #深度学习 #多模态 #大模型
模型后面的层是否无用? 大模型的扩展始终强调深度增加,实证证据表明模型性能随着层数增加而提高——尽管收益递减。早年的深度学习也强调深度比宽度更重要,且深度能提高模型性能。 但是也有不少文章(比如博客之前写过的一些)指出,后面的层会扼杀模型原有的能力。 模型后面的层究竟执行什么样的任务? 这次进行四篇论文的串读。一篇ICLR2025,一篇NIPS workshop,两篇arxiv。 2025-11-06 #深度学习 #大模型
缓解多模态幻觉通过注意力引导的集成解码 (ICLR 2025)《Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding》 代码 2025-11-05 #深度学习 #多模态 #大模型
大模型天生具有某些能力 (ICLR 2025)两篇串起来阅读。 《MLLMs Know Where to Look: Training-Free Perception of Small Visual Details with Multimodal LLMs》 &《MLLM CAN SEE? DYNAMIC CORRECTION DECODING FOR HALLUCINATION MITIGATION》 2025-11-05 #深度学习 #大模型