本文的主要作者来自Tsinghua University的I-Vision小组和Tencent Hunyuan X Group。本文的合着者是王公的本科和博士博士学位的王·贾(Wang Jiahui),曾杜瓦大学(University of Tsinghua)自动化学系。本文的相应作者是廷华大学自动化部的卢·齐文教授。大型多模式模型通常取决于大规模训练的语言模型。尽管原始的LLM没有视觉理解技能,但经过多模式培训,这些模型可以在视觉上相关的任务中表现出强劲的性能。这引起了我们的思想。在多模式训练过程中,基于LLM的内部结构,尤其是哪些多个注意力单元,真正获得了对视觉内容的理解?这些注意力负责人是否可以识别且可量化的视觉偏好或特殊特征?当这些“视觉头”可以b时e已确定,它们不仅有助于发现大型多模式模型中的“黑匣子”机制,而且还为优化模型结构和资源分配提供了理论基础。本文档专注于注意力头的视觉偏好,并提出了一种基于OCR任务的方法,而无需进行其他培训以系统地量化每个关注视觉内容的程度。人们发现,不到5%的注意力头(称为视觉头)在视觉理解任务中起主要作用。这有效地关注并从图像中提取重要信息,但大多数注意力头主要集中在文本信息或其他辅助特征上。这种“谦虚头部视觉”的现象表明,模型的视觉理解技能在很大程度上取决于很少的专业注意力头。文档标题:sparsmm:散落的头部来自MLLM的视觉概念的响应S文档:https://arxiv.org/abs/2506.05344代码:https://github.com/cr400afa/sparsemmprojectsparsparsparsparsparsparsemm:用于视觉优化的KV缓存优化策略。在三个部分中有效。通过对多模式流参考点的广泛评估,使用DOCVQA,OCRBENCH,TEXTVQA,CHARTVQA,CHATLQA,MMBENCH,GQA等。效率评估测试将解码阶段的加速度降低了1.87倍,最大记忆力降低了52%。此外,有了极端的缓存预算,性能下降很小,我们根据效率绩效补偿的愿景主管完全研究了KV缓存分配策略的优势。当引入最初没有视觉功能的视觉编码器模块LLM时,在各种场景中都很好地效果n文件。但是,如何在模型中实现这种模式过渡仍然是一个概率的“黑匣子”座右铭。在大型模型的多模式训练中,我认为一些注意力头会逐渐成为“视觉头”。这特别负责视觉信息的理解和相互作用。在本文档中,我们根据OCR任务的量化和视觉头的识别提出了一种新的多种模型推理加速度的方法。对视觉头的详细分析表明,视觉头构成了大型多模型的一小部分。这意味着,尽管它确实可以采取深入了解视觉内容的核心任务并有效地将其整合到语言表示中,但大多数注意力负责人专注于语言信息,但仅限于本地上下文建模或影响图像的内容。基于此,我们将头部的NI缓存分配机构验证到HEAd关注,将更多的缓存预算分配给注意力负责人,该预算保持最大的视觉信息,以更多地关注视觉内容。对于不关注视觉内容的关注负责人,他们分配了较低的现金预算以及更好的绩效和速度平衡,以关注最近的邻居。该方法的摘要我们的方法主要分为两个部分。首先将视觉头放在OCR任务中,然后将不同的缓存预算分配给不同的注意力头。基于OCR的视觉头定位方法在处理视觉内容时,可以加深大型多模型的护理机制,我们提出了一种基于OCR任务的分析方法,并基于此,我们定义了“视觉感觉段”,以量化视觉内容模型的护理性能。从视觉意义上讲,本文可以有效地找到并分析对视觉内容高度敏感的模型中的注意力头。特定ly,给定对OCR任务的图像输入,多模式模型必须基于图像的内容生成并将文本信息发布给图像。对于模型的每个令牌输出,使用OCR的标签信息或任务“(文本,bbox)”,用于阐明图像中字符的空间位置。此注释允许每个字符对应照片中的特定区域。接下来,根据大型多模式模型,将输入图像分为块或补丁,以进一步确定输入图像。视觉片段映射到与每个角色相对应的视觉区域,精确地找到了这些视觉令牌沿入口序列的特定位置。据此,我们跨越了伟大的多模式模型中的所有注意力。对于注意力头,请分析您的护理评分矩阵。考虑所有进入令牌的当前字符的音符分数。如果得分最高的令牌属于Correspon中的视觉文件图像中角色的叮叮区域,关注该位置中相应的视觉内容通常会命中“命中”,“被认为是这种情况。每当发生“打击”时,注意力头会积累一次。通过计算和正常人的范围和正常人的呼吸,每个角色的吹气都可以最终量化,从而揭示了整个模型的信息。对于所有注意事项,仅保留基本上下文模型的功能,可以提高图像语义的能力。 QWEN2-VL-7B-INSTRUCTION可以大致与F组成的Mainintain性能ULL CHACHE现有方法通常会大大降低准确性,在低预算下进一步扩大差距,突出了视觉头部选择的准确性和重要性。在TextVQA实验中还测试了SPARSMM优势。 Múltas型号在低现金条件下从5%到10%保持出色的表现,并且明显优于ADAKV,SNAPKV和其他方法。这些结果表明,Sparsmm特别适合文本密集的视觉任务并密切相关,并且具有重要的推理效率能力和在高分辨率输入方案的管理和分散文本的分布中的管理方面具有重要的推理效率和性能。一般多模式任务的分析,尽管本文档中视觉头的识别方法基于OCR任务,但我们使用多个参考点进行系统地评估该方法,例如MMBENCH,GQA和VQAV2,以进一步验证适用性和Generaliza更广泛的视觉场景的功能。实验结果表明,该方法在广义视觉任务中仍然表现出强大的鲁棒性和产生能力。即使您的高速缓存预算非常有限,QWEN2-VL-7B-7B-7B指导模型也可以通过MMBench完整的缓存模型保持几乎受孕的收益。对于具有复杂视觉推理功能的GQA和VQAV2等任务,始终控制性能降解在1%之内。这比现有的压缩方法要好得多。这些结果表明,尽管对头部的视觉识别是基于OCR场景,但其视觉注意力和注意力的机制高度使用,并且可以在各种视觉理解任务中发挥稳定的作用。推理速度评估本文档以几个输入长度(2K-32K)评估Sparsmm的计算机效率。结果表明,该方法在增加SPE方面取得了重大改进ED推理和减少内存使用。 CON 32K输入,LLAVA-NEXT-VICUNA-7B和QWEN2-VL-7B推断推断分别增加到1.87×和1.60×,最大记忆足迹分别降低了约15 GB和2GB,显示了可观的规模和适应性。这完美地表明,Sparsmm可以有效地将头部推断为高分辨率图像或长上下文任务,从而提高了大型多模型的部署效率和实用性。显示了带有LLAVA-NEXT-VICUNA-7B视觉头的视觉和非视觉头。您会看到视觉头不是非视觉的头部,而是可以在照片中找到对象和文字。关于图像信息或错误区域的注意。这直觉反映了视觉和非视觉头部之间的差异。我们提出了基于视觉摘要头的KV高速缓存压缩Sparsmm。当识别Con Precision时,对视觉信息的最敏感OCR任务的离子并设计了基于此的差异化缓存分配策略,我们在推理阶段大大减少了计算和内存超负荷,同时确保模型的性能。实验结果表明,Sparsmm在多个视觉语言任务中表现出极好的精度保留,出色的计算机效率和强大的概括,尤其是在高分辨率图像和长上下文进入方案中。 Sparsmm为有效的推理和实施大型多模型的现实世界提供了新的解决方案。我们还希望这项工作能够激发更多关于未来大型多模型推断的推断的研究。
ICCV 2025
2025-07-16