ICCV 2025 | LMM-Det:释放大模型原生检测力,告别外挂检测器

360 AI Research
2025-08-05 215 阅读
ICCV 2025 | LMM-Det:释放大模型原生检测力,告别外挂检测器

大型多模态模型(LMMs)无疑是当前AI领域最炙手可热的明星,它们在图像描述、视觉问答等任务上展现出的强大理解和推理能力,令人惊叹。然而,当面对一个基础但至关重要的视觉任务-目标检测(Object Detection)时,这些“通才”LMMs的表现却常常被专业的“专才”检测器远远甩在身后。

为了弥补这一差距,传统方法通常是给LMM“外挂”一个强大的、专门的检测模块。但这种方式不仅使系统变得复杂臃肿,也偏离了构建通用、统一AI模型的初衷。近日,360 AI研究院一篇被计算机视觉顶会[ICCV 2025]接收的论文《LMM-Det: Make Large Multimodal Models Excel in Object Detection》提出了一种截然不同的思路。研究者们提出了一个名为LMM-Det的简洁而高效的框架,首次证明了LMM无需任何额外的检测模块,仅通过激发和优化其自身潜力,就能胜任目标检测任务,并取得了与专业检测器相媲美的性能。

研究背景与意义

当前,让LMM具备目标检测能力的主流方法,通常是在其前端或后端集成一个专门的检测器(如DETR系列)。这种“LMM+检测器”的混合模式虽然有效,但存在明显弊端:

  • 架构复杂: 引入了额外的、沉重的检测模块,增加了系统的复杂度和维护成本。
  • 能力割裂: 检测能力并非LMM原生具备,而是由外部模块提供,这与追求模型通用性、一体化的目标背道而驰。

LMM-Det的研究者们大胆地提出了一个核心主张:LMM本身就蕴含着强大的检测能力,只是没有被正确地“解锁”。他们的目标,就是摒弃外挂,通过一系列精心设计的优化策略,让LMM“无师自通”目标检测。

 

LMM-Det(c)与其他需要外挂区域生成器(a)或专业检测器(b)的LMM的对比

 

核心方法:LMM-Det

研究者首先通过深入的探索性实验,剖析了标准LMM(以LLaVA为例)在目标检测任务上表现不佳的根源。他们发现,最核心的问题在于召回率(Recall Rate)的急剧下降。简单来说,就是模型“看漏”了太多本应被检测出来的物体。

上图专业检测器与多模态大模型在COCO验证集上的检测效果可视化对比,当使用提示语"若图像中存在该语句描述区域,请提供其边界框坐标:<类别>"时,LLaVA[23]在检测所有物体方面表现欠佳——每次查询仅生成少量边界框且大多不准确,致使目标检测任务的召回率较低。
针对这一核心痛点,LMM-Det提出了一套组合拳,旨在全面提升模型的召回率和整体检测性能。

1. 数据分布调整

研究者发现,LMM在预训练和指令微调阶段接触到的数据,其目标分布与专门的检测数据集(如COCO)存在巨大差异。为了让模型“适应”检测任务的数据模式,他们对训练数据进行了重新组织和增强:

  • **重新组织指令对话:**将传统的、描述性的图文对数据,改造成更符合检测任务的“问答”形式,例如,将一张包含多个物体的图片,拆解成多个“图片中是否有猫?”“猫在哪里?”这样的指令对话,迫使模型去关注和定位每一个物体。
  • 调整Bbox分布: 通过分析发现,标准LMM的训练数据在处理不同尺寸、不同数量的物体时存在偏差。他们通过特定的采样策略,调整了训练数据中边界框(Bounding Box)的分布,使其更接近真实检测场景。

预测框与真实框的分布对比

2. 推理优化 (推理优化)

在推理阶段,LMM-Det同样引入了优化策略。标准的LMM在面对一张包含多个物体的图片时,可能会因为“注意力不集中”而只描述其中一部分。LMM-Det通过一种多轮查询(Multi-turn Query)的策略,引导模型系统性地、逐类别地去检查图片中是否存在某个类别的物体,从而显著减少漏检。

 

实验结果与分析

LMM-Det的有效性在COCO等标准数据集上得到了充分验证。

 

在COCO数据集上的零样本检测结果,LMM-Det远超其他不带专业检测器的LMM
实验结果表明,仅通过LMM-Det提出的优化策略,就能让LLaVA-7B这样的通用LMM在零样本目标检测任务上,性能远超其他同样没有外挂检测器的LMM,甚至逼近了一些需要外挂专业检测器的模型。

 

在COCO上进一步微调LMM-Det,并与传统检测模型及依赖外部检测专家的多模态模型进行对比
消融实验也清晰地证明了“数据分布调整”和“推理优化”这两个核心组件的有效性,二者结合能够带来最大的性能提升。

 

消融实验结果,证明了DDA和INO两个模块的有效性
更重要的是,LMM-Det在赋予LMM强大检测能力的同时,完全保留了其原有的多模态对话和推理能力,真正实现了一个模型、多种用途。

上图展示了LMM-Det在COCO验证集上的检测效果可视化结果,证明其无需额外专业检测器即可实现目标检测。

 

聊天示例表明,LMM-Det在具备检测能力的同时,保持了强大的对话能力

多功能LMM-Det的定量结果

定性(上图)与定量(上表)结果共同表明LMM-Det†具备多任务兼容性:既能激活检测能力,又可保持图像描述和视觉问答的高性能表现。

 

论文贡献与价值

LMM-Det的提出,为多模态AI的发展带来了重要的启发和贡献:

  1. 范式转变: 首次系统性地证明了LMM无需依赖外部专业模块,其自身就具备强大的、可被激发的原生检测能力。这为构建更简洁、更通用、更一体化的AI系统指明了新的方向。
  2. 深刻洞察: 通过详尽的实验分析,揭示了召回率低下是限制LMM检测能力的核心瓶颈,并提出了针对性的、有效的解决方案。
  3. 简洁高效: LMM-Det的优化策略简单、高效,易于在现有的各种LMM上进行部署和扩展。
  4. 全面开源: 研究团队称将开源全部的数据集、模型和代码,将极大地推动社区对LMM原生能力的研究和探索。

总而言之,LMM-Det的工作重新审视了LMM的潜力。与其不断地给LMM“打补丁”、“加外挂”,不如更深入地去理解和挖掘其内在的、尚未被完全开发的巨大潜能。