ICCV 2025 | LMM-Det：释放大模型原生检测力，告别外挂检测器

360 AI Research 2025-08-05 215 阅读

大型多模态模型（LMMs）无疑是当前AI领域最炙手可热的明星，它们在图像描述、视觉问答等任务上展现出的强大理解和推理能力，令人惊叹。然而，当面对一个基础但至关重要的视觉任务-目标检测（Object Detection）时，这些“通才”LMMs的表现却常常被专业的“专才”检测器远远甩在身后。

为了弥补这一差距，传统方法通常是给LMM“外挂”一个强大的、专门的检测模块。但这种方式不仅使系统变得复杂臃肿，也偏离了构建通用、统一AI模型的初衷。近日，360 AI研究院一篇被计算机视觉顶会[ICCV 2025]接收的论文《LMM-Det: Make Large Multimodal Models Excel in Object Detection》提出了一种截然不同的思路。研究者们提出了一个名为LMM-Det的简洁而高效的框架，首次证明了LMM无需任何额外的检测模块，仅通过激发和优化其自身潜力，就能胜任目标检测任务，并取得了与专业检测器相媲美的性能。

论文标题： LMM-Det：让大型多模态模型在物体检测中表现出色
**所属机构：**360 AI研究院
论文地址：https://arxiv.org/pdf/2507.18300v10v1
项目地址：https://github.com/360CVGroup/LMM-DetMM-Det
录用会议： ICCV 2025

研究背景与意义

当前，让LMM具备目标检测能力的主流方法，通常是在其前端或后端集成一个专门的检测器（如DETR系列）。这种“LMM+检测器”的混合模式虽然有效，但存在明显弊端：

架构复杂： 引入了额外的、沉重的检测模块，增加了系统的复杂度和维护成本。
能力割裂： 检测能力并非LMM原生具备，而是由外部模块提供，这与追求模型通用性、一体化的目标背道而驰。

LMM-Det的研究者们大胆地提出了一个核心主张：LMM本身就蕴含着强大的检测能力，只是没有被正确地“解锁”。他们的目标，就是摒弃外挂，通过一系列精心设计的优化策略，让LMM“无师自通”目标检测。

LMM-Det（c）与其他需要外挂区域生成器（a）或专业检测器（b）的LMM的对比

核心方法：LMM-Det

研究者首先通过深入的探索性实验，剖析了标准LMM（以LLaVA为例）在目标检测任务上表现不佳的根源。他们发现，最核心的问题在于召回率（Recall Rate）的急剧下降。简单来说，就是模型“看漏”了太多本应被检测出来的物体。

上图专业检测器与多模态大模型在COCO验证集上的检测效果可视化对比，当使用提示语"若图像中存在该语句描述区域，请提供其边界框坐标：<类别>"时，LLaVA[23]在检测所有物体方面表现欠佳——每次查询仅生成少量边界框且大多不准确，致使目标检测任务的召回率较低。
针对这一核心痛点，LMM-Det提出了一套组合拳，旨在全面提升模型的召回率和整体检测性能。

1. 数据分布调整

研究者发现，LMM在预训练和指令微调阶段接触到的数据，其目标分布与专门的检测数据集（如COCO）存在巨大差异。为了让模型“适应”检测任务的数据模式，他们对训练数据进行了重新组织和增强：

**重新组织指令对话：**将传统的、描述性的图文对数据，改造成更符合检测任务的“问答”形式，例如，将一张包含多个物体的图片，拆解成多个“图片中是否有猫？”“猫在哪里？”这样的指令对话，迫使模型去关注和定位每一个物体。
调整Bbox分布： 通过分析发现，标准LMM的训练数据在处理不同尺寸、不同数量的物体时存在偏差。他们通过特定的采样策略，调整了训练数据中边界框（Bounding Box）的分布，使其更接近真实检测场景。

预测框与真实框的分布对比

2. 推理优化 (推理优化)

在推理阶段，LMM-Det同样引入了优化策略。标准的LMM在面对一张包含多个物体的图片时，可能会因为“注意力不集中”而只描述其中一部分。LMM-Det通过一种多轮查询（Multi-turn Query）的策略，引导模型系统性地、逐类别地去检查图片中是否存在某个类别的物体，从而显著减少漏检。

实验结果与分析

LMM-Det的有效性在COCO等标准数据集上得到了充分验证。

在COCO数据集上的零样本检测结果，LMM-Det远超其他不带专业检测器的LMM
实验结果表明，仅通过LMM-Det提出的优化策略，就能让LLaVA-7B这样的通用LMM在零样本目标检测任务上，性能远超其他同样没有外挂检测器的LMM，甚至逼近了一些需要外挂专业检测器的模型。

在COCO上进一步微调LMM-Det，并与传统检测模型及依赖外部检测专家的多模态模型进行对比
消融实验也清晰地证明了“数据分布调整”和“推理优化”这两个核心组件的有效性，二者结合能够带来最大的性能提升。

消融实验结果，证明了DDA和INO两个模块的有效性
更重要的是，LMM-Det在赋予LMM强大检测能力的同时，完全保留了其原有的多模态对话和推理能力，真正实现了一个模型、多种用途。

上图展示了LMM-Det在COCO验证集上的检测效果可视化结果，证明其无需额外专业检测器即可实现目标检测。

聊天示例表明，LMM-Det在具备检测能力的同时，保持了强大的对话能力

多功能LMM-Det的定量结果

定性（上图）与定量（上表）结果共同表明LMM-Det†具备多任务兼容性：既能激活检测能力，又可保持图像描述和视觉问答的高性能表现。

论文贡献与价值

LMM-Det的提出，为多模态AI的发展带来了重要的启发和贡献：

范式转变： 首次系统性地证明了LMM无需依赖外部专业模块，其自身就具备强大的、可被激发的原生检测能力。这为构建更简洁、更通用、更一体化的AI系统指明了新的方向。
深刻洞察： 通过详尽的实验分析，揭示了召回率低下是限制LMM检测能力的核心瓶颈，并提出了针对性的、有效的解决方案。
简洁高效： LMM-Det的优化策略简单、高效，易于在现有的各种LMM上进行部署和扩展。
全面开源： 研究团队称将开源全部的数据集、模型和代码，将极大地推动社区对LMM原生能力的研究和探索。

总而言之，LMM-Det的工作重新审视了LMM的潜力。与其不断地给LMM“打补丁”、“加外挂”，不如更深入地去理解和挖掘其内在的、尚未被完全开发的巨大潜能。

返回博客列表