以多模态技术破局,让大模型从炫技走向落地 —— 360人工智能研究院年度技术总结
2025年,是大模型技术从"暴力美学"走向"精耕细作"的关键之年,360 人工智能研究院始终以 “解决真实场景痛点” 为核心,承担多模态模型的战略研发任务,在多模态理解、多模态生成、端侧推理优化、企业级智能检索等方向持续突破。
本文将带您走进AI研究院的2025,一起回顾研究院2025年的代表性工作。这些创新成果已成功在集团内外部多个关键业务场景中实现深度落地应用,有效驱动了业务智能化升级。更多关于研究成果的详细解读与技术细节,敬请访问360人工智能研究院官网(research.360.cn)。
- 01 -
11月| FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM,8大类29项任务双语性能全球第一
360人工智能研究院发布并开源图文跨模态模型FG-CLIP 2,从算法底层创新性地解决了长久以来跨模态模型缺乏图文细粒度理解能力的顽疾,在涵盖长、短文本图文检索、开放世界目标检测等在内的8大类29项权威公开基准测试中,全面超越了科技巨头Google的SigLIP 2与Meta的MetaCLIP2,这是中国AI团队在AI基础模型领域取得的一次新的突破。
这项工作让模型不仅能识别图像中的主体,还能更准确地理解其中的属性、关系与语义,为 AI 的视觉语言理解能力迈向“更清晰、更精准”开启了新的篇章。

英文benchmark综合排名
FG-CLIP 2 论文地址:https://arxiv.org/pdf/2510.10921 FG-CLIP 2 模型、代码及数据集地址:https://360cvgroup.github.io/FG-CLIP FG-CLIP 2 API访问地址:https://research.360.cn/sass/fg-clip/fg-clipDocument
- 02 -
9月| 突破多模态检索壁垒,RzenEmbed重点发力企业文档智能
基于前期在跨模态理解与多模态大模型领域的长期积累,360人工智能研究院推出RzenEmbed 多模态 Embedding 模型,旨在为下一代RAG系统提供更精准、更全面的语义检索能力。该模型深度融合了团队在图文多模态检索、多模态文档理解、以及通用视觉语言建模等方向的技术沉淀,通过构建统一的语义嵌入空间,实现跨模态与混合模态的精准语义对齐,支持用户以 “单一模态”(如文本描述、单张图像)或 “模态组合”(如 “指令+文本+图像”)为检索条件,高效匹配其他模态的相关内容,解决传统检索中 “模态割裂”“上下文丢失” 等痛点。
在国际知名的多模态Embedding 评测基准 MMEB(Multi-Modal Embedding Benchmark)中,RzenEmbed 凭借卓越的综合性能脱颖而出,斩获总排名第一+ 单项第一的双料冠军。在最能体现企业级应用价值的VisDoc(多模态文档检索)专项测试中,RzenEmbed 以明显优势位居单项第一,充分证明了其在处理复杂办公文档场景时的核心竞争力。
RzenEmbed-v2-7B在MMEB榜单上获得总排名+单项双Top1的佳绩
项目地址:https://github.com/360CVGroup/RzenEmbed 论文地址:https://arxiv.org/abs/2510.27350 模型地址:https://huggingface.co/collections/qihoo360/rzenembed
- 03 -
7月| LMM-Det + PlanGen, 研究院两项工作入选ICCV2025
LMM-Det:让AI练就"火眼金睛"
这是首个不用额外插件就能精准定位照片中目标的多模态大模型。多模态大模型包括GPT-4o在内擅长图片内容的描述,但在目标的精确定位上一直远远落后于专业小模型。LMM-Det在保持多模态大模型图片描述能力的同时,将目前检测准确率提升至专业模型的水平,能够同时锁定"画面里的钥匙、远处的飞鸟、角落里的充电器",且识别速度比传统方案快2倍。
论文地址:https://arxiv.org/pdf/2507.18300v10v1
项目地址:https://github.com/360CVGroup/LMM-DetMM-Det
PlanGen模型为AI装上「空间规划脑」让图像生成更精准
PlanGen是行业首个能同时规划物体布局并生成图像的统一模型。从前AI在绘画场景时通常是“闭着眼瞎画”,缺乏空间规划能力。但在PlanGen的加持下,大模型就可以先想清楚不同物件的空间摆放位置后,再落笔生成画面。这种“先规划后创作”的能力可让图像生成更加精准,使得AI能严格按空间逻辑呈现,误差率比传统方法降低40%。
论文地址:https://arxiv.org/pdf/2503.10127
开源地址:https://360cvgroup.github.io/PlanGen/
- 04 -
5月| 告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
360人工智能研究院基于前期在多模态理解与多模态生成领域的工作积累,研发了新一代的图文跨模态模型FG-CLIP,攻克了显式双塔结构下图文信息的细粒度对齐难题。FG-CLIP同时具备图+文细粒度理解能力,文本细粒度能力可以有效区分目标细节属性的不同,如区分“a man with light blue jacket” vs “a man with grass green jacket”;图像细粒度能力可以有效对不同的图像局部区域进行理解,不会因图像裁切造成性能下降。FG-CLIP在关键的细粒度比对和细粒度理解上实现了大幅突破。
论文地址:https://www.arxiv.org/abs/2505.05071
开源地址:https://github.com/360CVGroup/FG-CLIP
- 05 -
3月| 高效DiT架构大幅降低图像生成模型的推理成本
在图像/视频生成领域,DiT结构已经取代UNet成为主流的模型框架。但是Diffusion Transformer模型由于全局self-attention,其计算复杂度与序列长度平方成正比,导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此360人工智能研究院提出了一种高效的DiT架构PT-DiT及DiT版本的ControlNet实现RelaCtrl,前者可以在高分辨率图像生成和长时长视频生成上实现接近200%的推理加速,后者则仅需常规模型的15%的参数即可实现更为优秀的可控生成效果。
论文地址:https://arxiv.org/pdf/2409.04005
项目主页:https://360cvgroup.github.io/Qihoo-T2X
代码仓库:https://github.com/360CVGroup/Qihoo-T2X
论文地址: https://arxiv.org/abs/2502.14377
项目主页: https://360cvgroup.github.io/RelaCtrl/
代码仓库: https://github.com/360CVGroup/RelaCtrl
- 结语 -
作为 AI 领域的技术实践者,360人工智能研究院将继续以 “解决真实问题” 为导向,让多模态技术不仅停留在论文中,更能走进产业、服务民生,持续探索多模态大模型发展的 “中国路径”。