破解AI产品“同质化”难题，让AI“看得更细、改得更准”：360人工智能研究院两项成果入选ICML 2026

360 AI Research 2026-05-06 141 阅读

国际机器学习顶级会议ICML（International Conference on Machine Learning）于五一假期首日公布了2026届会议论文接收结果，360人工智能研究院的两项最新研究成果成功入选，体现了研究院在基础技术方向上的持续积累与国际同行认可。ICML与NeurIPS、ICLR并称为机器学习领域最具影响力的三大顶级会议之一，今年共收到创纪录的近2.4万篇有效投稿，接收率仅为26.6%。

论文成果本身并不是最终目标，随着AI大模型能力的普及，通用能力之间的差距正在快速缩小，AI产品在功能和体验上逐渐趋同，“能做什么”不再构成壁垒，真正的挑战转向“能否做得更细、更可控、更贴近具体场景”。在这一背景下，底层模型能力是否具备差异化，开始直接决定产品的竞争力。

研究院本次入选的两项工作，分别聚焦多模态生成中的“可控编辑能力”和多模态理解中的“细粒度对齐能力”，对应解决“生成结果不可控”和“视觉理解不够精细”这两个制约实际落地的关键问题，为业务构建可感知、可落地的差异化能力。

1. 从“生成结果”走向“可控编辑”：RevealLayer让图像不仅能“看”，更能“拆”与“控”

当前主流图像生成模型已经能够“生成好看的图”，但在实际业务中，一个更关键的问题是：能否精确控制生成/编辑结果。例如在设计、电商、内容生产等场景中，用户往往不只是要“一张图”，更是要“改这张图里的某个具体部分”。

RevealLayer: Disentangling Hidden and Visible Layers via Occlusion-Aware Image Decomposition工作，正是针对这一问题提出的一种新范式。简单理解，它做的不是“生成一张图”，而是把一张图拆解成多个可编辑的图层（类似PS中的图层结构），并且每一层都带有透明信息（RGBA）。 1280X1280

1280X1280 (1)_副本

其核心突破在于三点：

图层级别的可控分解：通过区域感知注意力（Region-Aware Attention），模型可以把“前景/背景/遮挡关系”拆清楚，而不是混在一起；
遮挡内容的真实还原：利用Occlusion-Guided机制，可以“补全被遮挡的部分”，例如被前景挡住的背景或者被目标A遮挡的目标B；
边界精确到像素级：通过alpha约束损失，解决传统方法中常见的边缘模糊、残影问题；

这项技术让图像从“不可拆的结果”，变成“可编辑的精细结构”。带来的直接价值是：实现真正的“指哪改哪”——不仅知道哪里是目标，还能单独操作该部分，同时保证整体一致性。这一能力可以支撑AIGC创新业务，构建区别于通用模型的高可控生成与编辑能力。在“All in Agent”的战略下，它也是实现“可执行视觉操作”的关键基础能力——Agent不仅能理解，还能精确修改视觉世界。

2. 从“看懂大概”走向“看懂细节”：FG-CLIP 2 新一代的图文跨模态VLM模型

如果说生成侧的问题是“不可控”，那么理解侧的核心问题是：不够精细。以CLIP模型为代表的第一代视觉-语言模型，已经能够完成“图文匹配”“检索”等任务，但它们普遍存在一个问题：只理解“整体语义”，却难以区分细节差异，从基础能力上就为当前的的互联网搜索、推荐及广告匹配和转化设下了很难提高的“天花板”。

FG-CLIP 2是25年研究院细粒度图文对齐模型FG-CLIP工作的第二代模型，从训练范式、目标函数到数据生态对上一代模型进行了全面革新，从源头解决了CLIP的近视和粗粒度词袋效应，补齐了业界亟需的中文能力支持，在8大类多达29项的benchmark评测上，FG-CLIP 2超越包括SigLIP 2 和 MetaCLIP 2在内的最新强力基线，双语性能达到全球第一。

这项技术让视觉理解从“只能看懂大概”，变成“能够对细节进行精确对齐和区分”。带来的直接价值是：实现真正的“看得准、分得清”——不仅知道图里有什么，还能准确理解“哪一个对象、什么属性、处在什么位置”，并区分细微但关键的语义差异。这一能力可以支撑互联网、商业化、办公云盘等核心业务中的内容理解与匹配，显著提升检索、推荐和交互的精度。在“All in Agent”的战略下，它是实现“可靠视觉感知”的关键基础能力——Agent不仅能“看到”，还能够准确理解复杂场景中的细节与关系，从而做出更稳定、更可信的决策。

3. 差异化AI能力是未来业务破局的关键

AI行业当前的一个现实是，大模型技术虽然极大降低了AI应用的门槛，但也让整个行业陷入了严重的产品同质化困局。当大家都在调用相似的通用模型、提供雷同的功能时，如何让产品突破内卷已经成为AI从业者在“跟随”头部奔跑的同时必须审视的关键问题。

360人工智能研究院在ICML 2026上的两项成果，围绕“可感知、可落地的差异化AI能力”展开，不仅是我们在多模态前沿领域的探索，更代表了我们在解决业务实际痛点上的思考和沉淀。

上述两项工作将陆续在研究院AI能力平台（research.360.cn/workspace）上面向集团内外开放接入，欢迎关注和试用。

返回博客列表