破解AI产品“同质化”难题,让AI“看得更细、改得更准”:360人工智能研究院两项成果入选ICML 2026

360 AI Research
2026-05-06 32 阅读
破解AI产品“同质化”难题,让AI“看得更细、改得更准”:360人工智能研究院两项成果入选ICML 2026

国际机器学习顶级会议ICML(International Conference on Machine Learning)于五一假期首日公布了2026届会议论文接收结果,360人工智能研究院的两项最新研究成果成功入选,体现了研究院在基础技术方向上的持续积累与国际同行认可。ICML与NeurIPS、ICLR并称为机器学习领域最具影响力的三大顶级会议之一,今年共收到创纪录的近2.4万篇有效投稿,接收率仅为26.6%。

论文成果本身并不是最终目标,随着AI大模型能力的普及,通用能力之间的差距正在快速缩小,AI产品在功能和体验上逐渐趋同,“能做什么”不再构成壁垒,真正的挑战转向“能否做得更细、更可控、更贴近具体场景”。在这一背景下,底层模型能力是否具备差异化,开始直接决定产品的竞争力

研究院本次入选的两项工作,分别聚焦多模态生成中的“可控编辑能力”和多模态理解中的“细粒度对齐能力”,对应解决“生成结果不可控”和“视觉理解不够精细”这两个制约实际落地的关键问题,为业务构建可感知、可落地的差异化能力。

1. 从“生成结果”走向“可控编辑”:RevealLayer让图像不仅能“看”,更能“拆”与“控”

当前主流图像生成模型已经能够“生成好看的图”,但在实际业务中,一个更关键的问题是:能否精确控制生成/编辑结果。例如在设计、电商、内容生产等场景中,用户往往不只是要“一张图”,更是要“改这张图里的某个具体部分”。

RevealLayer: Disentangling Hidden and Visible Layers via Occlusion-Aware Image Decomposition工作,正是针对这一问题提出的一种新范式。简单理解,它做的不是“生成一张图”,而是把一张图拆解成多个可编辑的图层(类似PS中的图层结构),并且每一层都带有透明信息(RGBA)。 1280X1280

1280X1280 (1)_副本

其核心突破在于三点:

  • 图层级别的可控分解:通过区域感知注意力(Region-Aware Attention),模型可以把“前景/背景/遮挡关系”拆清楚,而不是混在一起;

  • 遮挡内容的真实还原:利用Occlusion-Guided机制,可以“补全被遮挡的部分”,例如被前景挡住的背景或者被目标A遮挡的目标B;

  • 边界精确到像素级:通过alpha约束损失,解决传统方法中常见的边缘模糊、残影问题;

这项技术让图像从“不可拆的结果”,变成“可编辑的精细结构”。带来的直接价值是:实现真正的“指哪改哪”——不仅知道哪里是目标,还能单独操作该部分,同时保证整体一致性。这一能力可以支撑AIGC创新业务,构建区别于通用模型的高可控生成与编辑能力。在“All in Agent”的战略下,它也是实现“可执行视觉操作”的关键基础能力——Agent不仅能理解,还能精确修改视觉世界。

2. 从“看懂大概”走向“看懂细节”:FG-CLIP 2 新一代的图文跨模态VLM模型

如果说生成侧的问题是“不可控”,那么理解侧的核心问题是:不够精细。以CLIP模型为代表的第一代视觉-语言模型,已经能够完成“图文匹配”“检索”等任务,但它们普遍存在一个问题: 只理解“整体语义”,却难以区分细节差异,从基础能力上就为当前的的互联网搜索、推荐及广告匹配和转化设下了很难提高的“天花板”。

FG-CLIP 2是25年研究院细粒度图文对齐模型FG-CLIP工作的第二代模型,从训练范式、目标函数到数据生态对上一代模型进行了全面革新,从源头解决了CLIP的近视和粗粒度词袋效应,补齐了业界亟需的中文能力支持,在8大类多达29项的benchmark评测上,FG-CLIP 2超越包括SigLIP 2 和 MetaCLIP 2在内的最新强力基线,双语性能达到全球第一

这项技术让视觉理解从“只能看懂大概”,变成“能够对细节进行精确对齐和区分”。带来的直接价值是:实现真正的“看得准、分得清”——不仅知道图里有什么,还能准确理解“哪一个对象、什么属性、处在什么位置”,并区分细微但关键的语义差异。这一能力可以支撑互联网、商业化、办公云盘等核心业务中的内容理解与匹配,显著提升检索、推荐和交互的精度。在“All in Agent”的战略下,它是实现“可靠视觉感知”的关键基础能力——Agent不仅能“看到”,还能够准确理解复杂场景中的细节与关系,从而做出更稳定、更可信的决策。

3. 差异化AI能力是未来业务破局的关键

AI行业当前的一个现实是,大模型技术虽然极大降低了AI应用的门槛,但也让整个行业陷入了严重的产品同质化困局。当大家都在调用相似的通用模型、提供雷同的功能时,如何让产品突破内卷已经成为AI从业者在“跟随”头部奔跑的同时必须审视的关键问题。

360人工智能研究院在ICML 2026上的两项成果,围绕“可感知、可落地的差异化AI能力”展开,不仅是我们在多模态前沿领域的探索,更代表了我们在解决业务实际痛点上的思考和沉淀。

上述两项工作将陆续在研究院AI能力平台(research.360.cn/workspace)上面向集团内外开放接入,欢迎关注和试用。