360人工智能研究院 360人工智能研究院
  • 首页
    • FG-CLIP v2 base
  • 技术Blog
  • 关于我们
登录 免费注册
工作台

工作台

请先登录

立即登录
信息总览
API Keys 费用中心

Models

模型介绍 接口文档
FG-CLIP v2 base
FG-CLIP v2 base
Active

FG-CLIP v2 base

FG-CLIPv2模型具备多模态检索能力,包括长文本检索,短文本检索,图像细粒度检索等跨模态检索能力,同时,文本支持多种语言输入,包括英文输入和中文输入等,并提供高效的特征向量化接口。支持基于内容语义的文->图、图->文检索 以及 文->文、图->图检索及向量化,解决传统检索依赖于关键词匹配的瓶颈,应用于互联网搜索、推荐,文档智能检索,安防视频智能监控等业务场景。独有的细粒度理解能力,可以实现基于长文本的图文检索,并实现细节属性的重排序区分。

模型方法
FG-CLIP在传统双编码器架构基础上采用两阶段训练策略,有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐;次阶段引入区域对比学习与难细粒度负样本学习,利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力,从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。 FG-CLIP v2 版本新增了大量高质量中文数据,引入动态分辨率机制及精心设计的新一代损失函数,全面提升了模型在中英双语环境下的细粒度感知能力。
模型效果

FG-CLIP v2在细粒度理解、开放词汇目标检测、区域图像分类、长短文本图文检索以及通用多模态基准测试等多个下游任务中均显著优于现有模型。

英文场景benchmark结果:
中文场景benchmark结果:

🚀 针对FG-CLIP的能力,360 AI研究院制作了一个demo,可实现细粒度检索功能,详见FG-CLIP demo。

用户可输入一张图片和多条文本进行检索,其中文本使用","进行间隔,模型可给出当前图片与不同文本的对应得分。下图为一个测试用例,可以看到,在名词、动作、属性不同的情况下,模型可以找出和图片最贴切的文本

🚀 下图为FG-CLIP v2可视化示例。通过计算text特征与每个image patch特征的相似度,构建了针对输入图像attention map的可视化图,其中越明亮的颜色代表更大的相似度。可以看到,对FG-CLIP v2模型进行不同的中英文本输入,模型能够很好的给出不同目标的位置,这得益于FG-CLIP v2对文本+图像的细粒度理解。

模型特点

长文本驱动的跨模态检索:模型能够解析复杂语义上下文,显著提升开放词汇场景下的检索精度。

细节属性感知:模型可精准区分材质、纹理、姿态等细微属性差异,突破传统关键词匹配的局限性。

多场景业务适配:可部署于跨模态信息检索系统、个性化推荐引擎及安防视频语义监控等场景,实现从“表层关联”到“深层理解”的范式升级。

模型价格
input
¥0.42 / 1M tokens
output
¥0 / 1M tokens
并发请求数
64
360人工智能研究院 360人工智能研究院

让AI变得简单,让智能触手可及。

360人工智能研究院致力于前沿人工智能技术研发与创新。

订阅我们,了解更多资讯 RSS Blog Feed

联系我们

  • 010-52448983

    周一至周五 09:30 - 18:30

  • 北京市朝阳区酒仙桥路6号院

    电子城 · 国际电子城总部

  • 360ai@360.cn

模型开源

  • Github
  • Hugging Face

条款与政策

  • 用户协议
  • 隐私政策

Copyright©2026 360.CN All Rights Reserved 360互联网安全中心

京公网安备 11000002002063号 京ICP证080047号[京ICP备08010314号-6]