FG-CLIP v2 base

FG-CLIP v2模型具备多模态检索能力，包括长文本检索，短文本检索，图像细粒度检索等跨模态检索能力，同时，文本支持多种语言输入，包括英文输入和中文输入等，并提供高效的特征向量化接口。支持基于内容语义的文->图、图->文检索以及文->文、图->图检索及向量化，解决传统检索依赖于关键词匹配的瓶颈，应用于互联网搜索、推荐，文档智能检索，安防视频智能监控等业务场景。独有的细粒度理解能力，可以实现基于长文本的图文检索，并实现细节属性的重排序区分。

模型方法

FG-CLIP在传统双编码器架构基础上采用两阶段训练策略，有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐；次阶段引入区域对比学习与难细粒度负样本学习，利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力，从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。

FG-CLIP v2 版本新增了大量高质量中文数据，引入动态分辨率机制及精心设计的新一代损失函数，全面提升了模型在中英双语环境下的细粒度感知能力。

评测结果

FG-CLIP v2在细粒度理解、开放词汇目标检测、区域图像分类、长短文本图文检索以及通用多模态基准测试等多个下游任务中均显著优于现有模型。

英文场景benchmark结果：

中文场景benchmark结果：

🚀 针对FG-CLIP的能力，360 AI研究院制作了一个demo，可实现细粒度检索功能，详见FG-CLIP demo。

用户可输入一张图片和多条文本进行检索，其中文本使用","进行间隔，模型可给出当前图片与不同文本的对应得分。下图为一个测试用例，可以看到，在名词、动作、属性不同的情况下，模型可以找出和图片最贴切的文本

🚀 下图为FG-CLIP v2可视化示例。通过计算text特征与每个image patch特征的相似度，构建了针对输入图像attention map的可视化图，其中越明亮的颜色代表更大的相似度。可以看到，对FG-CLIP v2模型进行不同的中英文本输入，模型能够很好的给出不同目标的位置，这得益于FG-CLIP v2对文本+图像的细粒度理解。

模型特点

长文本驱动的跨模态检索：模型能够解析复杂语义上下文，显著提升开放词汇场景下的检索精度。

细节属性感知：模型可精准区分材质、纹理、姿态等细微属性差异，突破传统关键词匹配的局限性。

多场景业务适配：可部署于跨模态信息检索系统、个性化推荐引擎及安防视频语义监控等场景，实现从“表层关联”到“深层理解”的范式升级。

模型价格

input

¥0.42 / 1M tokens

output

¥0 / 1M tokens

请先登录

FG-CLIP v2 base