请先登录
立即登录
FG-CLIP v2 base
FG-CLIPv2模型具备多模态检索能力,包括长文本检索,短文本检索,图像细粒度检索等跨模态检索能力,同时,文本支持多种语言输入,包括英文输入和中文输入等,并提供高效的特征向量化接口。支持基于内容语义的文->图、图->文检索 以及 文->文、图->图检索及向量化,解决传统检索依赖于关键词匹配的瓶颈,应用于互联网搜索、推荐,文档智能检索,安防视频智能监控等业务场景。独有的细粒度理解能力,可以实现基于长文本的图文检索,并实现细节属性的重排序区分。
FG-CLIP v2在细粒度理解、开放词汇目标检测、区域图像分类、长短文本图文检索以及通用多模态基准测试等多个下游任务中均显著优于现有模型。
🚀 针对FG-CLIP的能力,360 AI研究院制作了一个demo,可实现细粒度检索功能,详见FG-CLIP demo。
用户可输入一张图片和多条文本进行检索,其中文本使用","进行间隔,模型可给出当前图片与不同文本的对应得分。下图为一个测试用例,可以看到,在名词、动作、属性不同的情况下,模型可以找出和图片最贴切的文本
🚀 下图为FG-CLIP v2可视化示例。通过计算text特征与每个image patch特征的相似度,构建了针对输入图像attention map的可视化图,其中越明亮的颜色代表更大的相似度。可以看到,对FG-CLIP v2模型进行不同的中英文本输入,模型能够很好的给出不同目标的位置,这得益于FG-CLIP v2对文本+图像的细粒度理解。

长文本驱动的跨模态检索:模型能够解析复杂语义上下文,显著提升开放词汇场景下的检索精度。
细节属性感知:模型可精准区分材质、纹理、姿态等细微属性差异,突破传统关键词匹配的局限性。
多场景业务适配:可部署于跨模态信息检索系统、个性化推荐引擎及安防视频语义监控等场景,实现从“表层关联”到“深层理解”的范式升级。