Application Scenarios
应用场景
覆盖多种业务需求,赋能企业智能化升级
信息检索
输入文字描述,模型匹配最相符图片。上传图片,模型可以检索出相关的文本或图像。
个性化推荐
模型能结合用户的文本行为和视觉行为,构建更全面的用户兴趣画像。
安防视频语义监控
输入文本指令,模型可分析监控视频,当出现匹配的视觉场景时自动触发警报。
文档智能检索
针对包含图文混合内容的文档,模型可以实现精准的跨模态检索和理解。
Model Features
模型特点
前沿技术架构,卓越性能表现
01
长文本驱动的跨模态检索
模型能够解析复杂语义上下文,显著提升开放词汇场景下的检索精度。
02
细节属性感知
模型可精准区分材质、纹理、姿态等细微属性差异,突破传统关键词匹配的局限性。
03
多场景业务适配
可部署于跨模态信息检索、个性化推荐及安防视频语义监控等场景。
Benchmark Results
模型效果
FG-CLIP v2在细粒度理解、开放词汇目标检测、区域图像分类、长短文本图文检索以及通用多模态基准测试等多个下游任务中均显著优于现有模型。

英文场景 Benchmark 结果

中文场景 Benchmark 结果
Methodology
模型方法

FG-CLIP在传统双编码器架构基础上采用两阶段训练策略,有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐;次阶段引入区域对比学习与难细粒度负样本学习,利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力,从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。
FG-CLIP v2 版本新增了大量高质量中文数据,引入动态分辨率机制及精心设计的新一代损失函数,全面提升了模型在中英双语环境下的细粒度感知能力。