Application Scenarios
应用场景
覆盖多种业务需求,赋能企业智能化升级
信息检索
个性化推荐
安防视频语义监控
文档智能检索
Model Features
模型特点
前沿技术架构,卓越性能表现
长文本驱动的跨模态检索
模型能够解析复杂语义上下文,显著提升开放词汇场景下的检索精度。
细节属性感知
模型可精准区分材质、纹理、姿态等细微属性差异,突破传统关键词匹配的局限性。
多场景业务适配
可部署于跨模态信息检索系统、个性化推荐引擎及安防视频语义监控等场景,实现从「表层关联」到「深层理解」的范式升级。
Benchmark Results
评测结果
多维度权威评测,全面展示模型实力
英文场景 Benchmark 结果
中文场景 Benchmark 结果
Methodology
模型方法
FG-CLIP在传统双编码器架构基础上采用两阶段训练策略,有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐;次阶段引入区域对比学习与难细粒度负样本学习,利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力,从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。 FG-CLIP v2 版本新增了大量高质量中文数据,引入动态分辨率机制及精心设计的新一代损失函数,全面提升了模型在中英双语环境下的细粒度感知能力。