多模态理解模型

图文跨模态模型
FG-CLIP v2 base

FG-CLIPv2模型具备多模态检索能力,包括长文本检索,短文本检索,图像细粒度检索等跨模态检索能力,同时,文本支持多种语言输入,包括英文输入和中文输入等,并提供高效的特征向量化接口。支持基于内容语义的文->图、图->文检索 以及 文->文、图->图检索及向量化,解决传统检索依赖于关键词匹配的瓶颈,应用于互联网搜索、推荐,文档智能检索,安防视频智能监控等业务场景。独有的细粒度理解能力,可以实现基于长文本的图文检索,并实现细节属性的重排序区分。

应用场景

覆盖多种业务需求,赋能企业智能化升级

信息检索

个性化推荐

安防视频语义监控

文档智能检索

模型特点

前沿技术架构,卓越性能表现

01

长文本驱动的跨模态检索

模型能够解析复杂语义上下文,显著提升开放词汇场景下的检索精度。

02

细节属性感知

模型可精准区分材质、纹理、姿态等细微属性差异,突破传统关键词匹配的局限性。

03

多场景业务适配

可部署于跨模态信息检索系统、个性化推荐引擎及安防视频语义监控等场景,实现从「表层关联」到「深层理解」的范式升级。

评测结果

多维度权威评测,全面展示模型实力

英文场景benchmark结果

英文场景 Benchmark 结果

中文场景benchmark结果

中文场景 Benchmark 结果

模型方法

模型方法

FG-CLIP在传统双编码器架构基础上采用两阶段训练策略,有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐;次阶段引入区域对比学习与难细粒度负样本学习,利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力,从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。 FG-CLIP v2 版本新增了大量高质量中文数据,引入动态分辨率机制及精心设计的新一代损失函数,全面提升了模型在中英双语环境下的细粒度感知能力。

立即体验 FG-CLIP v2 base

注册即可获得免费额度,快速接入 API 开始使用

免费开始