多模态理解模型

图文跨模态模型
FG-CLIP v2 base

FG-CLIP v2模型具备多模态检索能力，包括长文本检索，短文本检索，图像细粒度检索等跨模态检索能力，同时，文本支持多种语言输入，包括英文输入和中文输入等，并提供高效的特征向量化接口。支持基于内容语义的文->图、图->文检索以及文->文、图->图检索及向量化，解决传统检索依赖于关键词匹配的瓶颈，应用于互联网搜索、推荐，文档智能检索，安防视频智能监控等业务场景。独有的细粒度理解能力，可以实现基于长文本的图文检索，并实现细节属性的重排序区分。

免费体验阅读论文

Application Scenarios

应用场景

覆盖多种业务需求，赋能企业智能化升级

信息检索

输入文字描述，模型匹配最相符图片。上传图片，模型可以检索出相关的文本或图像。

个性化推荐

模型能结合用户的文本行为和视觉行为，构建更全面的用户兴趣画像。

安防视频语义监控

输入文本指令，模型可分析监控视频，当出现匹配的视觉场景时自动触发警报。

文档智能检索

针对包含图文混合内容的文档，模型可以实现精准的跨模态检索和理解。

Model Features

模型特点

前沿技术架构，卓越性能表现

长文本驱动的跨模态检索

模型能够解析复杂语义上下文，显著提升开放词汇场景下的检索精度。

细节属性感知

模型可精准区分材质、纹理、姿态等细微属性差异，突破传统关键词匹配的局限性。

多场景业务适配

可部署于跨模态信息检索、个性化推荐及安防视频语义监控等场景。

Benchmark Results

模型效果

FG-CLIP v2在细粒度理解、开放词汇目标检测、区域图像分类、长短文本图文检索以及通用多模态基准测试等多个下游任务中均显著优于现有模型。

英文场景 Benchmark 结果

中文场景 Benchmark 结果

Methodology

模型方法

FG-CLIP在传统双编码器架构基础上采用两阶段训练策略，有效提升了视觉语言模型的细粒度理解能力。首阶段通过全局对比学习实现图文表征的初步对齐；次阶段引入区域对比学习与难细粒度负样本学习，利用区域-文本数据及细粒度难样本数据深化模型对视觉细节与文本细节的感知能力，从而在保持全局语义理解的同时实现了对局部特征的精准捕捉。

FG-CLIP v2 版本新增了大量高质量中文数据，引入动态分辨率机制及精心设计的新一代损失函数，全面提升了模型在中英双语环境下的细粒度感知能力。

立即体验 FG-CLIP v2 base

注册即可获得免费额度，快速接入 API 开始使用

免费开始

图文跨模态模型 FG-CLIP v2 base