企业级多模态嵌入模型

多模态嵌入模型
RzenEmbed

多模态嵌入模型 RzenEmbed,突破多模态检索壁垒,重点发力企业文档智能,可为文本、图像、视频、图文混排文档等多种模态生成统一、高质量语义向量,适用于跨模态检索、多模态 RAG 与复杂文档理解场景。

应用场景

统一语义向量能力,覆盖检索、RAG、文档理解与推荐

跨模态检索

将文本、图片、视频统一映射到同一向量空间,实现 “以文搜图 / 视频、以图/视频搜文” 的跨模态精准匹配。

多模态RAG

知识库支持图文、视频、文档混合检索,为生成模型提供更丰富的多模态上下文,显著提升回答的准确性和全面性。

GUI Agent

将屏幕截图、界面元素与操作指令映射至同一向量空间,快速匹配相似操作场景与帮助文档,驱动智能界面交互。

智能推荐系统

统一编码图片、标题描述、正文、用户行为等多模态数据,计算个性化相似度,实现精准的内容与商品推荐。

模型特点

多语言、多模态与企业文档智能场景的核心优势

01

多语言多种模态精准检索

可理解中英文等多种语言的文字、图片、视频内容。可根据用户自定义指令,精准筛选特定模态、特定类型的语料。

02

极致存储与算力优化

按需维度裁剪,大幅降低向量存储占用与检索算力开销。内置 int8 无损量化能力,可进一步压缩 50% 以上存储空间,且不影响检索效果。

03

专为企业文档智能设计

企业级知识检索,为企业打造更精准、更全面、更智能的知识服务体系,让 AI 真正成为赋能业务增长的“超级大脑”。

模型效果

MMEB 与 VisDoc 权威评测结果

RzenEmbed MMEB 综合榜单结果

MMEB 综合榜单结果

RzenEmbed-v2-7B 在国际多模态 Embedding 评测基准 MMEB中,斩获总排名第一 + 单项第一的双料冠军。

RzenEmbed MMEB-V2 Benchmark 结果

MMEB-V2 Benchmark 结果

RzenEmbed 在 2B 和 7B 两个模型规模下都保持强竞争力,VisDoc 专项表现尤为突出。

技术亮点

两阶段训练、对比学习优化与模型融合等核心技术亮点

01

两阶段训练范式

RzenEmbed 采用“基础预训练 + 精细微调”的两阶段训练模式,通过高质量的训练数据,在通用能力与企业特定场景,如文档检索、视频分析等适配之间取得了卓越的平衡。

02

改进对比学习机制

通过假阴性缓解机制和基于相似度阈值的智能筛选策略,引入指数加权机制放大高相似度难样本的损失贡献,让模型精准捕捉细微差异。

03

可学习的“温度”参数

针对图像分类、文档检索、视频问答等 7 大类核心任务,分别设计独立的可学习温度参数,通过参数化方式为不同业务场景量身定制优化目标。

04

采用模型融合技术

先通过不同任务与方法训练多个专家模型,再通过模型融合技术合成一个强大的模型,仅需单次推理即可生成更具区分度的检索向量。

立即体验 RzenEmbed

注册即可获得免费额度,快速接入 API 开始使用

免费开始