多模态理解

图文跨模态检索(cross-modal model)
支持基于内容语义的文->图、图->文检索 以及 文->文、图->图检索及向量化,解决传统检索依赖于关键词匹配的瓶颈,应用于互联网搜索、推荐,文档智能检索,安防视频智能监控等业务场景。独有的细粒度理解能力,可以实现基于长文本的图文检索,并实现细节属性的重排序区分。
开放世界目标检测(open-vocabulary object detection)
区别于传统的专模专用,开放世界目标检测支持开放集的目标定义,根据用户的输入指令实现任意指定目标的检测,具有优秀的泛化通用能力,免除传统模型需要针对不同项目单独开发周期长难度高的难题。
多模态大模型(large multimodal model)
解决LLM只能理解和处理文本数据的限制,针对通用领域的图像和视频具有优秀的泛化能力。独有的细粒度目标检测能力,弥补了当前多模态大模型普遍存在的能力短板。

多模态生成

通用图像生成
文生图基座模型,具备原生中文支持和优秀的指令遵循能力,独有的异构DiT模型可以大幅降低每幅图片生成的推理时间和推理成本。
可控图像生成
在文字控制条件之外,独有支持复杂多主体目标的布局可控,满足专业设计生产中对画面布局的控制需求。
可控图像编辑
支持图像外扩/补全,局部细节修改,更换背景,修改属性等多样化图像编辑能力,独有支持细小文字的超分放大能力。

知识管理

智能文档解析技术
是将非结构化或半结构化的文档内容转化为结构化数据的过程。这一过程涉及文本识别、自然语言处理(NLP)、机器学习等多个领域的综合应用。通过解析,我们可以从复杂的文档中提取出关键信息,如文本内容、表格数据、图像描述等,为后续的数据分析、模型训练提供有力支持。
智能应用
是一系列基于基础大模型的高级服务,旨在提供用户友好的交互体验和高效的信息处理能力。通过集成MLM和LLM模型,实现对用户查询的深入理解和对数据的高效处理。这些应用利用模型的学习能力,提供个性化服务和深度分析。