360人工智能研究院

多模态理解

图文跨模态检索（cross-modal model）

支持基于内容语义的文->图、图->文检索以及文->文、图->图检索及向量化，解决传统检索依赖于关键词匹配的瓶颈，应用于互联网搜索、推荐，文档智能检索，安防视频智能监控等业务场景。独有的细粒度理解能力，可以实现基于长文本的图文检索，并实现细节属性的重排序区分。

开放世界目标检测（open-vocabulary object detection）

区别于传统的专模专用，开放世界目标检测支持开放集的目标定义，根据用户的输入指令实现任意指定目标的检测，具有优秀的泛化通用能力，免除传统模型需要针对不同项目单独开发周期长难度高的难题。

多模态大模型（large multimodal model）

解决LLM只能理解和处理文本数据的限制，针对通用领域的图像和视频具有优秀的泛化能力。独有的细粒度目标检测能力，弥补了当前多模态大模型普遍存在的能力短板。

多模态生成

通用图像生成

文生图基座模型，具备原生中文支持和优秀的指令遵循能力，独有的异构DiT模型可以大幅降低每幅图片生成的推理时间和推理成本。

可控图像生成

在文字控制条件之外，独有支持复杂多主体目标的布局可控，满足专业设计生产中对画面布局的控制需求。

可控图像编辑

支持图像外扩/补全，局部细节修改，更换背景，修改属性等多样化图像编辑能力，独有支持细小文字的超分放大能力。

知识管理

智能文档解析技术

是将非结构化或半结构化的文档内容转化为结构化数据的过程。这一过程涉及文本识别、自然语言处理（NLP）、机器学习等多个领域的综合应用。通过解析，我们可以从复杂的文档中提取出关键信息，如文本内容、表格数据、图像描述等，为后续的数据分析、模型训练提供有力支持。

智能应用

是一系列基于基础大模型的高级服务，旨在提供用户友好的交互体验和高效的信息处理能力。通过集成MLM和LLM模型，实现对用户查询的深入理解和对数据的高效处理。这些应用利用模型的学习能力，提供个性化服务和深度分析。