图文跨模态检索(cross-modal model)
支持基于内容语义的文->图、图->文检索 以及 文->文、图->图检索及向量化,解决传统检索依赖于关键词匹配的瓶颈,应用于互联网搜索、推荐,文档智能检索,安防视频智能监控等业务场景。独有的细粒度理解能力,可以实现基于长文本的图文检索,并实现细节属性的重排序区分。
开放世界目标检测(open-vocabulary object detection)
区别于传统的专模专用,开放世界目标检测支持开放集的目标定义,根据用户的输入指令实现任意指定目标的检测,具有优秀的泛化通用能力,免除传统模型需要针对不同项目单独开发周期长难度高的难题。
多模态大模型(large multimodal model)
解决LLM只能理解和处理文本数据的限制,针对通用领域的图像和视频具有优秀的泛化能力。独有的细粒度目标检测能力,弥补了当前多模态大模型普遍存在的能力短板。