技术Blog
探索人工智能领域的最新研究成果与技术实践
揭秘FG-CLIP:细粒度+难负样本,高质量图文对齐数据集FineHARD开源发布
360人工智能研究院在最新跨模态对齐工作FG-CLIP模型开源的基础上,进一步将FG-CLIP成功背后的“达芬奇密码”:FineHARD高质量图…
告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
360人工智能研究院最新图文跨模态模型FG-CLIP,宣布以“长文本深度理解”和“细粒度视觉比对”双突破,彻底解决了传统CLIP模型的“视觉近视…
360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA!
该框架通过优化控制信号的集成方式,在Diffusion Transformer中实现了更加高效且资源优化的控制,从而有效解决了上述问题。 团队对…
ICLR 2025 | 计算量仅DiT的一半!一个模型架构搞定T2X任务
研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视频和M…
更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构Bridge Diffusion Model来了。 与Dream…
360人工智能研究院@AAAI:多模态理解与生成的生态思考与前沿探索
在人工智能的技术变革浪潮中,360集团从业务到研发全面拥抱AI技术,360人工智能研究院发挥自身的技术积累和智力优势,承担多模态理解和多模态生成…
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI
IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样,作为插件添加到基座的语言模型之上,从而实现在完全不影响语言…
NeurIPS2024 | 提高专业生产力,让你的AI画作布局可控,360 AI Research开源新模型HiCo
360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo,并将于近期开源。基于HiCo模型,使用者可以对生成…
性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了
中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的51.4%,Lumina-Next的17.5%。…
多模态模型‘遗忘’原有的语言能力,回答不详细、理解力下降!这个痛点你遇到过吗?
在AI训练中,是否遇到过多模态模型‘遗忘’原有语言能力的情况?模型回答不详细,文本理解力下降,让人头疼不已。360团队提出全新IAA结构,通过内…
冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!
提出了一种内部适配器结构(IAA),其设计宗旨在于提升大语言模型(LLM)在通用多模态理解和视觉定位等方面的能力。
RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好
开源社区又迎来一款强力的「视频生成」工作,可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不…