技术Blog
探索人工智能领域的最新研究成果与技术实践
ICLR 2025 | 计算量仅DiT的一半!一个模型架构搞定T2X任务
研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视频和M…
更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构Bridge Diffusion Model来了。 与Dream…
360人工智能研究院@AAAI:多模态理解与生成的生态思考与前沿探索
在人工智能的技术变革浪潮中,360集团从业务到研发全面拥抱AI技术,360人工智能研究院发挥自身的技术积累和智力优势,承担多模态理解和多模态生成…
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI
IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样,作为插件添加到基座的语言模型之上,从而实现在完全不影响语言…
NeurIPS2024 | 提高专业生产力,让你的AI画作布局可控,360 AI Research开源新模型HiCo
360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo,并将于近期开源。基于HiCo模型,使用者可以对生成…
性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了
中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的51.4%,Lumina-Next的17.5%。…
多模态模型‘遗忘’原有的语言能力,回答不详细、理解力下降!这个痛点你遇到过吗?
在AI训练中,是否遇到过多模态模型‘遗忘’原有语言能力的情况?模型回答不详细,文本理解力下降,让人头疼不已。360团队提出全新IAA结构,通过内…
冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!
提出了一种内部适配器结构(IAA),其设计宗旨在于提升大语言模型(LLM)在通用多模态理解和视觉定位等方面的能力。
RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好
开源社区又迎来一款强力的「视频生成」工作,可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不…
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
一种新的视频生成方法,名为FancyVideo,它通过跨帧文本指导优化了常见的文本控制机制(如空间交叉注意力)。它通过精心设计的跨帧文本指导模块…
集结行业智慧,ISC.AI 2024探索多模态时代大模型发展的“中国路径”
ISC.AI 2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者…
360开源360VL解锁Llama3多模态能力 !
360VL作为一个视觉多模态大语言模型,能够支持多层次的视觉任务。在模型结构上,360VL遵循视觉编码器-桥接层-大语言模型的设计,通过语言模型…