技术Blog

探索人工智能领域的最新研究成果与技术实践

ICLR 2025 | 计算量仅DiT的一半!一个模型架构搞定T2X任务

ICLR 2025 | 计算量仅DiT的一半!一个模型架构搞定T2X任务

研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视频和M…

马傲 2025-02-20
140
更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI

更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI

具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构Bridge Diffusion Model来了。 与Dream…

360 AI Research 2024-12-18
101
360人工智能研究院@AAAI:多模态理解与生成的生态思考与前沿探索

360人工智能研究院@AAAI:多模态理解与生成的生态思考与前沿探索

在人工智能的技术变革浪潮中,360集团从业务到研发全面拥抱AI技术,360人工智能研究院发挥自身的技术积累和智力优势,承担多模态理解和多模态生成…

360 AI Research 2024-12-17
99
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI

为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI

IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样,作为插件添加到基座的语言模型之上,从而实现在完全不影响语言…

360 AI Research 2024-12-17
104
NeurIPS2024 | 提高专业生产力,让你的AI画作布局可控,360 AI Research开源新模型HiCo

NeurIPS2024 | 提高专业生产力,让你的AI画作布局可控,360 AI Research开源新模型HiCo

360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo,并将于近期开源。基于HiCo模型,使用者可以对生成…

程博 2024-10-31
46
性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了

性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了

中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的51.4%,Lumina-Next的17.5%。…

360 AI Research 2024-10-17
45
多模态模型‘遗忘’原有的语言能力,回答不详细、理解力下降!这个痛点你遇到过吗?

多模态模型‘遗忘’原有的语言能力,回答不详细、理解力下降!这个痛点你遇到过吗?

在AI训练中,是否遇到过多模态模型‘遗忘’原有语言能力的情况?模型回答不详细,文本理解力下降,让人头疼不已。360团队提出全新IAA结构,通过内…

王斌、谢春宇 2024-08-31
19
冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!

冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!

提出了一种内部适配器结构(IAA),其设计宗旨在于提升大语言模型(LLM)在通用多模态理解和视觉定位等方面的能力。

王斌、谢春宇 2024-08-29
35
RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好

RTX3090可跑,360AI团队开源最新视频模型FancyVideo,红衣大叔都说好

开源社区又迎来一款强力的「视频生成」工作,可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不…

马傲 2024-08-26
29
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!

360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!

一种新的视频生成方法,名为FancyVideo,它通过跨帧文本指导优化了常见的文本控制机制(如空间交叉注意力)。它通过精心设计的跨帧文本指导模块…

马傲 2024-08-20
35
集结行业智慧,ISC.AI 2024探索多模态时代大模型发展的“中国路径”

集结行业智慧,ISC.AI 2024探索多模态时代大模型发展的“中国路径”

ISC.AI 2024多模态时代的大模型关键技术与应用论坛成功召开。本次论坛由360人工智能研究院、中国图象图形学学会联合主办,集结业界知名学者…

360 AI Research 2024-08-07
22
360开源360VL解锁Llama3多模态能力 !

360开源360VL解锁Llama3多模态能力 !

360VL作为一个视觉多模态大语言模型,能够支持多层次的视觉任务。在模型结构上,360VL遵循视觉编码器-桥接层-大语言模型的设计,通过语言模型…

360 AI Research 2024-05-17
25