Tech Blog

技术Blog

探索人工智能领域的最新研究成果与技术实践

360人工智能研究院在最新跨模态对齐工作FG-CLIP模型开源的基础上，进一步将FG-CLIP成功背后的“达芬奇密码”：FineHARD高质量图…

360人工智能研究院最新图文跨模态模型FG-CLIP，宣布以“长文本深度理解”和“细粒度视觉比对”双突破，彻底解决了传统CLIP模型的“视觉近视…

该框架通过优化控制信号的集成方式，在Diffusion Transformer中实现了更加高效且资源优化的控制，从而有效解决了上述问题。团队对…

研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视频和M…

具备原生中文理解能力，还兼容Stable Diffusion生态。最新模型结构Bridge Diffusion Model来了。与Dream…

在人工智能的技术变革浪潮中，360集团从业务到研发全面拥抱AI技术，360人工智能研究院发挥自身的技术积累和智力优势，承担多模态理解和多模态生成…

IAA工作的思路，就是希望能把多模态理解能力像文生图领域中的ControlNet一样，作为插件添加到基座的语言模型之上，从而实现在完全不影响语言…

360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo，并将于近期开源。基于HiCo模型，使用者可以对生成…

中山大学和360 AI Research联合推出PT-DiT，同参数规模下，计算量仅为DiT的51.4%，Lumina-Next的17.5%。…

在AI训练中，是否遇到过多模态模型‘遗忘’原有语言能力的情况？模型回答不详细，文本理解力下降，让人头疼不已。360团队提出全新IAA结构，通过内…

提出了一种内部适配器结构（IAA），其设计宗旨在于提升大语言模型（LLM）在通用多模态理解和视觉定位等方面的能力。

开源社区又迎来一款强力的「视频生成」工作，可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不…