为专业妆容迁移而生:FLUX-Makeup,无需人脸控制模块的高一致性妆容迁移方法

冷大炜、刘山源
2026-01-27 136 阅读
为专业妆容迁移而生:FLUX-Makeup,无需人脸控制模块的高一致性妆容迁移方法

肖像来源:MT dataset,LADN dataset,Wild-MT dataset

一、为什么还需要新的妆容迁移方法?

在美妆应用、虚拟试妆、电商展示以及内容创作场景中,妆容迁移一直是一个“看起来简单、做起来很难”的问题:给定一张素颜或淡妆的人脸作为源图(source),以及一张带有目标妆容的人脸作为参考图(reference),模型需要在保持人物身份不变的前提下,将参考图中的妆容风格自然、准确地迁移到源图上。

对于真实可落地的产品来说,一个“可用”的妆容迁移系统至少需要满足三点:第一,妆容要像,口红、眼影、腮红等变化清晰可控;第二,人不能变,不能出现“像换了一个人”的问题;第三,结果要稳定,在不同姿态、表情和复杂妆容下都能工作。

现有方法往往只能在这三点之间做权衡。传统 GAN 方法需要大量人工设计的损失函数和人脸先验,调参成本高且稳定性有限;较新的扩散模型方法虽然生成质量更好,但往往依赖人脸关键点、3D 人脸模型等额外控制模块,系统复杂度高,也容易引入新的误差;而面向通用场景的编辑模型,像强如FLUX-kontext, Nano Banana等也往往在这种容错性较低的专业任务上良品率差强人意。

由360人工智能研究院(research.360.cn)多模态生成团队带来的新方案FLUX-Makeup为解决上述问题带来了新的思路和实现参考。FLUX-Makeup 的核心价值在于:在不引入任何额外人脸控制模块的前提下,仅通过“源图 + 参考图”这一最自然的输入形式,实现高保真、强一致性、鲁棒的妆容迁移。这一点对技术向实际产品转化尤为重要。目前论文、代码、模型以及对应的comfyUI工作流均已开源。

论文地址:https://arxiv.org/abs/2508.05069

开源地址:https://github.com/360CVGroup/FLUX-Makeup


二、高质量配对数据:HQMT 的构建逻辑

在扩散模型中,训练信号的质量几乎直接决定了模型的上限。如果“迁移前 / 迁移后”的对应关系本身是错的或模糊的,模型只能学到折中的、甚至错误的映射。

FLUX-Makeup 并没有沿用已有工作的伪配对数据构建方式,而是设计了一条可扩展、可过滤、可控质量的数据生成流程。

Step 1:妆容词生成与筛选

首先使用LLM生成大量妆容描述词(如_punk_、clownromantic),并将其以"{makeup} makeup."的形式输入FLUX-Kontext,在FFHQ数据集(7万张1024分辨率人脸)上进行测试。通过人工快速筛选,剔除无法体现妆容变化(如_soft_)或引发整体风格化(如_extreme_)的词汇。

Step 2:大规模自动上妆

在筛选后的prompt集合上,为每张FFHQ图像随机匹配约5个妆容描述,生成约35万对初始配对数据。但统计发现,直接生成的数据中,合格率不足20%,数据噪声仍然过高。

Step 3:多维度数据过滤

通过大量观察,总结出不合格样本的四种典型情况:

  • 人脸位置偏移

  • 过度FLUX风格化

  • 上妆失败

  • 前后图像背景不一致

针对上述问题,我们设计了3类自动过滤策略。以“人脸偏移”为例:利用face parsing提取人脸轮廓、眼睛、牙齿等结构区域,对前后图像的 mask做差分统计,超过阈值则判定为不合格样本。该策略在过滤人脸偏移的同时,也能有效剔除部分风格化失败样本。

最终,我们构建了5万+高质量配对妆容数据,并将其命名为HQMT(High-Quality Makeup Transfer)

HQMT数据集分析

相比Stable-Makeup的数据构建流程,我们的数据合格率显著更高。同时,对比表中第二、三行可以发现,所提出的过滤策略对模型性能提升起到了关键作用。HQMT为高质量妆容迁移提供了坚实的数据基础。


三、模型设计:从“拼接参考”到“解耦注入”

在模型设计上,FLUX-Makeup坚持一个原则:

👉 模型输入仅包含源人脸(src)和参考人脸(ref)

我们的探索路径如上图 (b) → © → (d) 所示:

  • 直接拼接条件图像:在 DiT 框架下,一个直观做法是将 source 和 reference 在 latent 空间中直接拼接,再通过 LoRA 微调。但实验表明,这种方式存在目标冲突:source 需要强一致性以保持身份,而reference 则需要改变外观;二者在同一通道中竞争,容易导致背景破坏或妆容不充分。

  • 以FLUX-Kontext为底模微调:FLUX-Kontext 天然支持条件图像输入,在一致性保持方面表现优秀。但如果将 reference 也作为强条件输入,模型容易“过度对齐”,直接复制参考人脸。

  • 最终方案:保留FLUX-Kontext的一致性能力,同时通过RefLoRAInjector模块将参考信息与主体生成过程解耦,成功实现高保真、强一致性的妆容迁移。

RefLoRAInjector:为妆容而生的注入方式

RefLoRAInjector模块的核心思想是**参考图像不进入主干生成路径,**而是先利用共享 VAE 编码器提取参考图像的特征,然后通过低秩适应(LoRA)机制定义两组低秩投影,生成参考的Key和Value和MMDIT特征进行拼接和attention运算,从而避免身份崩溃与背景失真的同时实现了精准提取妆容相关信息,并支持可控的风格调制。RefLoRAInjector模块的额外优点是因为只存在于旁支结构,而没有主干结构,因此更加的轻量化且高效,极大的减少了主干模型的运算量,加快模型推理速度。


四、实验结果与分析

在 MT、Wild-MT 和 LADN 三个基准数据集上的定量评估表明,FLUX-Makeup 在妆容相似度(CLIP-I)、身份一致性(SSIM)以及背景保持(L2-M)等指标上均取得了最优或接近最优的综合表现。

效果对比:

无论是简单场景(正脸、淡妆),还是高难度场景(大姿态、复杂妆容),FLUX-Makeup都能稳定输出自然、一致的迁移结果。相比其他扩散方法,显著减少嘴角、轮廓区域的身份漂移问题。


五、结语

论文的两位一作分别是360人工智能研究院的算法高级专家刘山源及其实习生朱剑。相比已有的模型和方案,FLUX-Makeup工作的目标是“面向产业落地场景,基于AI技术打造专业生产力”,研究院的负责人冷大炜博士补充到,“未来我们将继续推出该工作的迭代升级版本,实现更为精准的妆容迁移效果,敬请期待。”

官方“白嫖”指南:目前FLUX-Makeup的开源版本可以在研究院的Github主页开放获取,也可以通过免费智能体和美片app体验。