为专业妆容迁移而生：FLUX-Makeup，无需人脸控制模块的高一致性妆容迁移方法

冷大炜、刘山源 2026-01-27 196 阅读

肖像来源：MT dataset，LADN dataset，Wild-MT dataset

一、为什么还需要新的妆容迁移方法？

在美妆应用、虚拟试妆、电商展示以及内容创作场景中，妆容迁移一直是一个“看起来简单、做起来很难”的问题：给定一张素颜或淡妆的人脸作为源图（source），以及一张带有目标妆容的人脸作为参考图（reference），模型需要在保持人物身份不变的前提下，将参考图中的妆容风格自然、准确地迁移到源图上。

对于真实可落地的产品来说，一个“可用”的妆容迁移系统至少需要满足三点：第一，妆容要像，口红、眼影、腮红等变化清晰可控；第二，人不能变，不能出现“像换了一个人”的问题；第三，结果要稳定，在不同姿态、表情和复杂妆容下都能工作。

现有方法往往只能在这三点之间做权衡。传统 GAN 方法需要大量人工设计的损失函数和人脸先验，调参成本高且稳定性有限；较新的扩散模型方法虽然生成质量更好，但往往依赖人脸关键点、3D 人脸模型等额外控制模块，系统复杂度高，也容易引入新的误差；而面向通用场景的编辑模型，像强如FLUX-kontext, Nano Banana等也往往在这种容错性较低的专业任务上良品率差强人意。

由360人工智能研究院（research.360.cn）多模态生成团队带来的新方案FLUX-Makeup为解决上述问题带来了新的思路和实现参考。FLUX-Makeup 的核心价值在于：在不引入任何额外人脸控制模块的前提下，仅通过“源图 + 参考图”这一最自然的输入形式，实现高保真、强一致性、鲁棒的妆容迁移。这一点对技术向实际产品转化尤为重要。目前论文、代码、模型以及对应的comfyUI工作流均已开源。

论文地址：https://arxiv.org/abs/2508.05069

开源地址：https://github.com/360CVGroup/FLUX-Makeup

二、高质量配对数据：HQMT 的构建逻辑

在扩散模型中，训练信号的质量几乎直接决定了模型的上限。如果“迁移前 / 迁移后”的对应关系本身是错的或模糊的，模型只能学到折中的、甚至错误的映射。

FLUX-Makeup 并没有沿用已有工作的伪配对数据构建方式，而是设计了一条可扩展、可过滤、可控质量的数据生成流程。

Step 1：妆容词生成与筛选

首先使用LLM生成大量妆容描述词（如_punk_、clown、romantic），并将其以"{makeup} makeup."的形式输入FLUX-Kontext，在FFHQ数据集（7万张1024分辨率人脸）上进行测试。通过人工快速筛选，剔除无法体现妆容变化（如_soft_）或引发整体风格化（如_extreme_）的词汇。

Step 2：大规模自动上妆

在筛选后的prompt集合上，为每张FFHQ图像随机匹配约5个妆容描述，生成约35万对初始配对数据。但统计发现，直接生成的数据中，合格率不足20%，数据噪声仍然过高。

Step 3：多维度数据过滤

通过大量观察，总结出不合格样本的四种典型情况：

人脸位置偏移
过度FLUX风格化
上妆失败
前后图像背景不一致

针对上述问题，我们设计了3类自动过滤策略。以“人脸偏移”为例：利用face parsing提取人脸轮廓、眼睛、牙齿等结构区域，对前后图像的 mask做差分统计，超过阈值则判定为不合格样本。该策略在过滤人脸偏移的同时，也能有效剔除部分风格化失败样本。

最终，我们构建了5万+高质量配对妆容数据，并将其命名为HQMT（High-Quality Makeup Transfer）

HQMT数据集分析

相比Stable-Makeup的数据构建流程，我们的数据合格率显著更高。同时，对比表中第二、三行可以发现，所提出的过滤策略对模型性能提升起到了关键作用。HQMT为高质量妆容迁移提供了坚实的数据基础。

三、模型设计：从“拼接参考”到“解耦注入”

在模型设计上，FLUX-Makeup坚持一个原则：

👉 模型输入仅包含源人脸（src）和参考人脸（ref）

直接拼接条件图像：在 DiT 框架下，一个直观做法是将 source 和 reference 在 latent 空间中直接拼接，再通过 LoRA 微调。但实验表明，这种方式存在目标冲突：source 需要强一致性以保持身份，而reference 则需要改变外观；二者在同一通道中竞争，容易导致背景破坏或妆容不充分。
以FLUX-Kontext为底模微调：FLUX-Kontext 天然支持条件图像输入，在一致性保持方面表现优秀。但如果将 reference 也作为强条件输入，模型容易“过度对齐”，直接复制参考人脸。
最终方案：保留FLUX-Kontext的一致性能力，同时通过RefLoRAInjector模块将参考信息与主体生成过程解耦，成功实现高保真、强一致性的妆容迁移。

RefLoRAInjector：为妆容而生的注入方式

RefLoRAInjector模块的核心思想是**参考图像不进入主干生成路径，**而是先利用共享 VAE 编码器提取参考图像的特征，然后通过低秩适应（LoRA）机制定义两组低秩投影，生成参考的Key和Value和MMDIT特征进行拼接和attention运算，从而避免身份崩溃与背景失真的同时实现了精准提取妆容相关信息，并支持可控的风格调制。RefLoRAInjector模块的额外优点是因为只存在于旁支结构，而没有主干结构，因此更加的轻量化且高效，极大的减少了主干模型的运算量，加快模型推理速度。

四、实验结果与分析

在 MT、Wild-MT 和 LADN 三个基准数据集上的定量评估表明，FLUX-Makeup 在妆容相似度（CLIP-I）、身份一致性（SSIM）以及背景保持（L2-M）等指标上均取得了最优或接近最优的综合表现。

效果对比：

无论是简单场景（正脸、淡妆），还是高难度场景（大姿态、复杂妆容），FLUX-Makeup都能稳定输出自然、一致的迁移结果。相比其他扩散方法，显著减少嘴角、轮廓区域的身份漂移问题。

五、结语

论文的两位一作分别是360人工智能研究院的算法高级专家刘山源及其实习生朱剑。相比已有的模型和方案，FLUX-Makeup工作的目标是“面向产业落地场景，基于AI技术打造专业生产力”，研究院的负责人冷大炜博士补充到，“未来我们将继续推出该工作的迭代升级版本，实现更为精准的妆容迁移效果，敬请期待。”

官方“白嫖”指南：目前FLUX-Makeup的开源版本可以在研究院的Github主页开放获取，也可以通过免费智能体和美片app体验。

返回博客列表