FaceChain高保真人像风格生成挑战赛：一等奖方案

Datawhale

发布于 2024-04-30 19:27:07

860

发布于 2024-04-30 19:27:07

文章被收录于专栏：Datawhale专栏Datawhale专栏

大家好，我是马琦钧，Datawhale成员，毕业于浙江农林大学，统计学/会计学双学位，获得过由阿里云、谷歌、百度、CVPR、思否、极棒等举办的相关赛事奖项。

本次主要分享 FaceChain 高保真人像风格生成挑战赛——赛题三的一等奖方案。

赛事地址：https://competition.atomgit.com/competitionInfo?id=7fc6be7904f842050caa5597fa00ba32

作者本人决赛路演图

赛题分析

赛题三要求提升生成的人像真实感，原始的facechain其实已经能很好地生成高质量人像，但在微观细节上仍有提升空间，框架自带的人脸美化模型可能会导致生成的人像缺少痣、皱纹等相关特征，皮肤相对有磨皮、反光感等。

赛题要求还原人脸痣、皱纹等特征，考虑直接复制原始人脸的痣、皱纹、斑等特征到新生成的人脸上进行还原（简单来说就像P图，直接把原始的部分P过去）。

整体框架图

数据集准备

数据集来源：https://www.seeprettyface.com/mydataset_page3.html#yellow网站提供的真实数据集——黄种脸训练集

我们使用了 Datawhale 的免费开源软件 whale-anno 做图片点标注，标签选择了痣、斑、痘、皱纹，如下图（为保护人脸隐私，截图时原图做了模糊处理）：

人脸痣标注截图

whale-anno 支持移动平台标注，本次标注有一半是在 ipad 上完成标注的。

模型训练

标注了100张以后，通过 keypoint-rcnn 已可很好地检测到非数据集图片中人脸痣的位置。在标注完大约300张图片后再训练，平常不太见到的比较大的痣也可以很好地检测出来，而且位置（坐标）更精准了。

模型加载代码如下：

from torchvision.models.detection import keypointrcnn_resnet50_fpn

model = keypointrcnn_resnet50_fpn(pretrained=False, pretrained_backbone=True,
                                  num_keypoints=4, num_classes=2)

这个模型最早用于检测人体关键点，但我们在训练人脸时，不一定会每次都有痣出现。我们在处理训练数据的时候，可以把没有目标特征的关键点设置到(0, 0)位置。在推理的时候，根据关键点的置信度来确定对应人脸是否有痣。

后处理

1.人脸痣模型优化

将人脸输入到上述模型获取到坐标后，计算出新人脸相对位置图像的亮度系数，按新图调整后，先用高斯模糊来降噪，然后将原始的痣用cv2.findContours查找轮廓去除背景，再贴图到新图像上。

这里其实会涉及到挺多细节，最早尝试了直接将图贴过去的方式，但因为光照等影响会有差异，所以有了如下根据亮度调整的方案，亮度转换代码如下：

# 转换到LAB颜色空间
source_lab = cv2.cvtColor(source, cv2.COLOR_BGR2LAB)

轮廓查找代码如下：

# 查找轮廓
contours, _ = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

新的坐标根据3个最接近的人脸关键点计算相对位置得到，如下图中蓝色圆点表示。

和痣最接近的3个人脸关键点

最终生成的效果如下（为保护隐私，这里没有使用真实人脸LoRA）：

痣融合人脸效果示例

2. LoRA模型微调优化

人脸模型基于真实人脸先微调，再基于目标人脸继续微调，训练出的人脸更加真实，减少了磨皮感和反光。不过由于在背景为白色的人脸图上训练过多，这样操作以后人脸附近可能会有断层出现。

模型微调需要18G显存，我们这里使用了a10显卡，训练每张图大约需要3分钟，生成每张图大约需要12秒。

这里再简单科普一下LoRA(Low-Rank Adaptation)，如果模型层本来需要MxN个参数，改为增加MxR, RxN的叠加训练，如果M是100，N是100，R是2的话，相当于原来需要训练100 * 100=10000个参数，现在只需要训练100 * 2+2 * 100=400个参数，是一个很巧妙地用小参数量表征大参数量的方案。

3. 人脸筛选优化

从原始的生成10张，筛选6张并和最高单张图片比较相似度，改为生成20张，与所有人脸比较相似度并再按最高得分排序。测试下来这样得到的人脸与目标人物更相似。

筛选代码节选如下：

max_sim = 0
for selected_face_emb in selected_face_embs:
    sim = np.dot(emb, selected_face_emb)
    if sim.item() > max_sim:
        max_sim = sim.item()
sim_list.append(max_sim)