文本驱动的人脸图像编辑算法_系统开发案例-程序员客栈

技术信息

语言技术
Python、openCV、Torch系统类型
算法模型行业分类
人工智能、机器深度学习

作品详情

行业场景

1、传统人脸编辑任务存在属性耦合问题，本模型通过设计一个mask辅助的基于视觉-语言对齐的文本驱动的人脸图像编辑算法，解决了传统方法在人脸区域上的编辑容易出现的属性耦合现象。平均性能大大提升，推动了无文本训练的探究。
2、适用于人脸图像生成、动漫、电影创作、AR/VR领域等

功能介绍

使用文本CLIP嵌入差异匹配图像CLIP嵌入差异，预测潜在空间中的编辑方向；并在潜在代码及图像层面分步解耦。
用户给定一张人脸图片以及任意想要编辑的人脸属性，系统可输出自然的编辑结果图。

项目实现

本人负责算法的设计、模型训练与推理、评估；模型整体实现。
提出了MDVL-Edit框架，训练阶段将CLIP图像特征嵌入差异映射到StyleGAN潜在空间的编辑方向。其次，推理阶段使用文本特征嵌入的差异通过中间嵌入空间Delta CLIP匹配图像特征嵌入差异，预测出编辑方向。使用根据输入提示自动生成掩膜的机制解决了在S潜在空间中寻找编辑方向这一系列方法中一些人脸组件依然强耦合的问题，