文本驱动的人脸图像编辑算法产品系统

我要开发同款
hhw1232026年02月18日
11阅读

技术信息

语言技术
PythonopenCVTorch
系统类型
算法模型
行业分类
人工智能机器深度学习

作品详情

行业场景

1、传统人脸编辑任务存在属性耦合问题,本模型通过设计一个mask辅助的基于视觉-语言对齐的文本驱动的人脸图像编辑算法,解决了传统方法在人脸区域上的编辑容易出现的属性耦合现象。平均性能大大提升,推动了无文本训练的探究。
2、适用于人脸图像生成、动漫、电影创作、AR/VR领域等

功能介绍

使用文本CLIP嵌入差异匹配图像CLIP嵌入差异,预测潜在空间中的编辑方向;并在潜在代码及图像层面分步解耦。
用户给定一张人脸图片以及任意想要编辑的人脸属性,系统可输出自然的编辑结果图。

项目实现

本人负责算法的设计、模型训练与推理、评估;模型整体实现。
提出了MDVL-Edit框架,训练阶段将CLIP图像特征嵌入差异映射到StyleGAN潜在空间的编辑方向。其次,推理阶段使用文本特征嵌入的差异通过中间嵌入空间Delta CLIP匹配图像特征嵌入差异,预测出编辑方向。使用根据输入提示自动生成掩膜的机制解决了在S潜在空间中寻找编辑方向这一系列方法中一些人脸组件依然强耦合的问题,

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论