个人介绍
我是程序员客栈的【SJ】,一名【图形图像算法工程师】; 我毕业于【山东科技大学】,担任过【百度】的【高级音视频算法工程师】,担任过【原创世代】的【资深算法工程师】; 负责过【人像分割】,【数字人生成】,【视频生成】的开发; 熟练使用【Python】,【C++】,【Linux Shell】,【Pytorch】,【OpenCV】; 如果我能帮上您的忙,请点击“立即预约”或“发布需求”!
工作经历
2024-11-25 -2026-01-09原创世代资深算法工程师
多参考图生成视频 2 构建数据 Pipeline,通过物体/人脸检测实现 cross-sample 配对,缓解生成中的 copy-paste 现象 2 基于 OpenS2V-5M 数据集,实验多种开源方案(Cross Attention、VACE、Phantom、MAGREF、HuMo 等),优化生成一致性 l VAE 加速 2 基于 Turbo-VAED 实现对 Wan2.1 模型的 VAE decoder 加速(参数 73M->4M),使解码速度在单卡 A800 上从 5.23s 降至 1.82s,PSNR 仅降 0.22,且效果优于开源的 lightvae 和 lighttae 2 探索用 VAE 进行超分和插帧的可能性,进行了一系列对比尝试:同时进行超分和插帧生成效果差很多 (psnr 降 5.18),仅插帧也比较差(psnr 降 3.15),仅超分效果还可以(psnr 降 1.3),生成的结果与 原始模型肉眼看无差别,且耗时仅 2.41s l DPO改进生成质量 2 调研视频 reward 方法,整理各种评价指标,结合目前线上模型生成结果的不足,总结出 9 条指标用于 训练自
2022-12-12 -2024-11-22百度高级音视频算法工程师
l 视频会议人像分割 – 图像背景分割 2 探索高效的分割方法,使用 MobileViT 结合 SeaFormer 的轻量级分割头,在 144x256 的输入下,模型 的体积减少了 30%(5.4M->3.8M), mIoU 提升 0.3%(96.3%->96.6%),推理速度明显提升 l 视频画质恢复 - 基于 GAN 生成模型 2 改进 Real-ESRGAN 模型(64M->26M),借鉴 YOLO 中 Focus 层的思想,同时利用 RepVGG 中的重参 数化技术,实现 GPU 上单帧推理速度小于 6ms(原始 20ms),且通过 abx 测试 l 2D 数字人 - 语音驱动的视频生成 2 优化 Wav2Lip 模型,引入 Real-ESRGAN 中的 UNet 类型判别器,提升生成的整体清晰度 2 修改 IP_LAP 模型,去掉语音生成关键点的模块,以 AdaIN 的方式融合语音和图像信息,改为连续 5 帧输 入和输出,在内部测试集上 fid 指标由 19 降至 17,简化推理流程 2 将语音特征替换为 hubert 特征,唇形同步大幅提升,针对多语言的语音输入稳定性较好
2022-03-01 -2022-10-01墨奇科技算法工程师
掌纹识别系统 - 负责指节分割模块 2 采用 HRNet-16 模型,尝试 PSP、ASPP 等模块加强特征融合,使 mIoU 有 0.6%的提升 2 负责该模块在 SDK 中 C++的实现,包括对图像预处理和对分割结果的后处理的逻辑设计
2019-04-08 -2022-02-18快手图形图像算法工程师
l 一甜相机特效开发 2 OpenGL 框架下,运用数字图像处理中的算法编写 Shader 实现一甜相机中的各种特效 2 借助中台的背景分割、表情识别、关键点检测等各种 AI 能力,设计相关逻辑,实现各种交互玩法效果 2 优化线上 Shader,提升其在不同手机上的运行性能,使一甜相机用户日活显著增长 2 参与 SDK 开发,调研新算法 l 特效推荐 2 训练 BERT 进行用户反馈信息分类,探索不同 embedding 策略对文本分类效果的影响
2018-07-10 -2019-03-06新浪微博算法工程师
l 视频推荐 2 使用 PySpark 获取分布式系统上的各种特征(以 Hive 表或者 HDFS 文件形式存储)进行处理,如特征编 码,去除空值等,用于视频推荐 2 在分布式平台上实现 smote 过采样算法,解决模型训练中样本不均衡的问题; l 视频分类 - 训练 SVM 分类器对用户发布的视频分类,用于提高线上优质视频通过率,结合特征选择、特征交 叉等方法使分类准确率提升了 3%左右
教育经历
2015-09-01 - 2018-06-26山东科技大学计算机技术硕士
2011-09-01 - 2015-06-24山东科技大学软件工程本科


