多模态AI博主筛选系统 | 远程独立开发项目 数据专员
项目背景:公司核心业务为品牌新媒体推广,需从海量小红书博主中精准筛选符合要求的合作对象。原始流程为纯人工操
作(搜索、判断、复制粘贴),效率低下且成本高昂。
核心职责:独立负责该数据筛选流程的技术调研、方案设计、全栈开发与模型优化,旨在彻底实现流程自动化与智能化。
点击空白处退出提示
多模态AI博主筛选系统 | 远程独立开发项目 数据专员
项目背景:公司核心业务为品牌新媒体推广,需从海量小红书博主中精准筛选符合要求的合作对象。原始流程为纯人工操
作(搜索、判断、复制粘贴),效率低下且成本高昂。
核心职责:独立负责该数据筛选流程的技术调研、方案设计、全栈开发与模型优化,旨在彻底实现流程自动化与智能化。
1.自动爬取下载信息,将人工流程的点击,复制粘贴等操作全部通过脚本实现。
2.“AI建议”与“AI决策”双模式切换,AI建议模式通过AI预测和人工筛选结果进行模型增量学习。AI决策模式实现全流程自动化,并设计阈值,将模糊AI无法判断的博主保存到人工复审数据库。设计复审功能,人工审核模糊的 博主
3.设计数据面板,监控数据量,正确率。导出等
4.设计恢复日志,防止意外中断数据没有持久化的问题
主要工作与成果:
1.自动化工具开发:针对初期人工操作瓶颈,率先开发浏览器扩展工具,集成自动化数据采集、DOM解析、高亮去重与本地
存储功能,将人工操作效率提升300%,日均稳定处理400+条高质量数据。
2.多模态AI模型研发:为彻底解放人力,基于约5000条人工标注的高质量数据,训练图文多模态深度学习分类模型(基于
Hugging Face框架微调)。通过精细的特征工程并引入Dropout、早停等机制,有效解决了过拟合问题,将模型准确率稳定
在90% 以上。
3.构建AI闭环学习系统:设计并实现了“AI建议”与“AI决策”双模式运行机制,通过数据回流持续优化模型,人工复审量下
降60%,最终实现95%以上流程由AI自主完成。
4.工程化与稳定性保障:采用Flask搭建后端服务,使用Redis作缓存与消息队列,设计实现了日志回溯与断点续存机制(基于
JSONL格式),确保系统在异常情况下数据零丢失。
5.开发数据监控看板:提供实时仪表盘,可视化展示每日AI处理量、通过率、复审情况等关键指标。
评论