个人介绍
能够处理动态渲染、接口加密、签名校验、登录态保持、IP 代理池、分布式爬取等常见爬虫场景,兼顾爬取效率、稳定性与合规性。
对数据清洗、结构化存储、异步并发、反爬机制有深入实践,追求高效、健壮、易维护的爬虫架构。乐于钻研前端逆向、接口分析与数据挖掘,持续在数据采集领域学习与提升
工作经历
2019-03-01 -2025-10-01字节跳动爬虫工程师
项目经历 1:分布式爬虫架构升级 项目背景:原有单节点爬虫架构无法支撑短视频、资讯等业务日均3亿+的数据采集需求,存在性能瓶颈与单点故障风险。 核心职责:主导基于 Scrapy + Celery + Kafka 重构分布式爬虫集群,设计任务调度与负载均衡策略。 关键成果: - 实现百万级任务并发调度,日均采集量提升至12亿+,支撑推荐算法、竞品分析等下游业务。 - 针对电商动态商品页,采用 Playwright + 缓存策略,结合IP代理池与UA轮换,将单页采集耗时从12s压缩至3s,规避90%以上封禁风险。 项目经历 2:反爬对抗与逆向工程平台 项目背景:主流平台反爬机制升级(JS混淆、签名校验、设备指纹),导致爬虫通过率仅65%,影响舆情监控与竞品数据采集稳定性。 核心职责:负责逆向工程与反爬对抗体系建设,开发自动化逆向工具与行为模拟策略。 关键成果: - 开发JS逆向自动化工具,通过AST解析与符号执行,实现主流平台签名算法自动还原,单次逆向成本从7天降至24小时,累计完成30+平台适配。 - 构建设备指纹模拟库,结合行为轨迹模拟,使爬虫通过率提升至9
教育经历
2002-01-01 - 2006-01-01北京科技大学计算机科学与技术硕士
教育经历描述(北京科技大学 · 计算机科学与技术 · 硕士) 在校期间系统学习了计算机体系结构、分布式系统、数据挖掘等核心课程,专业成绩位列年级前10%。主导完成了基于分布式爬虫的网络数据采集与分析硕士课题,发表相关学术论文1篇,熟练掌握Python、C++等开发语言,具备扎
语言
技能

功能介绍(适配小程序轻应用+算法模型)本项目核心功能模块包括智能算法引擎、小程序交互层、数据管理与可视化三大模块:1. 智能算法引擎:基于Python/C++开发的核心算法模型,支持个性化推荐、图像识别、智能决策等能力,通过API接口为小程序提供实时计算服务。2. 小程序交互层:提供轻量化用户入口,

功能介绍(适配小程序轻应用+算法模型)本项目核心功能模块包括智能算法引擎、小程序交互层、数据管理与可视化三大模块:1. 智能算法引擎:基于Python/C++开发的核心算法模型,支持个性化推荐、图像识别、智能决策等能力,通过API接口为小程序提供实时计算服务。2. 小程序交互层:提供轻量化用户入口,







