proginn2315093906
2小时前在线
全职 · 300/日  ·  6525/月
工作时间: 周末8:00-8:30工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

我专注于数据采集、爬虫开发与反爬对抗的技术爱好者,熟练使用 Python 进行网络爬虫开发,擅长 requests、Scrapy、Selenium、Playwright 等主流爬虫框架与工具。
 
能够处理动态渲染、接口加密、签名校验、登录态保持、IP 代理池、分布式爬取等常见爬虫场景,兼顾爬取效率、稳定性与合规性。
 
对数据清洗、结构化存储、异步并发、反爬机制有深入实践,追求高效、健壮、易维护的爬虫架构。乐于钻研前端逆向、接口分析与数据挖掘,持续在数据采集领域学习与提升

工作经历

  • 2019-03-01 -2025-10-01字节跳动爬虫工程师

    项目经历 1:分布式爬虫架构升级 项目背景:原有单节点爬虫架构无法支撑短视频、资讯等业务日均3亿+的数据采集需求,存在性能瓶颈与单点故障风险。 核心职责:主导基于 Scrapy + Celery + Kafka 重构分布式爬虫集群,设计任务调度与负载均衡策略。 关键成果: - 实现百万级任务并发调度,日均采集量提升至12亿+,支撑推荐算法、竞品分析等下游业务。 - 针对电商动态商品页,采用 Playwright + 缓存策略,结合IP代理池与UA轮换,将单页采集耗时从12s压缩至3s,规避90%以上封禁风险。   项目经历 2:反爬对抗与逆向工程平台 项目背景:主流平台反爬机制升级(JS混淆、签名校验、设备指纹),导致爬虫通过率仅65%,影响舆情监控与竞品数据采集稳定性。 核心职责:负责逆向工程与反爬对抗体系建设,开发自动化逆向工具与行为模拟策略。 关键成果: - 开发JS逆向自动化工具,通过AST解析与符号执行,实现主流平台签名算法自动还原,单次逆向成本从7天降至24小时,累计完成30+平台适配。 - 构建设备指纹模拟库,结合行为轨迹模拟,使爬虫通过率提升至9

教育经历

  • 2002-01-01 - 2006-01-01北京科技大学计算机科学与技术硕士

    教育经历描述(北京科技大学 · 计算机科学与技术 · 硕士) 在校期间系统学习了计算机体系结构、分布式系统、数据挖掘等核心课程,专业成绩位列年级前10%。主导完成了基于分布式爬虫的网络数据采集与分析硕士课题,发表相关学术论文1篇,熟练掌握Python、C++等开发语言,具备扎

语言

中文母语水平
0
1
2
3
4
5

技能

Sketch熟练
0
1
2
3
4
5
作品
作品名称(专业版)
 
分布式数据采集与网络安全审计脚本插件

功能介绍(适配小程序轻应用+算法模型)本项目核心功能模块包括智能算法引擎、小程序交互层、数据管理与可视化三大模块:1. 智能算法引擎:基于Python/C++开发的核心算法模型,支持个性化推荐、图像识别、智能决策等能力,通过API接口为小程序提供实时计算服务。2. 小程序交互层:提供轻量化用户入口,

0
2026-03-01 00:17
作品名称(专业版)
 
分布式数据采集与网络安全审计脚本插件

功能介绍(适配小程序轻应用+算法模型)本项目核心功能模块包括智能算法引擎、小程序交互层、数据管理与可视化三大模块:1. 智能算法引擎:基于Python/C++开发的核心算法模型,支持个性化推荐、图像识别、智能决策等能力,通过API接口为小程序提供实时计算服务。2. 小程序交互层:提供轻量化用户入口,

0
2026-03-01 00:17
python

本脚本插件具备三大核心功能模块:1. 自动化数据采集:支持多平台网页数据抓取,内置动态渲染、反爬对抗与任务调度能力,可高效完成舆情监控、竞品分析等场景下的结构化数据提取。2. 网络安全检测:集成漏洞扫描、合规审计与风险预警功能,可自动识别网站安全隐患,生成检测报告。3. 自定义脚本扩展:提供可视化配

0
2026-03-01 00:13
更新于: 2小时前 浏览: 4