个人介绍
· 动态代理池:构建百万级分布式代理池,支持IP动态权重调度与实时质量检测,过滤住宅/数据中心IP。
· 协议对抗:使用curl_cffi模拟Chrome/Firefox浏览器TLS指纹(JA3/JA3S),HTTP/2帧混淆技术突破协议层检测。
· 伪装请求:动态生成请求头,伪装时间戳、动态CSRF-Token与Referer。
行为风控对抗· 拟人化轨迹:基于贝塞尔曲线生成模拟人类鼠标轨迹(变速+随机偏移)。
· 反频率检测:使用泊松分布调度请求间隔,高斯分布模拟页面停留时长(均值30s±8s)。
· 指纹对抗:使用Playwright实现全参数环境模拟,动态修改WebGL/Canvas/WebRTC指纹。
智能验证破解· 验证码识别:集成ddddocrCNN模型,识别图形、滑块、点选验证码,识别率达92%以上。
· 加密解析:逆向分析JS加密算法(AES/Base64等),解析验证码轨迹验证逻辑。
· 人机验证对抗:破解主流人机验证平台(Geetest、reCAPTCHA v3等)的验证机制。
企业级架构· 分布式框架:基于Scrapy-Redis构建分布式爬虫,Redis管理任务队列与代理池。
· 部署与监控:使用Docker+K8s部署环境,集成Prometheus实时监控请求成功率、代理健康度、拦截率。
· 数据管理:支持MySQL/MongoDB/Elasticsearch异步数据管道存储,数据清洗与分析处理。
数据处理与采集· 动态渲染:熟练使用Playwright/Puppeteer无头浏览器解析动态页面。
· 数据提取:精通XPath/正则表达式/CSS多模式数据提取。
· 数据工具:熟练使用Pandas、BeautifulSoup实现数据清洗与规整。
项目经验 分布式智能爬虫风控对抗系统技术栈:Python/Scrapy/Playwright/Redis/Celery/Docker/K8s
核心技术突破:
00001.
深度隐匿架构
00002.
· 建立百万级动态代理池,实现IP动态权重调整与健康检测(响应<1秒加分,失败减分)。
· 应用curl_cffi实现浏览器TLS指纹伪装与HTTP/2帧混淆协议,突破企业级反爬监测系统。
00003.
行为验证系统
00004.
· 构建拟人化鼠标轨迹模型,结合变速与随机偏移,完美模仿人类操作。
· 智能频率控制,采用泊松分布与高斯分布动态调节请求与页面停留时长。
· 借助Playwright实现全环境指纹模拟,消除Headless特征,提升伪装成功率。
00005.
反验证码系统
00006.
· 融合ddddocr实现验证码自动识别,破解多种加密验证码机制(AES/Base64等)。
· 逆向JS端加密算法,提升行为验证与滑动验证的响应成功率。
项目成果:
· 日均数据采集量提升至300万条,反爬拦截率降至5%以下。
· 代理资源使用效率大幅优化,成本下降40%。
· 系统稳定上线并实现7×24小时无人值守自动化运行。
技术栈与工具· 核心开发语言:Python
· 爬虫框架:Scrapy、Playwright、Selenium
· 风控对抗技术:TLS指纹欺骗、HTTP/2协议混淆、设备与Canvas指纹屏蔽、拟人行为建模
· 验证破解工具:ddddocr、pyppeteer、AES/Base64算法解密
· 分布式方案:Redis、Celery、Docker、K8s
· 数据管理:XPath、BeautifulSoup、Pandas、Elasticsearch
工作经历
2022-08-23 -至今上海天正爬虫开发
核心开发语言:Python · 爬虫框架:Scrapy、Playwright、Selenium · 风控对抗技术:TLS指纹欺骗、HTTP/2协议混淆、设备与Canvas指纹屏蔽、拟人行为建模 · 验证破解工具:ddddocr、pyppeteer、AES/Base64算法解密 · 分布式方案:Redis、Celery、Docker、K8s · 数据管理:XPath、BeautifulSoup、Pandas、Elasticsearch
教育经历
2020-08-31 - 2024-03-01广西机电职业技术学院汽修专科






