python爬虫开发者
6天前在线
全职 · 300/日  ·  6525/月
工作时间: 工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

‌专业技能 ‌网络层深度隐匿‌

· ‌动态代理池‌:构建百万级分布式代理池,支持IP动态权重调度与实时质量检测,过滤住宅/数据中心IP。

· ‌协议对抗‌:使用curl_cffi模拟Chrome/Firefox浏览器TLS指纹(JA3/JA3S),HTTP/2帧混淆技术突破协议层检测。

· ‌伪装请求‌:动态生成请求头,伪装时间戳、动态CSRF-Token与Referer。

‌行为风控对抗‌

· ‌拟人化轨迹‌:基于贝塞尔曲线生成模拟人类鼠标轨迹(变速+随机偏移)。

· ‌反频率检测‌:使用泊松分布调度请求间隔,高斯分布模拟页面停留时长(均值30s±8s)。

· ‌指纹对抗‌:使用Playwright实现全参数环境模拟,动态修改WebGL/Canvas/WebRTC指纹。

‌智能验证破解‌

· ‌验证码识别‌:集成ddddocrCNN模型,识别图形、滑块、点选验证码,识别率达92%以上。

· ‌加密解析‌:逆向分析JS加密算法(AES/Base64等),解析验证码轨迹验证逻辑。

· ‌人机验证对抗‌:破解主流人机验证平台(Geetest、reCAPTCHA v3等)的验证机制。

‌企业级架构‌

· ‌分布式框架‌:基于Scrapy-Redis构建分布式爬虫,Redis管理任务队列与代理池。

· ‌部署与监控‌:使用Docker+K8s部署环境,集成Prometheus实时监控请求成功率、代理健康度、拦截率。

· ‌数据管理‌:支持MySQL/MongoDB/Elasticsearch异步数据管道存储,数据清洗与分析处理。

‌数据处理与采集‌

· ‌动态渲染‌:熟练使用Playwright/Puppeteer无头浏览器解析动态页面。

· ‌数据提取‌:精通XPath/正则表达式/CSS多模式数据提取。

· ‌数据工具‌:熟练使用Pandas、BeautifulSoup实现数据清洗与规整。

‌项目经验 ‌分布式智能爬虫风控对抗系统‌

技术栈‌:Python/Scrapy/Playwright/Redis/Celery/Docker/K8s

核心技术突破‌:

00001. 

深度隐匿架构

00002. 

· 建立百万级动态代理池,实现IP动态权重调整与健康检测(响应<1秒加分,失败减分)。

· 应用curl_cffi实现浏览器TLS指纹伪装与HTTP/2帧混淆协议,突破企业级反爬监测系统。

00003. 

行为验证系统

00004. 

· 构建拟人化鼠标轨迹模型,结合变速与随机偏移,完美模仿人类操作。

· 智能频率控制,采用泊松分布与高斯分布动态调节请求与页面停留时长。

· 借助Playwright实现全环境指纹模拟,消除Headless特征,提升伪装成功率。

00005. 

反验证码系统

00006. 

· 融合ddddocr实现验证码自动识别,破解多种加密验证码机制(AES/Base64等)。

· 逆向JS端加密算法,提升行为验证与滑动验证的响应成功率。

项目成果‌:

· 日均数据采集量提升至‌300万条‌,反爬拦截率降至‌5%以下‌。

· 代理资源使用效率大幅优化,成本‌下降40%‌。

· 系统稳定上线并实现7×24小时无人值守自动化运行。

‌技术栈与工具‌

· ‌核心开发语言‌:Python

· ‌爬虫框架‌:Scrapy、Playwright、Selenium

· ‌风控对抗技术‌:TLS指纹欺骗、HTTP/2协议混淆、设备与Canvas指纹屏蔽、拟人行为建模

· ‌验证破解工具‌:ddddocr、pyppeteer、AES/Base64算法解密

· ‌分布式方案‌:Redis、Celery、Docker、K8s

· ‌数据管理‌:XPath、BeautifulSoup、Pandas、Elasticsearch

工作经历

  • 2022-08-23 -至今上海天正爬虫开发

    ‌核心开发语言‌:Python · ‌爬虫框架‌:Scrapy、Playwright、Selenium · ‌风控对抗技术‌:TLS指纹欺骗、HTTP/2协议混淆、设备与Canvas指纹屏蔽、拟人行为建模 · ‌验证破解工具‌:ddddocr、pyppeteer、AES/Base64算法解密 · ‌分布式方案‌:Redis、Celery、Docker、K8s · ‌数据管理‌:XPath、BeautifulSoup、Pandas、Elasticsearch

教育经历

  • 2020-08-31 - 2024-03-01广西机电职业技术学院汽修专科

语言

英语可口语交流
0
1
2
3
4
5

技能

Spark精通
0
1
2
3
4
5
更新于: 6天前 浏览: 2