田一亩
23小时前在线
全职 · 300/日  ·  6525/月
工作时间: 工作日09:00-18:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

合规爬虫技术爬虫框架(Scrapy/Playwright)能用 Playwright 处理动态渲染页面,用 Scrapy 做分布式采集,掌握请求池 / 代理轮换合规采集公开 / 授权业务数据反反爬策略掌握 JS 逆向基础(Chrome 抓包、Token/Sign 分析)、验证码识别(PaddleOCR)、行为模拟突破网站反爬限制,保障采集稳定性数据合规熟悉《数据安全法》《个人信息保护法》,掌握数据脱敏、最小必要采集原则规避法律风险,符合企业合规要求AI 数据协同数据分析工具(Pandas/NumPy)能完成数据清洗、去重、格式转换(JSONL/Parquet)支撑大模型训练数据处理数据标注 / 处理了解 LabelStudio 等标注工具,能将采集数据转化为 AI 训练格式AI 场景下的数据落地应用

工作经历

  • 2024-03-01 -2025-11-06东莞市英姆信息公司后端工程

    数据采集与处理(差异化亮点) 基于 Python 开发合规爬虫,采集公开 / 授权业务数据,设计反反爬策略(代理池、动态 UA、JS 逆向适配); 对接 AI 训练数据需求,完成数据清洗、脱敏、格式转换(如 JSONL/Parquet),支撑大模型微调 / 行业数据应用; 维护数据采集链路,监控爬虫运行状态,处理采集异常,保障数据准确率与合规性。

教育经历

  • 1997-09-30 - 2000-07-01中南工业大学工业设计专科

资质认证

语言

中文母语水平
0
1
2
3
4
5

技能

Python熟练
0
1
2
3
4
5
更新于: 23小时前 浏览: 2