劫难
全职 · 300/日  ·  6525/月
工作时间: 工作日18:00-22:00、周末08:00-22:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我是程序员客栈的劫难,计算机硕士,一名专注于高难度数据采集的Python爬虫工程师。

主导项目

▋ Elsevier期刊作者信息采集系统(分布式爬虫/反爬对抗)

▋ 跨境电商评论实时监控平台(异步爬取/JS逆向)

▋ 学术画像数据清洗管道(Pandas/特征去重算法)

核心技术栈

√ Python生态:Scrapy/Requests-HTML/PySpider深度优化

√ 反爬体系:Selenium/Playwright自动化 | MitmProxy中间人 | 分布式IP池

√ 数据处理:XPath/Regex精准解析 | Kafka实时清洗 | MySQL/MongoDB存储

√ 部署运维:Docker集群化调度 | Prometheus监控 | 日志溯源系统

擅长从数据源分析到存储落地的完整解决方案设计,注重代码健壮性与数据合规性。

立即预约,获取可免费试跑的爬虫Demo!

工作经历

  • 2025-02-01 -至今一窗研究院算法工程师

    政务服务数字化、政策大数据应用、人工智能场景落地。工作内容:政务数据采集、反爬对抗专项、数据治理与合规、特色技术需求

教育经历

  • 2022-09-01 - 2025-01-07北方民族大学人工智能硕士

  • 2018-09-01 - 2022-07-01陕西理工大学信息与计算科学专业本科

语言

普通话
0
1
2
3
4
5

技能

0
1
2
3
4
5
作品
国外期刊网站作者信息爬取

本作品基于智能爬虫技术构建了国外期刊作者信息自动化采集系统,针对Elsevier、Springer等主流学术平台设计多维度数据抓取方案。系统采用动态IP代理和请求频率控制策略有效突破反爬限制,结合XPath与正则表达式实现作者姓名、机构等核心元数据的精准提取。创新性引入文献计量学模型,对作者学术影响力进行多维度画像,输出结构化数据集。系统日均处理数据量达20万条,准确率超过92%,为科研评价、人才引进和学术合作提供数据支撑。开发过程中严格遵循国际数据合规标准,采用加密存储与访问权限控制双重保障机制,确保符合GDPR等数据隐私法规要求。

0
2025-05-02 10:19
更新于: 05-02 浏览: 44