劫难-西安Python-程序员客栈

1月前来过

D级

算法工程师

西安

全职 · 800/日 · 17400/月信用一般

工作时间: 周末08:00-22:00工作地点: 远程

服务企业: 1家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

我是程序员客栈的劫难，计算机硕士，一名专注于高难度数据采集的Python爬虫工程师。

主导项目

▋ Elsevier期刊作者信息采集系统（分布式爬虫/反爬对抗）

▋ 跨境电商评论实时监控平台（异步爬取/JS逆向）

▋ 学术画像数据清洗管道（Pandas/特征去重算法）

核心技术栈

√ Python生态：Scrapy/Requests-HTML/PySpider深度优化

√ 反爬体系：Selenium/Playwright自动化 | MitmProxy中间人 | 分布式IP池

√ 数据处理：XPath/Regex精准解析 | Kafka实时清洗 | MySQL/MongoDB存储

√ 部署运维：Docker集群化调度 | Prometheus监控 | 日志溯源系统

擅长从数据源分析到存储落地的完整解决方案设计，注重代码健壮性与数据合规性。

立即预约，获取可免费试跑的爬虫Demo！

2025-02-01 -至今一窗研究院算法工程师
政务服务数字化、政策大数据应用、人工智能场景落地。工作内容：政务数据采集、反爬对抗专项、数据治理与合规、特色技术需求

2022-09-01 - 2025-01-07北方民族大学人工智能硕士已认证
2018-09-01 - 2022-07-01陕西理工大学信息与计算科学专业本科

普通话母语水平

Python精通

作品

国外期刊网站作者信息爬取

本作品基于智能爬虫技术构建了国外期刊作者信息自动化采集系统，针对Elsevier、Springer等主流学术平台设计多维度数据抓取方案。系统采用动态IP代理和请求频率控制策略有效突破反爬限制，结合XPath与正则表达式实现作者姓名、机构等核心元数据的精准提取。创新性引入文献计量学模型，对作者学术影响力进行多维度画像，输出结构化数据集。系统日均处理数据量达20万条，准确率超过92%，为科研评价、人才引进和学术合作提供数据支撑。开发过程中严格遵循国际数据合规标准，采用加密存储与访问权限控制双重保障机制，确保符合GDPR等数据隐私法规要求。

2025-05-02 10:19

更新于: 2025-05-02 浏览: 206

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐